Использование Textkit вместо парсеров контента
Метки: textkit | парсер
Пятница, 30 октября 2009 г.
Просмотров: 3094
Подписаться на комментарии по RSS
Напишу статью о том как сэкономить деньги на покупке парсеров. Поэтому и название статьи такое.Если у вас есть комбайн Textkit Standart, то вам не нужен платный парсер...Постараюсь показать и рассказать как использовать Textkit в этой технологии.
Первое-Как скачать чужой сайт?
Немного об этике...Считаю, что чужой сайт можно сграбить, если сайт сделан, как чистый ГС. У меня часто бывало, что находил хорошую книгу под сайт, но этот материал уже был использован на каком-то сайте. Но этот сайт был отвратительно сделан, чистый ГС. Плохая структура сайта, плохой дизайн, плохое разбиение статей, использование для навигации, не анкоров, а только номеров. Считаю чистые ГС не должны существовать! Ну это, конечно, спорно, но всеже...Если увидите, что книга используется всего один раз, то без проблем можете грабить, но постарайтесь сайт получше сделать!
Для грабежа использую 2 варианта:
1) Качалку сайта Teleport, если нет Карты сайта
2) Самописную утилитку, которая скачивает страницы по списку url (Для создания списка url использую карту сайта)
Использование Teleport Pro
Самое главное указать в настройках нового проекта Копировать сайт со структурой каталогов

Это даст вам возможность легче структурировать скаченный контент и выбрать из нужных каталогов только (используя также название файлов, которые сгенерировались по url) те файлы которые содержат только полные тексты статей. Т.е. зачем нам весь страницы с всяким мусором
, типа всяких аннонсов и страниц с рубриками?
Использование скриптов
Ну тут все просто и железно
.Находим и сохраняем Карту сайта.Я в Textkit, с помощью регулярных выражений, поиском и заменой удаляю все ненужное и оставляю только url страниц.Загружаю этот список url в свою утилитку, и закачиваю эти страницы на комп.
Второе действие простое - Загрузка в Textkit
Выбранные страницы загружаем в Textkit пакетным импортом.При чем тут тоже могут быть варианты работы:Можно загрузить страницы удаляя все теги HTML.Можно указать какие теги оставить, а потом поиском и заменой с помощью регулярных выражений почистить.Надо смотреть на на структуру сайта индивидуально, и выбирать один из этих вариантов...
Выводы.
А теперь понятно, что покупать парсер не нужно...Специализация парсера очень узка, он грабит, конечно, и очищает текста статьи, но получить со сложных сайтов чистые тексты все равно трудно.Даже лучшие из них не дают такой большой выбор форматов для экспорта в CMS.Мне, например, очень нравится Супер парсер контента. Почти уверен, что данный парсер будет развиваться, и может станет даже чем большим...
Но сейчас видим, с помощью Textkit можно сделать тоже самое, что делает любой парсер, получая большее качество и используя,правда, чуть большее количество операций.
Ну и все. Все остальное в пользу комбайна Textkit. Практически за туже цену получаем большие возможности и постинг в различные CMS. Намного большие возможности!!!


Комментариев: 1
Очень хороший контент можно отыскать на иностранных языках. Google переводит уже с более 40 языков и имеет для этого различные инструменты. С помощью панели инструментов Google доступных только для браузеров Internet Explorer и Firefox можно переводить страницы на других языках. Для этого нужно зайти на http://translate.google.ru/translate_tools?hl=ru и загрузить панель инструментов Google.
Эта программа бесплатна и устанавливается за считанные секунды.Кнопка установки находится в нижнем левом углу открывшейся страницы. После установки на браузере появится новая панель на которой найдете кнопку "перевести". Такой перевод позволяет понять не сложную информацию. А затем в ручную с помощью другого переводчика переработать в литературный вариант.