Использование Textkit вместо парсеров контента

Рубрика: ПО и сервисы
Метки: |
Пятница, 30 октября 2009 г.
Просмотров: 3094
Подписаться на комментарии по RSS

Напишу статью о том как сэкономить деньги на покупке парсеров. Поэтому и название статьи такое.Если у вас есть комбайн Textkit Standart, то вам не нужен платный парсер...Постараюсь показать и рассказать как использовать Textkit в этой технологии.

Первое-Как скачать чужой сайт?

Немного об этике...Считаю, что чужой сайт можно сграбить, если сайт сделан, как чистый ГС. У меня часто бывало, что находил хорошую книгу под сайт, но этот материал уже был использован на каком-то сайте. Но этот сайт был отвратительно сделан, чистый ГС. Плохая структура сайта, плохой дизайн, плохое разбиение статей, использование для навигации, не анкоров, а только номеров. Считаю чистые ГС не должны существовать! Ну это, конечно, спорно, но всеже...Если увидите, что книга используется всего один раз, то без проблем можете грабить, но постарайтесь сайт получше сделать!

Для грабежа использую 2 варианта:

1) Качалку сайта Teleport, если нет Карты сайта

2) Самописную утилитку, которая скачивает страницы по списку url (Для создания списка url использую карту сайта)

Использование Teleport Pro

Самое главное указать в настройках нового проекта Копировать сайт со структурой каталогов

Настройка Teleport Pro

Это даст вам возможность легче структурировать скаченный контент и выбрать из нужных каталогов только (используя также название файлов, которые сгенерировались по url) те файлы которые содержат только полные тексты статей. Т.е. зачем нам весь страницы с всяким мусором grin, типа всяких аннонсов и страниц с рубриками?

Использование скриптов

Ну тут все просто и железно grin.Находим и сохраняем Карту сайта.Я в Textkit, с помощью регулярных выражений, поиском и заменой удаляю все ненужное и оставляю только url страниц.Загружаю этот список url в свою утилитку, и закачиваю эти страницы на комп.

Второе действие простое - Загрузка в Textkit

Выбранные страницы загружаем в Textkit пакетным импортом.При чем тут тоже могут быть варианты работы:Можно загрузить страницы удаляя все теги HTML.Можно указать какие теги оставить, а потом поиском и заменой с помощью регулярных выражений почистить.Надо смотреть на на структуру сайта индивидуально, и выбирать один из этих вариантов...

Выводы.

А теперь понятно, что покупать парсер не нужно...Специализация парсера очень узка, он грабит, конечно, и очищает текста статьи, но получить со сложных сайтов чистые тексты все равно трудно.Даже лучшие из них не дают такой большой выбор форматов для экспорта в CMS.Мне, например, очень нравится Супер парсер контента. Почти уверен, что данный парсер будет развиваться, и может станет даже чем большим...

Но сейчас видим, с помощью Textkit можно сделать тоже самое, что делает любой парсер, получая большее качество и используя,правда, чуть большее количество операций.

Ну и все. Все остальное в пользу комбайна Textkit. Практически за туже цену получаем большие возможности и постинг в различные CMS. Намного большие возможности!!!

Комментариев: 1

  1. 2009-11-01 в 23:39:42 | Аноним

    Очень хороший контент можно отыскать на иностранных языках. Google переводит уже с более 40 языков и имеет для этого различные инструменты. С помощью панели инструментов Google доступных только для браузеров Internet Explorer и Firefox можно переводить страницы на других языках. Для этого нужно зайти на http://translate.google.ru/translate_tools?hl=ru и загрузить панель инструментов Google.

    Эта программа бесплатна и устанавливается за считанные секунды.Кнопка установки находится в нижнем левом углу открывшейся страницы. После установки на браузере появится новая панель на которой найдете кнопку "перевести". Такой перевод позволяет понять не сложную информацию. А затем в ручную с помощью другого переводчика переработать в литературный вариант.

Оставьте комментарий!

Не регистрировать/аноним

Используйте нормальные имена. Ваш комментарий будет опубликован после проверки.

Если вы уже зарегистрированы как комментатор или хотите зарегистрироваться, укажите пароль и свой действующий email.
(При регистрации на указанный адрес придет письмо с кодом активации и ссылкой на ваш персональный аккаунт, где вы сможете изменить свои данные, включая адрес сайта, ник, описание, контакты и т.д.)



grin LOL cheese smile wink smirk rolleyes confused surprised big surprise tongue laugh tongue rolleye tongue wink raspberry blank stare long face ohh grrr gulp oh oh downer red face sick shut eye hmmm mad angry zipper kiss shock cool smile cool smirk cool grin cool hmm cool mad cool cheese vampire snake excaim question

(обязательно)