:: urbansheep (urbansheep) wrote,
:: urbansheep
urbansheep

  • Music:

Как организовать поиск в своём журнале через гугл/яндекс

Как известно, есть несколько вариантов обеспечения поиска в журнале:

  1. Разрешить индексацию соответствующими роботами в настройках журнала. Закрытые записи вылетают. Роботы никому ничем не обязаны, поэтому индексируют не всё, и „под настроение“.
  2. Слить журнал и искать локально через любой grep или родной поисковый сервис Windows/MS Office. Негибко. Только по подстроке, без морфологии. Зато с регулярными выражениями.
  3. Написать свой индексирующий поисковый сервис или установить (Mnogo|ASP)Search. Не для слабых духом развлечение.
  4. Залить копию журнала на хостинговую машину и прикрутить к ней Яндекс-Лайт. Ограничение на 5 МБ.

Что ещё можно придумать? В связи с конкурентной борьбой, получение Гугл-Яндекс-поиска для своего журнала (и любого более-менее закрытого, но не критически важного хранилища документов вообще) становится очень просто. Не то, чтобы действительно очень, но просто. Три хода:

  1. Стащить журнал (с комментариями или без — как угодно) через aljALJ или ljsm. Эстеты могут вырезать все служебные картинки (Search and Replace, EmEditor или любой другой редактор на выбор).

    Если не нужны комментарии, можно обойтись экспортированным из журнала хемулем (в кодировке Windows).

  2. Написать фильтр „мой лж“ в почте. Фильтруем по какой-нибудь подстроке в слежебном заголовке, например, „X-LiveJournal-Export:[username]“, которую сами же и вставим потом при отправке. Полученное пусть сливается в отдельную папку или помечается нужным маркером.

    Подумать полчаса над тем, какой скрипт к полученной массе текстовой массе прикрутить.

    Его дело: взять файл, вставить имя пользователя в заголовок X-LiveJournal-Export, а заголовок (title) самого файла — в тему письма, вместе с именем файла (обычно это уникальный идентификатор). Содержимое файла надо забросить в тело письма, в обнимку с content/type:text/html, после чего швырнуть в сторону ближайшего SMTP. В качестве адресата указываем свой яндексовый или гугловый ящик.

    Молимся, чтобы на SMTP не было антиспам-блокиратора, реагирующего на количество посланных писем в час (минуту) или смотрящего в данный момент на консоль администратора-параноика.

  3. Запустить несколькими сериями скрипт на отправку: 10, 50, 250, 500 сообщений, во время каждой ведём лог: имя файла, ответ сервера. Несколько серий — чтобы точно знать, в какой момент потребуется сменить SMTP-сервер, если тот даст вдруг от ворот поворот.

    На яндексе время от времени контролируем оставшийся в ящике свободный объём, при необходимости идём в настройки и говорим „мне, пожалуйста, ещё места“.

    После того, как скрипт успешно запустит все файлы в стратосферу, они (с некоторой задержкой) окажутся в почтовом ящике. Мой журнал и его скромные 30 МБ текстов будут ждать меня в этом информационном раю. Если повезёт.

Дальше достаточно досылать ежемесячные добавочные порции. Как быть с записями, которые были изменены, и должны быть перезалиты заново, мне пока не пришло в голову. Вернее, варианты есть, но они негибкие — архив в результате получается необновляемым (если, конечно, счёт обновлённых записей идёт на единицы, а не десятки, как это происходит при массовой проставке utx-маркеров).

В целом же — всё. Можно испытывать поиск на прочность, наслаждаться всем почтовым сервисом, который предлагается серверами, и наплевательски относиться к тому, что твои личные данные лежат в дата-центре Большого Брата какого-то чужого дяди.

А пока времени на написание нужного скрипта на питоне или пхп у меня нет, я попробую забросить пару пдф-ных книжек и посмотреть, что гугл будет делать с ними.



Subscribe
  • Post a new comment

    Error

    Comments allowed for friends only

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 22 comments