win  koi8  iso  alt  translit
[ИнтерНовости] [Перелетные Мухи] [Словесность] [Музыка] [Галерея] [Транскрипты] [Книга отзывов] [Поиск] [Больше]

Back Index Next

Мамонтам вдогонку


Два месяца назад в Zhurnal.Ru была опубликована заметка со странным названием, посвященная русским системам поиска. Заканчивалась она на оптимистической ноте: "ждите, мол, продолжения". Прошло гораздо меньше времени, чем предполагал автор заметки, и продолжение последовало. В русской Сети обнаружились еще четыре поисковые машины, что сделало сомнительным первородство "Русской Машины Поиска" (хотя и не опровергло ее достоинств).

Zhurnal.Ru (ну и названьице - каждый раз клавиши переключать, да и язык сломаешь), так вот, ZR занял в этом вопросе позицию "наблюдателя за наблюдающим" (самую выгодную в любом деле), опубликовав длиннющий список русских поисковых средств, включающий и "искалки", и каталоги, и даже собственный каталог адресов (явно не поисковое средство, но зато переполненный адресами забавных уголков русской Сети). Разумеется, ни один нормальный человек (и я тоже) не дошел до конца списка в поиске средств поиска, однако первые несколько адресов привлекли внимание многих посетителей ZR.

Кстати, обратите внимание: по-сети-тель. То есть "По Сети!". А "Тель" - это так, начало названия одного города... Нет, простите, просто суффикс. Я отвлекся. Я Паравозова начитался. С обозревателями тоже проблемка, я разогнался было пропеть хвалу автору "ВИ" - глядь, а их, обозревателей, уже четверо! И каждый по-своему мил. Ребята взяли нелегкий труд поиска на себя, обслуживание - высший класс, это им искалки нужны, мы же все получим на блюдечке. А это опасно, ибо они получают недопустимую власть над молодыми неокрепшими умами, подсовывая им адресочки по СВОЕМУ вкусу. Вот вам и пагубное воздействие компьютера. А у меня на эту тему тоже адресочек имеется.Вот.

А теперь слово предоставляется тем, кто Сеть строит. То есть, в данном случае, создателям поисковых систем. Я задал более-менее похожие вопросы авторам трех новых "искалок", и их ответы, которые я поначалу планировал лишь использовать как "материал", приведу почти полностью - совесть замучила. Все равно не смогу заменить своей болтовней слово специалиста. Позволю себе лишь краткие комментарии.

Представим участников:

Дмитрий Крюков - "Rambler"

Программист. Системный администратор. Фирма "Stack Ltd.".

Майк Шишмарев - "Russian Search". (Так в подписи - "Майк".)

Директор, организатор, вебмастер. Фирма "Русский Экспресс".

Силантий Крестовоздвиженский - "ТЕЛА-поиск"

Программист. Фирма "DUX Ltd.".

Итак, определимся на оси времени: когда появились русские искалки?

"Рамблер" задумался, порылся в памяти:

- Точно не помню - где-то в ноябре, когда мы запустили канал в 256Кб до Москвы - М9.

"Русский Поиск" сообщил:

- Идея пришла в голову в мае 1996, летом она была пущена в пробном режиме, где-то с сентября - в более-менее нормальном. Только что начался плановый upgrade железа на сервере, а также серьезные доработки софта. В ближайшие 1-2 месяца мы намерены сделать из системы лучшую среди специализированных русских серверов. Реальные улучшения будут заметны уже через 10 дней: мы введем часть нового софта.

"ТЕЛА" вспомнил:

- Наружу система была выставлена в начале декабря 1996 к выставке Invecom (ТЕЛА - латинское слово; означает "паутина, ткань, текст, ..., орудие, инструмент..." - игра слов и смыслов...) Она существует с декабря и работает постоянно. "Опытная эксплуатация" - это "отмазка", так как система еще далеко не завершена (и когда это будет...) Но и теперешнее состояние вполне пригодно к использованию - потому и выставлено.

Вот так: все они появились осенью-зимой 1996 года. Тогда же, когда начался резкий подъем Интернета в России.

Одна из главных проблем создания региональной поисковой системы - выбор области определения. В конечном счете, от этого зависит результат поиска. Механический подход здесь недопустим, а автоматизация сложна.

Каков же принцип отбора "русских" сайтов у разных искателей?

"Рамблер" углубился:

- В config file для retriever указал:
а) домены первого уровня, которые точно "русскоязычные", т.е. *.ru, *.su, *.ua, *.by, *.kz и т.д.
б) там я указал общеизвестные домены второго уровня типа: sovam.com, mvc.net, stack.net, free.net, rosmail.com и т.д.; основываясь на личном опыте 7-летней работы в сети, а также на основе конфиг-файлов Релком-Статистикс.
в) все, ну, или большая их часть, кто не попадал в эти категории, в первый же месяц заполнили анкету-запрос на индексацию (анкета доступна с головной страницы) - и я их тоже внес в конфиг-файл.

"Русский Поиск":

- Все, где есть домен .ru, и все, на что есть ссылки с основных русских каталогов (таких, как www.ru, weblist.ru) и собственная база URL-ов, созданная по пункту "Add URL" на нашей системе.

"ТЕЛА" сказал:

- Сервера отбираются вручную, затем на них напускается паук-робот, которому также вручную указывается, какие поддеревья сервера обходить, а какие пропускать, чтобы не скачивать одно и то же в разных кодировках.

А попадет ли новый русский сервер, на лбу которого не написано, что он русский, в базы данных искателей? Отдельная русская страница на заведомо нерусском сервере? Боюсь, что это забота владельца (пользователя) сервера или страницы. Неплохо было бы иметь некое неписаное соглашение по маркировке "русских" страниц - например, включать в МЕТА какое-нибудь отличительное слово. Скажем, "СССР"...

"Если звезды зажигаются, значит, это кому-нибудь нужно..." (цитирую по памяти).

Какова цель создания русских поисковых систем? Я имел в виду корысть, а получил вот что:

"Рамблер" ответил без шуток:

- Обеспечить возможность сбора и поиска по документам в любой кодировке, с автоматическим ее определением. "АльтаВиста" ищет без учета этого, и если вы дали ей запрос в кои8-р, то никогда не получите информацию о документе в win-1251, возможно, наиболее важном для вас.
- Обеспечить исправление явных ошибок согласно словарям, чтобы документ был пригоден для поиска.
- Обеспечить соответствующую глубину сканирования российских сайтов (монстры типа "АльтаВисты" из-за своих сверхбольших объемов не справляются с этой задачей, ибо хотят "объять необъятное", несмотря на то, что собирают информацию одновременно на нескольких машинах). Уже сейчас "Рамблер" находит больше документов по русским словам (можете для примера попробовать на русском что-нибудь, например, "фуфайка" :) И это понятно - "Рамблер" содержит почти 500 тысяч документов, "АльтаВиста" - 30 миллионов, т.е. на "Рамблере" всего в 60 раз меньше. Я не думаю, что объем "русских" WWW-серверов пока превосходит 1% от мирового.
- Обеспечить приемлемую динамику отслеживания изменений в документах (это в "Рамблере" меня пока не удовлетворяет).
- Доказать, что и в России можно делать подобные вещи, даже не имея той технической и материальной базы, какая есть на Западе, за счет качества программной части. Думаю,"АльтаВиста" крутится на машине AlphaServer 8200 (или что-нибудь еще более крутое), а я имею AlphaServer 1000 - можете посмотреть по каталогам, какая между ними разница - небо и земля.
- Добавить популярности к доброму имени компании "Stack".

"Русский Поиск" понял, что хотел услышать ZR:

- Обе: как чисто гуманитарная (думаю, объяснять не надо), так и мечта о том, что в далеком прекрасном будущем она, возможно, будет приносить сколько-нибудь серьезные деньги за размещение рекламы. Кроме того, это косвенная реклама для www.express.ru.

"ТЕЛА" ответил прямо:

- Думаю, та же, что и у прочих подобных систем... у нас давно уже имелась система поддержки русского языка (см. фильтрация, новости и прочее), но ее трудно было продать - пришлось для ее "реализации" писать разные приложения...

Ну что ж, резонно. "Русская АльтаВиста", о которой скажем чуть позже, ибо она не совсем вписывается в классическое понятие "поисковой машины", преследовала похожую цель - рекламу своего ПО. Выиграли в результате все.

И все же, что заставит меня отвратить свои взоры от классика жанра "АльтаВисты" и попросить помощи у русского искателя?

Что отличает вашу машину от "АльтаВисты", какие пользовательские удобства?

"Рамблер" (ответивший на этот вопрос выше) был краток:

- Не думаю, что что-то отличает в этом плане. Более того, на сегодняшний день "АльтаВисте" можно давать более изощренные запросы. Но это только дело времени, к сожалению, и материальной базы тоже. Хотя, возможно, с учетом потерь времени на зарубежных линках, у "Рамблера" более приемлемая скорость отклика.

"Русский Поиск" пожал плечами:

- В том, что она знает больше русских ресурсов. Способ наполнения каталога URL-ов под индексацию весьма изощрен...

"ТЕЛА" вздохнул:

- Сложный вопрос...
а) учетом морфологии русского языка ("АльтаВиста" не учитывает, кроме приложения от CTI);
б) "ресурсами" - как hard & software, так и человеческими - "ТЕЛА" делаю я один, время от времени, на простом "писюке".

На самом деле, русские искалки должны отобрать у "АльтаВисты" русского посетителя, пришедшего за русским словом, в ближайшее время. Тому есть весьма серьезные предпосылки: русские машины обладают большей резолюцией, поскольку сфокусированы на относительно малом количестве серверов. По той же причине скорость обновления информации также должна быть выше. Русские машины могут включать в себя лингвистические надстройки-обработчики пользовательских запросов. Немаловажный фактор: бороться с обилием русских кодировок только русские и могут. Решение, предложенное создателем "Рамблера" ("нормализация" кодировок к одной КОИ-8), показалось мне наиболее интересным. "Альта" хоть и хороша, но никогда для нас всего этого не сделает. Разве что нас станет очень много. Впрочем, факт потери охотников за русским словом вряд ли напугает держателей "АльтаВисты". Основным недостатком "Альты", на мой взгляд, является отсутствие возможности направленного поиска по каталогам, что решилось созданием совместного проекта "Yahoo-Alta Vista". В русской Сети, так же, как и в глобальной, каталоги возникли раньше "искалок", однако вряд ли могут поспорить в эффективности с поисковыми системами. Объединение этих двух видов поиска даст пользователю идеальный инструмент. Насущная необходимость есть.

Так будет ли когда-нибудь создан систематизированный каталог на базе данных, собранной вашей машиной?

"Рамблер" замялся:

- Трудно сказать... Для такой работы необходима команда. Пока же все, что сделано и делается - делается мною одним, почти на голом энтузиазме. При этом я являюсь администратором нашей региональной сети, а она не маленькая. Но мысли кое-какие есть.

"Русский Поиск" обнадежил:

- Будет, надеюсь. В ближайшее время ожидается создание нескольких тематических подсистем на www.search.ru, принимаются предложения по тематикам.

"ТЕЛА" поделился:

- Есть намерение сделать по возможности машинную классификацию, не ручную.

Ну что ж, будем надеяться, что все благие намерения в скором времени будут осуществлены, и мы получим дополнительную возможность поиска - по темам, а авторы - дополнительный траффик, по заслугам.

Не будем пока останавливаться на существующих русских тематических каталогах. Думаю, что сращивание их с "искалками" неизбежно, и союз "АльтаВисты" с "Ау", простите, "Йаху" - хороший тому пример. А вот "Русская АльтаВиста" фирмы CTI - пример другого союза с "АльтаВистой". Правда, знает ли об этом союзе сама "АльтаВиста"? Создатели этого интересного проекта не ставили целью сбор русских URL-ов. Они взяли уже существующий в закромах "Альты" материал и пропустили его через свое сито.

Говорит (пишет) Елена Колмановская - менеджер лингвистических проектов фирмы CTI.

Любопытный ZR:

- Расскажите, пожалуйста, немного о системе Яndex, взятой за основу "Русской АльтаВисты".

Елена:

- Яndex - это поисковое средство, обеспечивающее индексацию и поиск в русских текстах с учетом морфологии русского языка. То, что вы видите в разделе "Поиск в индексе AltaVista с полным учетом русской морфологии", - это морфологичеcкий модуль, более-менее искусственно выделенный из системы (Яndex-Dict). Мы сделали это как демонстрацию наших филологических умений, которая, впрочем, уже начинает иметь спрос (наряду с полноценным Яndex'ом) в тех случаях, когда у пользователя уже есть индексирующая система. Принцип действия Яndex таков: система просматривает все предоставленные ей русские тексты, ставит каждое слово текста в нормальную форму и запоминает подробный адрес этого слова, вплоть до положения слова внутри абзаца и документа. При поиске слова поискового запроса также нормализуются. В результате запроса возвращается список документов, удовлетворяющих условию. Поскольку система хранит подробный адрес, в документах подсвечиваются найденные слова.

Въедливый ZR, обеспокоенный сохранением авторских прав "Альты":

- Есть ли специальная договоренность между вами и хозяевами "АльтаВисты"?

Елена:

- Никакой специальной договоренности между нами и AltаVista нет. AltaVista разрешает включать свой логотип и обращение в свои странички при условии некоммерческого использования.

Привередливый ZR, на которого поиск некоего нецензурного слова обрушил гору японских страниц:

- Скажите, не могли бы вы фильтровать нерусские страницы, попавшие в поток вывода "Альты" случайно, из-за совпадения последовательностей ASCII кодов?

Елена:

- AltaVista не разрешает менять свою выходную страничку - поэтому мы не можем отфильтровать японские страницы. Для удобства пользователей мы добавили в 'Область поиска' возможность ограничения на Россию или Россию и США (чисто формально - по названию доменов).

Конец связи :-(

Засим, дорогие читатели, позвольте откланяться. Выводов не будет. Любой индивидуум, умеющий включить компьютер и вызвать "бродилку", сделает их сам. Просто порадуемся, что у нас есть теперь проводники в Вавилонской Библиотеке, говорящие на родном языке, а главное, хорошо его понимающие. Спасибо всем.

Саша Шерман
sherman@sharat.co.il
для Zhurnal.Ru


[ИнтерНовости] [Перелетные Мухи] [Словесность] [Музыка] [Галерея] [Транскрипты] [Книга отзывов] [Поиск] [Больше]

Sputnik
Advertising NetworkSputnik
Advertising NetworkSputnik
Advertising NetworkSputnik
Advertising Network

Back Index Next
viewsonic viewpad 7 EF-russia: обучение за рубежом подробная информация на сайте.Уникальное термобелье с хитофайбером.
Новые модели: коньки хоккейные в Спортмастере!Качественный перевод с русского на английский в краткий срок.