CompTek International


NEWS RELEASE

Яndex - СРЕДСТВО ПОЛНОТЕКСТОВОГО ПОИСКА ИНФОРМАЦИИ С УЧЕТОМ МОРФОЛОГИИ РУССКОГО ЯЗЫКА

18 октября, Москва - Фирма CompTek представляет программные продукты серии Яndex (Языковый index) - набор средств полнотекстовой индексации и поиска в текстовых данных с учетом морфологии русского языка.

Яndex может по любому слову отыскать документы, содержащие все формы этого слова, даже очень далекие от первоначальной, так что Пользователь избавлен от необходимости ломать голову над запросом, вспоминая склонения и спряжения, или получать избыточную информацию, используя шаблон "*" .

Примеры:

  • Такие слова, как идти-шел, искать-ищу, я-меня, человек-люди, ребенок-дети
  • Русские глаголы имеют до 250 различных форм
  • Чередования, которые не позволяют найти слово по шаблонам (окно-окОн, отзываться-отОзвался: запрос ок* или от* даст много мусора)

Яndex включает модули морфологического анализа и синтеза, индексации и поиска, а также набор вспомогательных модулей, таких, как анализатор документов, языки разметки, конверторы форматов, сетевой "паук".

Алгоритмы морфологического анализа и синтеза, основанные на базовом словаре, умеют нормализовать слова, то есть находить их начальную форму, а также строить гипотезы для слов, не содержащихся в базовом словаре. Система полнотекстового индексирования позволяет создавать компактный индекс и быстро осуществлять поиск с учетом логических операторов.

Яndex предназначен для работы с текстами как в локальной так и в глобальной сети (технологии Intranet и Internet) , а также может быть подключен как модуль к другим системам.

Морфологический анализ и синтез
Для интеллектуализации поиска используется словарь на 90 тыс. слов и алгоритм морфологического разбора, который умеет корректно обрабатывать и слова, не найденные в словаре. Система позволяет корректировать и добавлять новые слова в словарь с описанием их морфологии.

Индексация
Создаваемый индекс составляет около 1/3 объема текста, скорость индексации - 2 Мб/мин. Морфологический анализ слов текста происходит одновременно с индексацией, что дает возможность снятия омонимии и значительно сокращает объем индексных файлов.

Поиск
Развитый поисковый интерфейс позволяет помимо стандартных логических операторов задавать поиск по близости. Слова запроса анализируются и нормализуются таким же образом, как и слова текстов, так что запрос приближен к естественному языку. При выдаче результатов поиска найденные слова подсвечиваются.

Возможные применения технологии:

Internet

  • индексация пользователем собственного Web-сайта (Яndex-Site)
  • создание русского поискового механизма для Internet (Яndex-Web)
  • подключение модуля морфологии к существующим поисковым средствам (Яndex-Lib)
Intranet
  • индексация документов в локальной сети (Яndex-Intra)
  • подключение модуля морфологии к существующим базам данных и системам документооборота (Яndex-Server)

Дополнительная информация про программные продукты доступна в Internet по адресу http://www.cti.ru (WEB-site CompTek International) .

Фирма Comptek International занимается внедрением новых компьютерных и т елекоммуникационных технологий. На основе Яndex созданы "Справочник Международная классификация изобретений" и поисково-информационная система "Библeйский компьютерный справочник" (демо-версия на нашем сайте), готовится к выпуску первый CD-ROM из серии "Электронное научное издание", посвященный жизни и творчеству А.С. Грибоедова (проект "Электронное научное издание" осуществляет НТЦ "ИнформРегистр").

# # #

Все упоминаемые в тексте названия, предлагаемые услуги, зарегистрированные и незарегистрированные торговые марки являются собственностью их соответствующих владельцев



Copyright © 1996 Comptek International
viewsonic viewpad 7 Уникальное термобелье с хитофайбером.Смартбай: горячий воск купить оптом на сайте.
Новые модели: коньки хоккейные в Спортмастере!Качественный перевод с русского на английский в краткий срок.