Інтернет

Яндекс, с днем рождения!

2

23 сентября, фирма CompTek сообщает об открытии новой поисковой машины http://yandex.ru. Поисковая машина использует механизм . Яndex-Web, областью поиска являются Web-сервера доменов ‘su’ и ‘ru’, а также иностранные русскоязычные сервера, в том числе — стран СНГ.

Яndex-Web представляет собой естественное развитие программных продуктов серии Яndex (Яndex.Site, Яndex.CD, Яndex.Dict, Яndex.Lib). Как и все Яndex-системы, Яndex-Web является полнотекстовой поисковой системой с учетом морфологии русского и английского языка. В отличие от популярной морфологической надстройки к поисковой системе AltaVista (http://www.comptek.ru/alta.html), Яndex-Web является полностью оригинальной разработкой CompTek.

В настоящий момент робот (сетевой паук) обходит 5 тысяч серверов (около 4 Гб текстов) каждую неделю, список серверов пополняется. При индексировании проверяется уникальность документов — это значит, что, если документ существует в нескольких кодировках и/или на нескольких зеркалах, в списке найденного он будет указан один раз (и, соответственно, один раз учтен в статистике).

Алгоритмы морфологического разбора, основанные на грамматическом словаре, умеют нормализовать слова, то есть находить их начальную форму. Для неизвестных Яndex’у слов строится гипотетическая словарная статья, позволяющая обрабатывать (анализировать и синтезировать) такие слова аналогично известным.

Язык запросов (как и в других продуктах Яndex), помимо стандартных логических операторов (И, ИЛИ), включает оператор исключения (И НЕ), а также позволяет осуществлять поиск внутри абзаца, внутри документа, в заголовках и других полях, а также с указанием расстояния между словами. В дополнение к обычной практике Яndex — нормализации слов при индексации и поиске, реализован также запрос по точной словоформе. Язык запросов более подробно описан на странице http://yandex.ru/ya_detail.html.

Найденные документы отсортированы по релевантности, которая учитывает не только «контрастность» слова, то есть его относительную частоту для данного документа, но и расстояние между словами, и положение слова в документе.

Яndex-Web при индексировании запоминает позицию слова в документе, что дает возможность не только искать «с расстоянием», но и выделить (подсветить) слова, найденные в тексте. Если документы были изменены после индексирования, выдается соответствующее предупреждение.

Презентация поисковой машины Яndex-Web состоялась в четверг, 25 сентября в 16.00, на выставке Softool на стенде д17 (CompTek).

Фирма CompTek International занимается внедрением новых компьютерных и телекоммуникационных технологий. CompTek International работает на российском рынке с 1989. Компания имеет обширный опыт внедрения таких технологий, как беспроводные компьютерные сети, компьютерная телефония и полнотекстовые поисковые системы. CompTek International на основе эксклюзивных и не эксклюзивных соглашений поставляет на российский рынок продукцию и технологии таких компаний, как Everex, Cisco, Dialogic, Sun, Lucent, Cylink, Aironet, Artisoft, VocalTec и др.

Все упоминаемые в тексте названия, предлагаемые услуги, зарегистрированные и незарегистрированные торговые марки являются собственностью их соответствующих владельцев.

http://yandex.ru/

2 Comments

  1. … [Trackback]

    […] Read More Info here on that Topic: portaltele.com.ua/news/internet/2011-09-23-03-17-02.html […]

  2. … [Trackback]

    […] Info on that Topic: portaltele.com.ua/news/internet/2011-09-23-03-17-02.html […]

Leave a reply