Проблема, конечно, заключается в том , что обычная поисковая система не оптимизирована для этого процесса. Google, например, считает страницы важными, если они связаны с другими важными страницами (это лежит в основе знаменитого алгоритма PageRank). Тем не менее, редкие заболевания, по определению, вряд ли будут иметь высокую известность в Интернете. Более того, поиски, скорее всего, страдают от сведений, предоставляемых нерелевантными источниками.
Раду Драгусин (Radu Dragusin) из Технического университета Дании и несколько его коллег представили альтернативу. Эти ребята создали на заказ поисковую систему, ориентированную на диагностику редких болезней, которая получила название FindZebra. После сравнения результатов этой поисковой системы с аналогичным поиском Google, оказалось, что релевантность поиска у FindZebra значительно выше.
«Магический ингредиент» FindZebra — это индекс, который используется для получения результатов. Драгусин и коллеги создали этот показатель, изучив специально отобранные базы данных по редким заболеваниям. Это, прежде всего, онлайн-база каталога фенетических маркеров у человека, Информационный центр по генетическим и редким заболеваниям и «Orphanet» (сайт, посвященный редким заболеваниям).
Затем они применили Indri – программу информационного поиска с открытым кодом – чтобы «прикрутить» свой индекс к веб-сайту с обычным поисковым интерфейсом. Так и получилась FindZebra.
Например, на FindZebra поисковый запрос «Мальчик, нормально рожденный, деформация обоих больших пальцев на ногах (отсутствует соединение), быстрое развитие опухоли кости вблизи позвоночника и остеогенез при биопсии» дает правильный диагноз «прогрессирующая оссифицирующая фибродисплазия» первым же результатом. В поиске через Google этот диагноз не появляется вообще!
Это означает, что алгоритм PageRank, или, по крайней мере то, как Google его использует, не подходит для работы с редкими заболеваниями. «Наш вывод, что FindZebra опережает Google в решении этой задачи (особенно когда поиск ведется только по релевантным сайтам – система Google Resticted), предполагает, что алгоритм ранжирования Google не является оптимальным решением для поставленной нами задачи», заключили медики.
Драгусин и его коллеги сделали поисковую систему по редким заболеваниям доступной широкой публике на www.findzebra.com. Это действительно может стать ценным инструментом для медицинского сообщества.
Но не совсем ясно, как этот инструмент будет использоваться широкой общественностью. Сайт открывается отчаянным сообщением:«Внимание! FindZebra является исследовательским проектом, и должен использоваться только специалистами в области медицины». Понятно, что новая поисковая система может стать Библией ипохондриков – но ведь это касается любого медицинского справочника.
Пациенты все чаще посещает врачей, вооруженные подробной информацией, скаченной из интернета. Любой шаг в направлении улучшения качества этой информации, безусловно, крайне важен.