Close Menu
Український телекомунікаційний портал
    Facebook X (Twitter) Instagram Threads
    Український телекомунікаційний портал
    • Новини
    • Мобільна техніка
    • Технології
    • ПЗ
    • Наука
    • Транспорт
    • Дім
    • Обладнання
    • Здоров’я
    Facebook X (Twitter) YouTube Telegram
    Український телекомунікаційний портал
    Home»Новини»Інтернет»Google научился проверять факты в текстах
    Інтернет

    Google научился проверять факты в текстах

    ВолодимирBy Володимир05.03.20152 коментарі2 Mins Read
    Facebook Twitter Email Telegram Copy Link

    Раньше Google понижал в выдаче веб-страницы с маленьким количеством входящих ссылок. Скоро он научится «наказывать» страницы с текстом, который содержит недостоверные факты. Это следует из научной работы “Knowledge-Based Trust: Estimating the Trustworthiness of Web Sources” от сотрудников Google.

    Им удалось разработать систему, которая автоматически извлекает факты с веб-страниц, отличает ошибки парсинга от фактологических ошибок в тексте, а затем вычисляет уровень достоверности текста (оценка KBT, Knowledge-Based Trust). Эта оценка иногда является более объективным показателем, что рейтинг PageRank (по крайней мере, рейтинг KBT способен уточнить значение PageRank). Например, у сайтов с «жёлтыми» новостями часто больший рейтинг PageRank, потому что на них много входящих ссылок из-за вирусности контента. Но в то же время их нельзя считать надёжным источником информации.

    Для извлечения фактов использовались наработки проекта Knowledge Vault (KV), который применяет 16 различных методов извлечения триад данных (субъект, утверждение, объект) с веб-страниц. Субъект и утверждение принадлежат к множеству из краудсорсинговой базы знаний Freebase, а объект может быть сущностью, числом, датой или строкой.

    Триада считалась «правдивой», если она в полном составе присутствует в базе Freebase. Если же там есть субъект и утверждение, а значение объекта иное, то факт считался ложным. Если пара из субъекта и утверждения отсутствует в базе, то такую триаду исключали из выборки.

    Ошибки парсинга отличали по нескольким признакам: 1) субъект = объект; 2) субъект или объект не соответствует требованиям; 3) объект находится за пределами диапазона значений (например, вес спортсмена более 500 кг).

    Исследователям удалось значительно улучшить результат работы Knowledge Vault. Кроме вышеупомянутого разграничения ошибок парсинга и фактических ошибок, они также сделали более сложную модель, которая умеет учитывать рейтинг нескольких страниц с одного веб-сайта, а не каждой страницы по отдельности. Дело в том, что по отдельности качественно вычислять рейтинг не всегда получается: так, для более миллиарда веб-страниц KV сумела извлечь только по одной триаде данных, а с некоторых страниц — десятки тысяч триад.

    Untitled-1

    Технологию проверили на выборке в 119 млн веб-страниц и 5,6 млн веб-сайтов, которые сравнили с базой 2,9 млрд фактов, собранных из интернета. Такое масштабное тестирование подобных систем тоже проведено впервые. Ручная проверка показала, что автоматическое KBT-рейтингование работает хорошо.

    Интересно, что PageRank и KBT зачастую являются ортогональными сигналами. Так, высокий PR и низкий KBT характерен для «жёлтых» СМИ из этого списка и веб-форумов.

    Untitled-2

    Результаты работы предложено использовать для улучшения объективности PageRank, но они могут найти применение и в некоторых других задачах по дата-майнингу.

    Взято с Xakep.ru

    Читайте також

    Apple розробляє ШІ-гаджет у формі диска з камерами та мікрофонами

    22.01.2026

    OPPO розпочала ліквідацію бренду OnePlus

    21.01.2026

    Samsung Display запустила виробництво OLED-панелей для майбутніх MacBook Pro

    20.01.2026

    Останні

    iPhone 18 Pro: 10 ключових оновлень, яких ви можете очікувати цього року

    22.01.2026

    Вчені відкрили метал із рекордною теплопровідністю

    22.01.2026

    Blue Origin створює ексклюзивну мережу високошвидкісного інтернету

    22.01.2026

    Apple випустить свій перший повноцінний чат-бот для iPhone

    22.01.2026
    Facebook X (Twitter) YouTube Telegram RSS
    • Контакти/Contacts
    © 2026 Portaltele.com.ua. Усі права захищено. Копіювання матеріалів дозволено лише з активним гіперпосиланням на джерело.

    Type above and press Enter to search. Press Esc to cancel.

    Go to mobile version