Квантова фізика змінює світ азартних ігор

Це з розробкою вдосконаленого методу навчання з підкріпленням, заснованого на моделюванні фотонів. Замість простого вибору гральних автоматів, гравці стикаються з складнішими завданнями у стилі «проблеми багаторукого бандита».

Група дослідників з Токійського університету, на чолі з Хіроакі Шинкавой, представила новий фотонний метод навчання з підкріпленням, який розширює подання завдання з бандитської статичної на динамічну. Як повідомляє bookmaker-ratings-az.com/casino/, ці результати були опубліковані в журналі Intelligent Computing

Ключ до успіху цієї схеми лежить у фотонній системі, яка покращує якість навчання, та алгоритмі підтримки. Дослідники розробили модифікований алгоритм бандитського Q-навчання та протестували його в паралельній архітектурі, де кілька агентів працюють спільно. Важливим елементом прискорення цього процесу є використання квантової інтерференції фотонів, щоб запобігти конфліктам під час прийняття рішень.

Це дослідження пов’язує фотонне кооперативне прийняття рішень з Q-навчанням та застосовує його до динамічного середовища, що робить його унікальним. Завдання навчання з підкріпленням включають динамічні зміни середовища, що робить їх більш складними в порівнянні з класичним завданням про бандита.

Дослідження проводилося в сітці 5×5 осередків, де кожен осередок представляє стан з різними винагородами. Агенти можуть рухатися вгору, вниз, ліворуч або праворуч і отримувати винагороду в залежності від свого поточного положення та дій. Основна відмінність модифікованого бандитського алгоритму Q-навчання полягає в тому, що він фокусується на точному вивченні оптимальних значень Q для кожної пари «стан — дія» замість пошуку оптимального шляху для максимізації винагороди. Це вимагає балансу між «експлуатацією» відомих пар з високими значеннями та «дослідженням» рідкісних пар для пошуку потенційно високих значень.

Отже, дослідники прагнуть розробити фотонну систему, що підтримує безконфліктне прийняття рішень декількома агентами, а також алгоритми для безперервної дії агентів та їх застосування до більш складних завдань навчання з підкріпленням.