Основна мовна модель ChatGPT, GPT-3.5, незабаром буде замінена. Технічний директор Microsoft Німеччина розповів аудиторії на заході компанії «AI in Focus», що GPT-4 планується неминуче випустити, що розблокує нові можливості, зокрема відео.
ChatGPT став сейсмічним ударом для більшості країн світу. Додаток, що розвивається найшвидше в історії, цей безплатний чат-бот-пісочниця одноосібно попередив громадськість про те, що ми зараз на зорі нової ери, у якій нейронні мережі можуть спілкуватися майже так само переконливо, як люди, бувши при цьому красивими також дуже зручно писати код. Він далекий від досконалості й часто дуже неправильний, але його зростання віщує не що інше, як фундаментальний переворот людських економік і соціальних структур. З ним також дуже весело грати.
ChatGPT створено на основі чудового розуму: Generative Pre-Trained Transformer OpenAI, або мовної моделі GPT 3.5. По суті, GPT поглинув безпрецедентну кількість написаного людьми – мільярди веб-сторінок, мільярди книг, мільярди фрагментів коду, величезну кількість людських розмов. Він проаналізував цю скарбницю інформації та навчився писати, як ми. Поставте йому запитання або дайте йому завдання, і він відповість за лічені секунди такою відповіддю, яку, на його думку, зазвичай отримує таке запитання.
Деталі зараз не є його сильною стороною; хоча його відповіді часто демонструють дивовижний ступінь контекстуального розуміння та розуміння, з добре структурованими аргументами та надзвичайно природним читанням тексту, абсолютно не можна покладатися на його правдивість, оскільки більшість його результатів є фактично невірними, навіть якщо це зазначено за допомогою надзвичайна впевненість.
Тепер, згідно з Heise Online, цей чудовий мозок отримує значне оновлення. «Ми представимо GPT-4 наступного тижня, — сказав технічний директор Microsoft у Німеччині Андреас Браун на заході AI in Focus минулого четверга, — у нас будуть мультимодальні моделі, які пропонуватимуть зовсім інші можливості — наприклад, відео».
Цей мультимодальний підхід дозволить GPT навчатися не лише з тексту, але й з інших засобів масової інформації, включаючи аудіо та відео, відкриваючи величезний новий шведський стіл інформації для системи.
Незрозуміло, якими саме будуть результати. Навчання GPT 3.5 на сотнях мільярдів біт письма вже було колосальним завданням обробки, а текст є надзвичайно щільною формою інформації. Відкриття аудіо та відео означає величезне збільшення часу та потужності обробки, необхідних для отримання та аналізу інформації. Так само, якщо GPT почне відповідати у формі аудіо чи відео, важко уявити, що OpenAI з’їсть витрати на цю обробку та пропускну здатність.
Але скоро ми дізнаємось. Знову ж таки, це лише наконечник списа. Нейронні мережі незабаром зможуть отримувати та видавати інформацію будь-яким способом, яким можуть люди; звичайно, GPT має навчитися розуміти аудіо та відео так само добре, як, здається, вже розуміє текст. Буде захоплююче побачити, скільки часу знадобиться, перш ніж ці геніальні таємничі мережі зможуть вести розмови в режимі реального часу – і, крім того, відеочати, у яких вони реагують на вашу мову тіла так само гостро, як і на зміст ваших розмов.
Comments