Китайська компанія зі штучного інтелекту (ШІ) DeepSeek сколихнула технічне співтовариство, випустивши надзвичайно ефективні моделі ШІ, які можуть конкурувати з передовими продуктами американських компаній, таких як OpenAI і Anthropic. Заснована у 2023 році компанія DeepSeek досягла своїх результатів, використовуючи лише частку грошей і обчислювальної потужності своїх конкурентів.
«Міркуюча» модель R1 від DeepSeek, опублікована минулого тижня, викликала хвилювання серед дослідників, шок серед інвесторів і відгуки важковаговиків ШІ. 28 січня компанія представила модель, яка може працювати як із зображеннями, так і з текстом. Отже, що зробив DeepSeek і як він це зробив?
Що зробив DeepSeek
У грудні DeepSeek випустила свою модель V3. Це дуже потужна «стандартна» модель великої мови, яка працює на такому ж рівні, як GPT-4o від OpenAI і Claude 3.5 від Anthropic. Хоча ці моделі схильні до помилок і іноді вигадують власні факти, вони можуть виконувати такі завдання, як відповіді на запитання, написання есе та генерування комп’ютерного коду. У деяких тестах на розв’язання задач і математичні міркування вони отримують кращі бали, ніж середня людина. Навчання V3 коштувало близько $5,58 мільйона. Це значно дешевше, ніж, наприклад, GPT-4, розробка якого коштує понад $100 мільйонів.
DeepSeek також стверджує, що навчив V3 з використанням приблизно 2000 спеціалізованих комп’ютерних чіпів, зокрема графічних процесорів H800 виробництва NVIDIA. Це знову ж таки набагато менше, ніж інші компанії, які, можливо, використовували до 16 000 потужніших мікросхем H100. 20 січня DeepSeek випустив ще одну модель під назвою R1. Це так звана модель «міркування», яка намагається опрацьовувати складні проблеми крок за кроком. Здається, що ці моделі краще справляються з багатьма завданнями, які вимагають контексту та мають кілька взаємопов’язаних частин, таких як розуміння прочитаного та стратегічне планування.
Модель R1 є налаштованою версією V3, модифікованою за допомогою техніки підкріпленого навчання. Схоже, що R1 працює на тому ж рівні, що й OpenAI o1, випущений минулого року. DeepSeek також використовував ту саму техніку, щоб створити «розумні» версії невеликих моделей з відкритим кодом, які можна запускати на домашніх комп’ютерах. Цей випуск викликав величезний сплеск інтересу до DeepSeek, підвищивши популярність його програми для чат-ботів на базі версії 3 і викликавши масштабне падіння цін на акції технологічних компаній, оскільки інвестори переоцінюють галузь ШІ. На момент написання статті виробник мікросхем NVIDIA втратив у вартості близько $600 мільярдів.
Як DeepSeek це зробив
Прорив DeepSeek полягав у досягненні більшої ефективності: отримання хороших результатів з меншими ресурсами. Зокрема, розробники DeepSeek запровадили дві методики, які можуть бути прийняті дослідниками ШІ ширше. Перше пов’язане з математичною ідеєю під назвою «розрідженість». Моделі штучного інтелекту мають багато параметрів, які визначають їх реакцію на вхідні дані (V3 має близько 671 мільярда), але лише невелика частина цих параметрів використовується для будь-якого вхідного сигналу.
Однак передбачити, які параметри знадобляться, нелегко. DeepSeek використав для цього нову техніку, а потім навчив лише ці параметри. У результаті його моделі вимагали набагато менше навчання, ніж звичайний підхід. Інший трюк пов’язаний з тим, як V3 зберігає інформацію в пам’яті комп’ютера. DeepSeek знайшов розумний спосіб стиснення відповідних даних, тому їх легше зберігати та швидко отримувати доступ.
Що це означає
Моделі та методи DeepSeek були випущені під безкоштовною ліцензією MIT, що означає, що будь-хто може завантажити та змінити їх. Хоча це може бути поганою новиною для деяких компаній штучного інтелекту, чиї прибутки можуть бути підірвані існуванням вільнодоступних потужних моделей, це чудова новина для ширшої спільноти дослідників штучного інтелекту. Зараз багато досліджень ШІ вимагають доступу до величезної кількості обчислювальних ресурсів. Такі дослідники, як я, які працюють в університетах (або де завгодно, крім великих технологічних компаній), мали обмежені можливості для проведення тестів і експериментів. Більш ефективні моделі та методи змінюють ситуацію. Експериментування та розробка тепер можуть бути значно легшими для нас.
Для споживачів доступ до ШІ також може стати дешевшим. Більше моделей штучного інтелекту можна запускати на власних пристроях користувачів, таких як ноутбуки чи телефони, а не працювати «в хмарі» за передплату. Для дослідників, які вже мають багато ресурсів, більша ефективність може мати менший ефект. Незрозуміло, чи допоможе підхід DeepSeek створити моделі з кращою загальною продуктивністю чи просто більш ефективні моделі.
Comments