Apple поділилася подробицями про співпрацю з NVIDIA, щоб значно підвищити продуктивність великих мовних моделей (LLM) шляхом впровадження нової техніки генерації тексту, яка пропонує суттєві покращення швидкості для додатків AI. Раніше цього року Apple опублікувала Recurrent Drafter (ReDrafter) із відкритим вихідним кодом, підхід, який поєднує пошук за променем і методи динамічного перегляду дерева для прискорення генерації тексту. Променевий пошук досліджує кілька потенційних текстових послідовностей одночасно для отримання кращих результатів, тоді як увага до дерева організовує та видаляє зайві збіги між цими послідовностями для підвищення ефективності.
Тепер Apple інтегрувала цю технологію в фреймворк NVIDIA TensorRT-LLM, який оптимізує LLM, що працюють на графічних процесорах NVIDIA, де, за словами Apple, досягнуто «найвищої продуктивності». Інтеграція показала, що під час тестування виробничої моделі, що містить десятки мільярдів параметрів, ця технологія керує збільшенням швидкості токенів, що генеруються за секунду, у 2,7 раза.
Apple каже, що покращена продуктивність не тільки зменшує затримку, яку сприймає користувач, але також призводить до зменшення використання GPU та споживання енергії. З блогу дослідження машинного навчання Apple :
«LLM все частіше використовуються для забезпечення потужності виробничих додатків, і підвищення ефективності логічного висновку може як вплинути на обчислювальні витрати, так і зменшити затримку для користувачів. Завдяки новому підходу ReDrafter до спекулятивного декодування, інтегрованому в структуру NVIDIA TensorRT-LLM, розробники тепер можуть отримати вигоду від швидшої генерації токенів. на графічних процесорах NVIDIA для їхніх робочих додатків LLM».
Розробники, зацікавлені у впровадженні ReDrafter, можуть знайти детальну інформацію як на веб-сайті Apple, так і в блозі розробників NVIDIA.
Comments