У той час як штучний інтелект (ШІ) досягає піка своєї популярності, дослідники попереджають, що галузь може закінчитися навчальними даними – паливом, на якому працюють потужні системи ШІ. Це може уповільнити розвиток моделей ШІ, особливо великих мовних моделей, і може навіть змінити траєкторію революції ШІ. Але чому потенційна нестача даних є проблемою, враховуючи, скільки їх є в Інтернеті? І чи є спосіб усунути ризик?
Чому високоякісні дані важливі для ШІ
Нам потрібно багато даних для навчання потужних, точних і високоякісних алгоритмів ШІ. Наприклад, ChatGPT було навчено на 570 гігабайтах текстових даних, або близько 300 мільярдів слів. Подібним чином алгоритм стабільної дифузії (який лежить в основі багатьох додатків штучного інтелекту для створення зображень, таких як DALL-E, Lensa та Midjourney) був навчений на наборі даних LIAON-5B, що складається з 5,8 мільярда пар зображення-текст. Якщо алгоритм навчається на недостатній кількості даних, він вироблятиме неточні або низькоякісні результати.
Якість навчальних даних також важлива. Дані низької якості, такі як публікації в соціальних мережах або розмиті фотографії, легко отримати, але їх недостатньо для навчання високопродуктивних моделей ШІ. Текст, узятий із платформ соціальних медіа, може бути упередженим чи упередженим або містити дезінформацію, чи незаконний вміст, який може бути відтворений моделлю. Наприклад, коли Microsoft намагалася навчити свого бота ШІ за допомогою вмісту Twitter, він навчився створювати расистські та женоненависницькі результати.
Ось чому розробники штучного інтелекту шукають високоякісний вміст, наприклад текст із книг, онлайн-статей, наукових статей, Вікіпедії та певного відфільтрованого веб-вмісту. Google Assistant був навчений на 11 000 любовних романів, взятих із сайту самвидаву Smashwords, щоб зробити його більш розмовним.
У нас достатньо даних?
Індустрія штучного інтелекту тренує системи штучного інтелекту на все більших наборах даних, тому ми тепер маємо високопродуктивні моделі, такі як ChatGPT або DALL-E 3. Одночасно дослідження показують, що онлайн-запаси даних зростають набагато повільніше, ніж використовувані набори даних. тренувати ШІ.
У статті, опублікованій минулого року, група дослідників передбачила, що у нас закінчаться високоякісні текстові дані до 2026 року, якщо поточні тенденції навчання ШІ збережуться. Вони також підрахували, що мовні дані низької якості будуть вичерпані десь між 2030 і 2050 роками, а дані зображень низької якості – між 2030 і 2060 роками. За даними бухгалтерської та консалтингової групи PwC, до 2030 року штучний інтелект може принести до світової економіки до 15,7 трлн доларів США (24,1 трлн австралійських доларів). Але відсутність придатних для використання даних може сповільнити його розвиток.
Чи варто нам хвилюватися?
Хоча наведені вище моменти можуть насторожити деяких шанувальників ШІ, ситуація може бути не такою поганою, як здається. Є багато невідомих про те, як моделі штучного інтелекту будуть розвиватися в майбутньому, а також про кілька способів усунути ризик нестачі даних. Однією з можливостей для розробників ШІ є вдосконалення алгоритмів, щоб вони ефективніше використовували вже наявні дані.
Ймовірно, у найближчі роки вони зможуть навчити високопродуктивні системи штучного інтелекту, використовуючи менше даних і, можливо, меншу обчислювальну потужність. Це також допоможе зменшити вуглецевий слід ШІ. Іншим варіантом є використання ШІ для створення синтетичних даних для навчання систем. Іншими словами, розробники можуть просто генерувати дані, які їм потрібні, підібрані відповідно до конкретної моделі ШІ.
Кілька проектів уже використовують синтетичний контент, який часто отримують зі служб генерації даних, таких як Mostly AI. Це стане більш поширеним у майбутньому. Розробники також шукають вміст за межами вільного онлайн-простору, як-от вміст великих видавців і офлайн-сховищ. Подумайте про мільйони текстів, опублікованих до появи Інтернету. Будучи доступними в цифровому вигляді, вони можуть стати новим джерелом даних для проектів ШІ.
News Corp, один із найбільших у світі власників новинного контенту (який має більшу частину контенту за платним доступом), нещодавно заявив, що веде переговори про угоди щодо контенту з розробниками ШІ. Такі угоди змусять компанії штучного інтелекту платити за навчальні дані, хоча досі вони здебільшого збирали їх з Інтернету безкоштовно.
Творці контенту протестували проти несанкціонованого використання їхнього контенту для навчання моделей штучного інтелекту, а деякі подали в суд на такі компанії, як Microsoft, OpenAI та Stability AI. Оплата винагороди за їхню роботу може допомогти відновити дисбаланс сил, який існує між творчими людьми та компаніями зі штучного інтелекту. Джерело
Comments