Компанії

IBM представила набір даних для навчання програмуванню

1

Компанія IBM розраховує створити для інтелектуальних засобів розробки свого роду аналог ImageNet, що фактично став стандартним набору зображень для тренування ШІ-моделей. На конференції THINK компанія повідомила, що для цього вона зібрала величезний масив вихідних кодів.

Набір, що отримав назву Project CodeNet, містить 14 млн зразків сумарним об’ємом в 500 млн рядків коду на більш ніж 55 мовах програмування: від Java, C і Go до COBOL, Pascal і FORTRAN. Втім, більше трьох чвертей усього коду доводиться на С++ і Python.

Джерелом коду стали два японських конкурсу з програмування: Aizu і AtCoder. За умовами конкурсів учасники повинні були написати код, необхідний для перетворення заданого набору вхідних даних в набір бажаних вихідних для 4000 різних завдань. Таким чином було отримано 14 млн. Зразків коду, приблизно половина з яких виявилися робочими, а решта були помічені як некомпіліруемие, неправильні або містять помилки.

IBM хоче, щоб проект CodeNet пішов по стопах ImageNet і став де-факто стандартним набором даних для навчання ІІ-моделей, здатних розпізнавати структуру програм. Передбачається, що CodeNet можна буде використовувати для створення інтелектуальних інструментів розробки, які здійснюють пошук потрібних процедур в додатках і бібліотеках, переклад з однієї мови програмування на іншу, вибір правильних реалізацій і відсів помилкових, класифікацію коду і так далі. Джерело

1 Comment

  1. … [Trackback]

    […] Information on that Topic: portaltele.com.ua/news/companies/ibm-predstavyla-nabir-danyh-dlya-navchannya-programuvannyu.html […]

Comments are closed.