Компанія IBM розраховує створити для інтелектуальних засобів розробки свого роду аналог ImageNet, що фактично став стандартним набору зображень для тренування ШІ-моделей. На конференції THINK компанія повідомила, що для цього вона зібрала величезний масив вихідних кодів.
Набір, що отримав назву Project CodeNet, містить 14 млн зразків сумарним об’ємом в 500 млн рядків коду на більш ніж 55 мовах програмування: від Java, C і Go до COBOL, Pascal і FORTRAN. Втім, більше трьох чвертей усього коду доводиться на С++ і Python.
Джерелом коду стали два японських конкурсу з програмування: Aizu і AtCoder. За умовами конкурсів учасники повинні були написати код, необхідний для перетворення заданого набору вхідних даних в набір бажаних вихідних для 4000 різних завдань. Таким чином було отримано 14 млн. Зразків коду, приблизно половина з яких виявилися робочими, а решта були помічені як некомпіліруемие, неправильні або містять помилки.
IBM хоче, щоб проект CodeNet пішов по стопах ImageNet і став де-факто стандартним набором даних для навчання ІІ-моделей, здатних розпізнавати структуру програм. Передбачається, що CodeNet можна буде використовувати для створення інтелектуальних інструментів розробки, які здійснюють пошук потрібних процедур в додатках і бібліотеках, переклад з однієї мови програмування на іншу, вибір правильних реалізацій і відсів помилкових, класифікацію коду і так далі. Джерело
… [Trackback]
[…] Information on that Topic: portaltele.com.ua/news/companies/ibm-predstavyla-nabir-danyh-dlya-navchannya-programuvannyu.html […]
… [Trackback]
[…] Read More on that Topic: portaltele.com.ua/news/companies/ibm-predstavyla-nabir-danyh-dlya-navchannya-programuvannyu.html […]
… [Trackback]
[…] Find More here on that Topic: portaltele.com.ua/news/companies/ibm-predstavyla-nabir-danyh-dlya-navchannya-programuvannyu.html […]
… [Trackback]
[…] Here you can find 42955 more Info on that Topic: portaltele.com.ua/news/companies/ibm-predstavyla-nabir-danyh-dlya-navchannya-programuvannyu.html […]