Дослідники з Університету Пердью у США вирішили перевірити, наскільки добре один із найпопулярніших генеративних ІІ – ChatGPT – може відповідати на питання про програмування.
Дослідники задали ChatGPT 517 питань із Stack Overflow – популярного ресурсу питань та відповідей для професійних програмістів та ентузіастів. Вони також запросили 12 осіб, які мають досвід програмування, оцінити відповіді ІІ за критеріями правильності, послідовності, вичерпаності та лаконічності.
Результати були такими, що розчаровують. ChatGPT дав лише 48% правильних відповідей. При цьому стиль та якість визначень часто переконували фахівців у правильності, хоча це було не так.
"Ми помітили, що тільки тоді, коли помилка відповіді ChatGPT є очевидною, користувач може її ідентифікувати", - стверджують дослідники.
Навіть якщо відповідь ChatGPT була явно неправильною, двоє з 12 учасників все одно воліли її через приємний, впевнений і позитивний тон ІІ.