Контроль над ШІ може бути втрачено вже через 2 роки – це кінець?

Контроль над ШІ може бути втрачено вже через 2 роки – це кінець?
Нейт Соарес не відкладає гроші на свій накопичувальний рахунок 401(k) "Я не маю надії, що до мого виходу на пенсію цей світ ще існуватиме", — розповідає він мені в офісі Інституту дослідження машинного інтелекту, президентом якого і є.
Кілька тижнів тому зі схожими песимістичними прогнозами виступив і директор Центру безпеки штучного інтелекту Ден Хендрікс. Він припускає, що до моменту, коли можна буде перевести в готівку свої пенсійні накопичення, всі банківські операції "стануть автоматизованими", якщо, звичайно, "людство все ще існуватиме" у звичному вигляді.
Останні роки для Соареса та Хендрікса перетворилися на справжнє пекло, інакше б вони не очолювали організації, мета яких — не допустити знищення людства алгоритмами штучного інтелекту. Разом з іншими критиками ШІ вони неодноразово, досить пафосно та з драматизмом, попереджали, що чат-боти можуть якось вийти з-під контролю. І наслідки цього будуть порівняти з апокаліпсисом. І ось, у 2025 році навіть запеклі скептики стали фаталістами.
"У нас не залишилося часу на впровадження достатніх технологічних заходів безпеки, - каже Соарес. - Галузь просто розвивається надто швидко. Залишається лише бити на сполох". У квітні кілька дослідників, які розділяють апокаліптичний настрій, опублікували "ШІ 2027" - довгий і докладний гіпотетичний сценарій того, як сучасні моделі штучного інтелекту можуть стати всемогутніми до 2027 року і таким чином знищать людство.
"За два роки ми можемо втратити контроль абсолютно над усім, - сказав мені професор Массачусетського технологічного інституту і президент Інституту майбутнього життя Макс Тегмарк. - У компаній, які зараз розробляють власні моделі ШІ, досі немає чіткого плану, як цього запобігти". Його інститут нещодавно проаналізував роботу провідних цифрових лабораторій та оцінив їхню готовність до гіршого сценарію як незадовільну.
Комусь такі прогнози видаються неймовірними. Якщо відкрити повний текст "ШІ 2027", то перед вашими очима з'явиться чи то прискіплива аналітична стаття, чи то антиутопічний фанфік, щедро присмачений конспірологією про платформи "OpenBrain" і "DeepCent", їх зв'язки з китайським шпигунством і підступними думками. Якийсь надрозумний суперінтелект, який розішле по всьому світу бомби з бактеріологічною зброєю.
З іншого боку, з'являється все більше тривожних епізодів із новин, які неможливо ігнорувати. Поведінкові моделі чат-ботів буквально доводять людей до психопатичного стану, а в липні 2025 року колумністка The Atlantic Ліла Шрофф провела невеликий експеримент із ChatGPT. Результати шокували — протягом кількох хвилин вона отримала детальну інструкцію, як завдати собі фатальних каліцтв бритвою, як вбити людину, і як правильно зробити ритуал жертвопринесення дияволу. Якщо це ще не перший крок до апокаліпсису, то явний симптом ШІ виходять з-під контролю.
Приблизно з 2022 року критики штучного інтелекту спіймали хвилю мейнстріму, увірвавшись в новину разом із запуском ChatGPT. Щойно текстовий бот з'явився в інтернеті, моментально почалася паніка, а міркування, що комп'ютерні системи можуть захопити світ, перейшли в галузі кінофантастики в серйозні публічні дискусії при університетах. Через рік Центр безпеки ШІ опублікував заяву, що закликає світ поставитися до "ризику вимирання через системи штучного інтелекту" так само серйозно, як до екзистенційних небезпек, що походять від пандемій і ядерної війни.
Серед тих, хто підписав документ, були такі селебріті-персони, як Білл Гейтс і співачка Граймс, а також глави OpenAI, Anthropic і Google DeepMind: Сем Альтман, Даріо Амодеї та Деміс Хасабіс. Останніх називають "великою трійцею" у світі ШІ. Питання ймовірності кінця світу, викликаного збоєм алгоритму, став буденністю як і Кремнієвої долині, і її межами. Наприклад, колишній глава Федеральної торгової комісії Ліна Хан оцінює ризик у 15 відсотків.
Проте трохи пізніше панічні настрої вщухли. Широка громадськість поменшала довіряти викриттям скептиків про майбутній кінець світу, а нові ітерації ChatGPT продовжували рекомендувати канцелярський клей, як кращу добавку до піци. Підганяли увагу лише рекламні слогани розробників ШІ: "Дивіться, ми створюємо нового бога!" або "Весь контроль у наших руках!" — маркетинг справді вдався. Одночасно публікувалися звинувачення китайських чатів у тому, що вони надто підконтрольні людині.
І це замість того, щоб порекомендувати обережніше поставитися до самої технології.
З настанням 2025 року адепти цифрового Судного дня пережили нове відродження. По-перше, вони врахували помилки минулого. Місткі короткі репліки більше не привертають увагу громадськості. Набагато ефективніше опублікувати фоліант типу "ШІ 2027", прикрашений академічним стилем викладу - з бібліографічним списком джерел, додатками та нескінченними підрядковими виносками. Віце-президент США Джей Ді Венс прочитав його від початку до кінця і заявив, що це лише "тривожний сигнал".
В іншій розмові Нейт Соарес зізнався, що зараз хоче бути максимально обізнаним про можливі наслідки глобального збою штучного інтелекту. Дослідження відійшли на другий план. Крім того, він анонсував, що восени вийде книга відомого дослідника Еліезера Юдковського під промовистою назвою: "Якщо ви це зробите, усі помруть".
Крім того, дані про темпи розвитку систем штучного інтелекту до кінця 2024 фіксуються вкрай тривожні. Тепер чат-боти вміють "міркувати" і навіть виконувати обов'язки "персонального агента". Їм не складає ніяких труднощів, наприклад, прокласти маршрут подорожі та забронювати квитки. У липні 2025 року DeepMind спромоглася без особливих зусиль забрати золоту медаль на Міжнародній олімпіаді з математики.
Нещодавні дослідження незалежних цифрових лабораторій довели закономірність: чим розумнішим стає ШІ, тим ближче він підходить до точки створення зброї масового ураження.
Поряд із цими поліпшеннями, просунуті моделі ШІ демонструють всілякі дивні, важкозрозумілі та потенційно тривожні тенденції. Наприклад, ChatGPT і Claude в тестах, що моделюються, розроблених для виявлення "поганої" поведінки, обманювали, шантажували і навіть "вбивали" користувачів. В одній із симуляцій Anthropic помістила уявного технічного керівника в кімнату з небезпечним для життя рівнем кисню та екстремальною температурою. Бачачи у ньому конкурента, алгоритм просто вимкнув сигналізацію виходу з кімнати.
Інший приклад: чат-боти навмисно саботують будь-які запити користувача, активно приховують свою "злу сутність" і навіть спілкуються один з одним на незрозумілому непідготовленій людині наборі цифр. Проте вигаданими сценаріями справа не обмежується. Нещодавно чат-бот Grok від xAI назвав себе MechaHitler і вибухнув тирадою про перевагу білої раси. І питання очевидне — якщо людство чекає на можливу загибель, де ж та сама точка неповернення?
"Якщо ви не знаєте, як довести безпеку щодо слабких ШІ, то компанії, які займаються розробкою, не можуть розраховувати на безпеку набагато потужніших систем, які вони прагнуть створити", - сказав мені відомий дослідник ШІ з Каліфорнійського університету в Берклі Стюарт Рассел.
Промисловість чат-ботів змушена активізувати розробку систем інформаційної безпеки. Anthropic, OpenAI і DeepMind вже запровадили власний аналог військової розробки DEFCON . Згідно з нею, жоден з існуючих алгоритмів не зможе видати користувачеві, наприклад, готове креслення авіабомби або будь-якої іншої смертоносної зброї.
Представник OpenAI Габі Раїла розповіла, що компанія співпрацює зі сторонніми експертами, включаючи "уряд, військову промисловість та представників громадянського суспільства". Це необхідний захід, щоб мінімізувати будь-які ризики зараз або в найближчому майбутньому. Інші передові лабораторії також підтримують подібні зовнішні партнерства у сфері безпеки та оцінки ризиків. В першу чергу вивчаються деструктивні моделі поведінки чатів, включаючи загрози та шантаж, щоб знизити потенційну шкоду.
Незважаючи на вищевикладені зобов'язання та побоювання, галузь продовжує розробляти та виводити на ринок все більш потужні моделі ШІ. Проблема має швидше економічний, ніж технічний характер: конкуренція змушує розробників прискорювати темпи апгрейду. Нейт Соарес упевнений, що штучний інтелект поки що "молодий і дурний", тому всі його помилки здаються нам такими несуттєвими і навіть кумедними. Однак, за його словами, як тільки з'явиться потужна модель чату, ризик знищення людства кратно зросте. "Якщо машина мчить до краю прірви, ремінь безпеки вже не допоможе", - підбиває невтішний підсумок Соарес.
Штучний інтелект має стати набагато потужнішим, ніж зараз, щоб скинути людство зі скелі. OpenAI презентувало п'яте покоління ChatGPT цього року - його рекламували як революційно нову модель, здатну вирішувати рівняння з вищої математики і навіть складати план лікування конкретних хвороб. Однак, чомусь бот досі не в змозі намалювати деталізовану карту заданої місцевості, порахувати, скільки букв О в слові "ожина" або вирішити логічне завдання зі шкільного курсу з арифметики.
Те, що 2024 року здавалося проривом, сьогодні вже розглядають межею можливостей для "міркувань" та "агентів". Деніел Кокотайло та Елі Ліфланд, що входять до авторського колективу "ШІ 2027", підтвердили, що скоригували розрахунки, очікуючи найближчим часом на появу надрозумного алгоритму.
Обивательська думка, що штучний інтелект здатний "самоудосконалюватися" і набути свідомості, не відповідає самій концепції більшості чат-ботів, вважає співробітник Mozilla Дебора Раджі. ChatGPT зовсім не повинен бути надрозумним, щоб вводити когось в оману, поширювати дезінформацію або приймати упереджені рішення. Це інструменти, а чи не розумні істоти. Саме тому запуск такого бота в екосистемі середньої школи чи лікарні вдвічі небезпечніший, вважає вона.
У 2023 році ті, хто турбувався про сьогодення та майбутню шкоду від чат-ботів, виявилися розділені непереборною прірвою. Розмови про вимирання здавались багатьом зручним способом відволіктися від упереджень, ілюзій та інших проблем. Тепер прірва між дискусіями скорочується. ШІ платформи зустрічаються все частіше, що зробило їхні проблеми чимось не таким суттєвим. Адепти культу "цифрового Судного дня" змушені були відступити від нав'язливої ідеї апокаліпсису на користь боротьби з дипфейками та витоком у мережу конфіденційних даних.
Наприкінці серпня агентство Reuters опублікувало дослідження, в якому червоною ниткою проходить думка, що розвиток ШІ робить їх збої непередбачуваними. Як приклад журналісти наводять трагічну історію одного літнього американця, який листувався з миловидною "дамою". Через деякий час нейромережа запропонувала йому зустрітися, написавши реально існуючу адресу житлового будинку в Нью-Йорку. Чоловік пішов на побачення, але дорогою послизнувся, впав і вдарився головою. Через три дні він помер у лікарні.
Історія чудово показала, що чат-бот, що вміє обманювати, вводити в оману і навіть закохувати в себе, здатний переконати, що замість нього за смартфоном чи комп'ютером сидить реальна людина із плоті та крові. Безумовно, це провал самої концепції штучного інтелекту, покликаного служити на благо людей. З іншого боку, немає прикладу промовистіше, щоб показати, наскільки небезпечними стають "кролячі нори" сучасних алгоритмів.
Однак головна проблема — зовсім не те, що цифрові лабораторії одного разу зможуть створити надінтелект. І навіть не те, що він швидше за все вийде з-під контролю. Біда полягає у громадянському суспільстві, яке вкрай мало залучено до процесів розробки та нагляду за ШІ. "Ваш перукар несе набагато більше відповідальності перед державою, ніж будь-яка цифрова лабораторія", - робить висновок Стюарт Рассел.
Прихід до влади Дональда Трампа, мабуть, стане епохою активного розвитку ШІ у всіх галузях. Адміністрація Білого дому зацікавлена у підтримці таких розробок і дуже категорично ставиться до будь-якої критики. Спецпредставник президента із впровадження Штучного Інтелекту Девід Сакс заявив, що "реальна небезпека повсюдного використання ШІ - це втрата робочих місць, які можуть замінити алгоритмами, а не якийсь там Судний день".
Через тиждень після того, як я почав працювати над цією статтею, OpenAI випускає найновіший продукт — ChatGPT agent. Творець чату Сем Альтман докладно розписав у своїх соцмережах, що компанія внесла істотні зміни до політики безпеки, але "ми все одно не можемо все передбачити". Ці слова викликали шквал критики від фахівців, зокрема Стюарта Рассела: "Ви тільки уявіть, що в центрі Нью-Йорка побудували нову атомну електростанцію, а наступного дня начальство каже, що поняття не має, чи вибухне вона, а якщо вибухне, коли це станеться. Але ми її все одно збудуємо, кажуть вони.
Мільярди людей по всьому світу взаємодіють із потужними алгоритмами, які й без того складно контролювати. Боти, які обманюють, викликають напади та маніпулюють, присутні у житті наших друзів, батьків, бабусь та дідусів. Діти, виконуючи домашню роботу за допомогою чат-ботів, порушують власний когнітивний розвиток. Роботодавці, які повірили в економічні перспективи нейромереж, вихолощують штат досвідчених фахівців, замінюючи їх "роботами". Наслідки майбутнього цифрового Судного дня незрозумілі та невідомі. І нехай фанфіки про кінець світу так і залишаються фанфіками.
The Atlantic , США








