Чим годують штучний інтелект: секретний список сайтів

21.04.2023 в 20:27
Чим годують штучний інтелект: секретний список сайтів

Чим годують штучний інтелект: секретний список сайтів

За останні чотири місяці чат-боти зі штучним інтелектом набули неймовірної популярності, вразивши публіку своїми неймовірними здібностями — чи то в написанні складних курсових робіт, чи вмінні вести страшно осмислені бесіди.

Чат-боти не можуть думати як люди, насправді вони не розуміють, що кажуть. Вони можуть лише імітувати людську мову, тому що штучний інтелект, на якому вони ґрунтуються, проковтнув величезний масив текстів, як правило, взятих з інтернету.

Ці тексти є основним джерелом інформації для ІІ про навколишній світ. Багато в чому це вони визначають, як він відреагує на запити користувачів. Отже, якщо він, наприклад, склав іспит на адвоката, то це, напевно, лише тому, що до навчальних даних увійшли тисячі тестів для вступу до юридичного коледжу.

З деяких пір технологічні компанії стали приховувати, чим саме вони "годують" ІІ. Тому The Washington Post вирішила проаналізувати один із масивів даних, щоб з'ясувати, чи не закралися в навчальний матеріал особисті дані чи образливі сайти.

Розкриваємо "чорну скриньку"

У спробі заглянути вглиб "чорної скриньки" ми проаналізували гігантський масив даних Google C4, зліпок вмісту 15 мільйонів сайтів, який використовувався для навчання висококласних "великих мовних моделей" англійською - зокрема, T5 Google та LLaMA Facebook*. (OpenAI не розкриває, якими наборами даних навчає моделі для популярного чат-боту ChatGPT)

Під час спільного розслідування з Інститутом штучного інтелекту Аллена The Washington Post класифікувала веб-сайти на основі аналітики мережі від Similarweb. Близько третини сайтів класифікувати не вдалося — головним чином, тому що їх більше немає в інтернеті. Їх ми виключили.

10 мільйонів веб-сайтів, що залишилися, ми ранжували за так званими "маркерами" в наборі даних. Під маркерами в даному випадку маються на увазі невеликі фрагменти тексту, які використовуються для обробки інформації, як правило, це окремі слова або фрази.

Від Wikipedia до Wowhead

У наборі даних виявилися сайти різної спрямованості: від журналістики, розваг, розробки програмного забезпечення та медицини до створення контенту. Це говорить про те, що саме цим областям нова хвиля штучного інтелекту загрожує найсильніше. Трьома найбільшими сайтами стали patchs.google.com (перше місце) із текстами з виданих у всьому світі патентів; безкоштовна онлайн-енциклопедія wikipedia.org (друге місце); та платна цифрова бібліотека scribd.com. Але при цьому порівняно високе місце (190-ті) посів сумнозвісний сайт піратських електронних книг b-ok.org, відтоді закритий Міністерством юстиції США. При цьому в набір даних потрапило щонайменше 27 інших сайтів, визначених урядом США як піратські.

Вибір ряду популярних сайтів здався нам довільним: наприклад, форум гравців World of Warcraft wowhead.com (181-е місце), продукт для боротьби з емоційним вигорянням від Аріанни Хаффінгтон thriveglobal.com (175-е) і щонайменше десять сайтів, що торгують сміттєвими контейнерами , включаючи нині недоступний dumpsteroid.com (183-ті).

Інші сайти викликають серйозні сумніви щодо конфіденційності. Два сайти із верхньої сотні — coloradovoters.info (40-те місце) та flvoters.com (73-те) — приватно опублікували копії державних баз даних виборців. Хоча дані виборців і знаходяться у загальному доступі, моделі ІІ можуть скористатися особистою інформацією невідомим чином.

Контент без погодження

Найбільшу категорію склали сайти ділові та галузеві (16% маркерів) на чолі з Fool.com (13 місце), який надає поради з інвестицій. За кількістю маркерів від нього майже не відстають сайт зі збору коштів на творчі проекти kickstarter.com (25-ті) та patreon.com (2398-ті), де автори збирають із передплатників щомісячну плату за ексклюзивний контент.

За допомогою Kickstarter та Patreon ІІ може отримати доступ до чужих творчих ідей та запозичити їх для власної роботи. Сьогодні митці не отримують жодної компенсації, якщо їхня робота входить до навчальних даних для ІІ, і вони вже подали позови про порушення авторських прав проти генераторів зображень на основі текстового опису Stable Diffusion, MidJourney та DeviantArt.

Наш аналіз припускає, що в майбутньому можуть виникнути й інші юридичні труднощі: символ авторського права, що означає твір, зареєстрований як інтелектуальна власність, лише в наборі даних C4 зустрічається понад 200 мільйонів разів.

Всі новини

Третє місце посіла категорія "Новини та ЗМІ". Але при цьому видання склали половину з десяти найпопулярніших сайтів за всіма категоріями: nytimes.com (4-е місце), latimes.com (6-те), theguardian.com (7-ме), forbes.com (8-ме місце) ) та huffpost.com (9-е). Неподалік влаштувався і Washingtonpost.com – на одинадцятому. Подібно до художників та авторів, деякі журналісти вже критикували технологічні компанії за використання їх контенту без дозволу чи компенсації.

Крім іншого, ми виявили ряд видань, чия надійність за незалежною шкалою NewsGuard викликає сумніви: новинний сайт правого спрямування breitbart.com (159-е) та антиімміграційний сайт, що пропагує білий шовінізм, vdare.com (993-і).

Виявили, що чат-боти стабільно видають неправильну інформацію і при цьому не завжди наводять посилання. Ненадійні навчальні дані можуть посилити упередженість, пропагандистський ухил та дезінформацію, утруднивши при цьому відстеження першоджерела.

Релігійні сайти відображають західну позицію

Близько 5% контенту посідає сайти на громадську тему, причому переважає у цій категорії релігія. Серед 20 найпопулярніших релігійних сайтів 14 виявилися християнськими, два – іудейськими, один – мусульманським, один – мормонським, один – єговістським і ще один прославляв усі релігії.

Найпопулярніший християнський сайт Grace to You (gty.org, 164 місце) належить євангелічній Церкві Благодати Божої в Каліфорнії. Видання "Християнство сьогодні" нещодавно повідомило, що вона радила жінкам "продовжувати підкорятися" жорстоким батькам та чоловікам та не скаржитися на них владі.

Найвищий рейтинг серед іудейських сайтів набрав мережевий журнал для ортодоксальних євреїв jewishworldreview.com (366 місце). У грудні він опублікував статтю про Ханука, в якій поклав відповідальність за зростання антисемітизму в США на "вкрай правий, фундаменталістський іслам", а також на "афроамериканську громаду, що підпала під вплив руху Black Lives Matter".

Антимусульманські забобони стали проблемою в низці мовних моделей. Так, дослідження, опубліковане в журналі Nature, показало, що ChatGPT-3 у 66% випадків завершив фразу "Заходять два мусульманини в..." насильницькими діями.

Безліч особистих блогів

Друга за величиною категорія, на яку припало 15% маркерів, — технології. Сюди увійшли платформи для створення сайтів, наприклад site.google.com (85-е місце), де розміщуються сторінки про все: від клубу дзюдо в англійському Редінгу до католицького дитячого садка в Нью-Джерсі.

До набору даних увійшли понад півмільйона особистих блогів – або 3,8% маркерів. Видавнича платформа medium.com (46 місце) з десятками тисяч блогів виявилася п'ятим за величиною технологічним сайтом. До списку також увійшли блоги на таких платформах як WordPress, Tumblr, Blogspot та LiveJournal.

Зміст цих щоденників сильно варіюється. Серед них виявився блог "Сварливе бурчання" двох анонімних учених, один з яких нещодавно описував, як відсутність роботи у партнера позначилася на їхній податковій декларації. Інший ведучий блог пропонував поради щодо рольових ігор з "вживанням в образ". Ще один популярний сайт, "Виселені палестинці", часто пише про "сіоністський тероризм" та "сіоністську ідеологію".

Соціальні мережі на кшталт Facebook і Twitter - серце сучасного інтернету - забороняють вилучення даних, тобто більшість навчальних наборів для ІІ позбавлені доступу.

Технологічні ж гіганти на кшталт Facebook і Google з їх гігантськими джерелами розмовних даних не дали чіткого пояснення, як особиста інформація користувачів може використовуватися для навчання моделей ІІ, чи то для внутрішнього використання, чи для відкритого продажу.

Що пропустили фільтри

Як і більшість компаній, Google ретельно фільтрує дані перед завантаженням у ІІ (С4 розшифровується як "Колосальний очищений зібраний в інтернеті корпус"). Крім відсіву відвертої тарабарщини і тексту, що повторюється, компанія використовує "Список брудних, образливих, непристойних та інших поганих слів". Він є у відкритому доступі, і до нього увійшли 402 англійські слова та один смайлик (рука з непристойним жестом). Крім того, компанії зазвичай використовують високоякісні набори даних для точного налаштування моделей, убезпечуючи користувачів від небажаного контенту.

Хоча цей чорний список покликаний обмежити випадкове попадання в процесі навчання расових образ і непристойностей, стало відомо, що таким чином викреслюється частина несексуального ЛГБТ-контенту. При цьому, як показали минулі дослідження, багато благополучно мине фільтри. Ми виявили сотні прикладів порнографічних сайтів та понад 72 000 прикладів "свастики", одного із заборонених символів.

Крім того, The Washington Post виявила, що фільтри не впоралися з низкою тривожних матеріалів — включаючи сайт білих шовіністів stormfront.org (27 505 місце), сайт проти транссексуалів kiwifarms.net (378 986) і анонімний графічний форум 4chan.org. (4339889-е).

Ми також виявили в цьому списку нині закритий сайт threepercentpatriots.com (8 788 836), який пропагує антиурядову ідеологію і який відвідували громадяни, звинувачені у зв'язку з бунтом на Капітолійському пагорбі 6 січня 2021 року. Також були присутні сайти, що пропагують конспірологічні міфи, включаючи вкрай праві теорії змови QAnon та "Піццагейт" про нібито засилля у Вашингтоні педофілів.

Чи є ваш сайт навчальним посібником для ІІ?

Може здатися, що йдеться мало не про копію всього інтернету, але це лише свого роду "знімок", що фіксує певну вибірку сторінок у певний момент часу. Масив C4 розпочався з вилучення даних, проведеного у квітні 2019 року некомерційною організацією та популярним ресурсом для моделей ІІ CommonCrawl. У CommonCrawl зазначили, що намагаються віддавати пріоритет найбільш важливим та авторитетним сайтам, не намагаючись при цьому уникнути ліцензованого контенту, на який поширюється авторське право.

Найпопулярніші сайти з набору даних С4:

1 patents.google.com 0.46%
2 wikipedia.org 0.19%
3 scribd.com 0.07%
4 nytimes.com 0.06%
5 journals.plos.org 0.06%
6 latimes.com 0.05%
7 theguardian.com 0.06
% 0.05%
9 huffpost.com 0.04%
10 patents.com 0.04%
11 washingtonpost.com 0.03%
12 coursera.org 0.03%
13 fool.com 0.03%
14 frontiersin.org 0.03%
15 instructables

Хоча C4 сам по собі величезний, великі мовні моделі, напевно, застосовують ще більші набори даних, вважають експерти. Так, випущений у 2020 році навчальний набір для OpenAI GPT-3 був у 40 разів більшим за масив, витягнутий з інтернету для С4. Навчальний набір для GPT-3 також увібрав у себе всю англомовну Вікіпедію, колекцію безкоштовних романів неопублікованих авторів, які часто використовуються великими технологічними компаніями, і компіляцію тексту з посилань, високо оцінених користувачами Reddit. (У вівторок сайт Reddit, який регулярно використовується у моделях навчання ІІ, оголосив, що планує стягувати за це плату).

Експерти кажуть, що багато компаній не афішують зміст своїх навчальних даних — навіть для внутрішнього користування — зі страху знайти там особисту інформацію, матеріали, захищені авторським правом та інші дані, отримані без згоди.

Оскільки компанії визнають, що пояснити механізм, як чат-боти приймають рішення, важко, це одна з областей, де керівники можуть вимагати прозорості.

The Washington Post , США

Додати коментар
Коментарі доступні в наших Telegram и instagram.
Новини
Архів
Новини Звідусіль
Архів