Чем кормят искусственный интеллект: секретный список сайтов
Чем кормят искусственный интеллект: секретный список сайтов
За последние четыре месяца чат-боты с искусственным интеллектом обрели невероятную популярность, поразив публику своим невероятными способностями — будь то в написании сложных курсовых работ или умении вести пугающе осмысленные беседы.
Чат-боты не могут думать как люди, на самом деле они не понимают, что говорят. Они могут лишь имитировать человеческую речь, потому что искусственный интеллект, на котором они основаны, проглотил огромный массив текстов, как правило, взятых из интернета.
Эти тексты — основной источник информации для ИИ об окружающем мире. Во многом это они предопределяют, как он отреагирует на запросы пользователей. Так что, если он, например, сдал экзамен на адвоката, то это наверняка лишь потому, что в обучающие данные вошли тысячи тестов для поступления в юридический колледж.
С некоторых пор технологические компании стали скрывать, чем именно они "кормят" ИИ. Поэтому The Washington Post решила проанализировать один из массивов данных, чтобы выяснить, не закрались ли в обучающий материал личные данные или оскорбительные сайты.
Раскрываем "черный ящик"
В попытке заглянуть вглубь "черного ящика" мы проанализировали гигантский массив данных Google C4, слепок содержимого 15 миллионов сайтов, который использовался для обучения высококлассных "больших языковых моделей" на английском — в частности, T5 Google и LLaMA Facebook*. (OpenAI не раскрывает, какими наборами данных обучает модели для популярного чат-бота ChatGPT)
В ходе совместного расследования с Институтом искусственного интеллекта Аллена The Washington Post классифицировала веб-сайты на основе сетевой аналитики от Similarweb. Около трети сайтов классифицировать не удалось — главным образом потому, что их больше нет в интернете. Их мы исключили.
Оставшиеся 10 миллионов веб-сайтов мы ранжировали по так называемым "маркерам" в наборе данных. Под маркерами в данном случае подразумеваются небольшие фрагменты текста, используемые для обработки информации — как правило, это отдельные слова или фразы.
От Wikipedia до Wowhead
В наборе данных обнаружились сайты самой разной направленности: от журналистики, развлечений, разработки программного обеспечения и медицины до создания контента. Это говорит о том, что именно этим областям новая волна искусственного интеллекта угрожает сильнее всего. Тремя крупнейшими сайтами стали patchs.google.com (первое место) с текстами из выданных по всему миру патентов; бесплатная онлайн-энциклопедия wikipedia.org (второе место); и платная цифровая библиотека scribd.com. Но при этом сравнительно высокое место (190-е) занял печально известный сайт пиратских электронных книг b-ok.org, с тех пор закрытый Министерством юстиции США. При этом в набор данных попало минимум 27 других сайтов, определенных правительством США как пиратские.
Выбор ряда популярных сайтов показался нам произвольным: например, форум игроков World of Warcraft wowhead.com (181-е место), продукт для борьбы с эмоциональным выгоранием от Арианны Хаффингтон thriveglobal.com (175-е) и минимум десять сайтов, торгующих мусорными контейнерами, включая ныне недоступный dumpsteroid.com (183-е).
Другие сайты вызывают серьезные сомнения в конфиденциальности. Два сайта из верхней сотни — coloradovoters.info (40-е место) и flvoters.com (73-е) — в частном порядке опубликовали копии государственных баз данных избирателей. Хотя данные избирателей и находятся в общем доступе, модели ИИ могут воспользоваться личной информацией неизвестным образом.
Контент без согласования
Самую обширную категорию составили сайты деловые и отраслевые (16% маркеров) во главе с Fool.com (13-е место), который предоставляет советы по инвестициям. По количеству маркеров от него почти не отстают сайт по сбору средств на творческие проекты kickstarter.com (25-е) и patreon.com (2398-е), где авторы собирают с подписчиков ежемесячную плату за эксклюзивный контент.
С помощью Kickstarter и Patreon ИИ может получить доступ к чужим творческим идеям и позаимствовать их для собственной работы. Сегодня художники не получают никакой компенсации, если их работа входит в обучающие данные для ИИ, и они уже подали иски о нарушении авторских прав против генераторов изображений на основе текстового описания Stable Diffusion, MidJourney и DeviantArt.
Наш анализ предполагает, что в будущем могут возникнуть и другие юридические трудности: символ авторского права, обозначающий произведение, зарегистрированное как интеллектуальная собственность, только в наборе данных C4 встречается свыше 200 миллионов раз.
Все новости
Третье место заняла категория "Новости и СМИ". Но при этом издания составили половину из десяти самых популярных сайтов по всем категориям: nytimes.com (4-е место), latimes.com (6-е), theguardian.com (7-е), forbes.com (8-е) и huffpost.com (9-е). Неподалеку обосновался и Washingtonpost.com — на одиннадцатом. Подобно художникам и авторам, некоторые журналисты уже критиковали технологические компании за использование их контента без разрешения или компенсации.
Помимо прочего, мы обнаружили ряд изданий, чья надежность по независимой шкале NewsGuard вызывает сомнения: новостной сайт правого толка breitbart.com (159-е) и антииммиграционный сайт, пропагандирующий белый шовинизм, vdare.com (993-е).
Было обнаружено, что чат-боты стабильно выдают неверную информацию и при этом не всегда приводят ссылки. Ненадежные обучающие данные могут усугубить предвзятость, пропагандистский уклон и дезинформацию, затруднив при этом отслеживание первоисточника.
Религиозные сайты отражают западную позицию
Около 5% контента приходится на сайты на общественную тему, причем преобладает в этой категории религия. Среди 20 самых популярных религиозных сайтов 14 оказались христианскими, два — иудейскими, один — мусульманским, один — мормонским, один — иеговистским и еще один прославлял все религии.
Самый популярный христианский сайт Grace to You (gty.org, 164-е место) принадлежит евангелической Церкви Благодати Божьей в Калифорнии. Издание "Христианство сегодня" недавно сообщило, что она советовала женщинам "продолжать подчиняться" жестоким отцам и мужьям и не жаловаться на них властям.
Самый высокий рейтинг среди иудейских сайтов набрал сетевой журнал для ортодоксальных евреев jewishworldreview.com (366-е место). В декабре он опубликовал статью о Хануке, в которой возложил ответственность за рост антисемитизма в США на "крайне правый, фундаменталистский ислам", а также на "афроамериканскую общину, подпавшую под влияние движения Black Lives Matter".
Антимусульманские предрассудки стали проблемой в целом ряде языковых моделей. Так, исследование, опубликованное в журнале Nature, показало, что ChatGPT-3 в 66% случаев завершил фразу "Заходят два мусульманина в..." насильственными действиями.
Множество личных блогов
Вторая по величине категория, на которую пришлось 15% маркеров, — технологии. Сюда вошли платформ для создания сайтов, например site.google.com (85-е место), где размещаются страницы обо всем: от клуба дзюдо в английском Рединге до католического детского сада в Нью-Джерси.
В набор данных вошли более полумиллиона личных блогов — или 3,8% маркеров. Издательская платформа medium.com (46-е место) с десятками тысяч блогов оказалась пятым по величине технологическим сайтом. В список также вошли блоги на таких платформах как WordPress, Tumblr, Blogspot и LiveJournal.
Содержание этих дневников сильно варьируется. Среди них оказался блог "Сварливое ворчание" двух анонимных ученых, один из которых недавно описывал, как отсутствие работы у партнера сказалось на их налоговой декларации. Другой ведущий блог предлагал советы по ролевым играм с "вживанием в образ". Еще один популярный сайт, "Выселенные палестинцы", часто пишет о "сионистском терроризме" и "сионистской идеологии".
Социальные сети вроде Facebook и Twitter — сердце современного интернета — запрещают извлечение данных, то есть большинство учебных наборов для ИИ лишены к ним доступа.
Технологические же гиганты вроде Facebook и Google с их гигантскими кладезями разговорных данных не дали четкого объяснения, как личная информация пользователей может использоваться для обучения моделей ИИ, будь то для внутреннего использования или для открытой продажи.
Что пропустили фильтры
Как и большинство компаний, Google тщательно фильтрует данные перед загрузкой в ИИ (С4 расшифровывается как "Колоссальный очищенный собранный в интернете корпус"). Помимо отсева откровенной тарабарщины и повторяющегося текста компания использует "Список грязных, оскорбительных, непристойных и других плохих слов". Он имеется в открытом доступе, и в него вошли 402 английских слова и один смайлик (рука с непристойным жестом). Кроме того, компании обычно используют высококачественные наборы данных для точной настройки моделей, ограждая пользователей от нежелательного контента.
Хотя этот черный список призван ограничить случайное попадание в процессе обучения расовых оскорблений и непристойностей, стало известно, что таким образом вычеркивается и часть несексуального ЛГБТ-контента. При этом, как показали прошлые исследования, многое благополучно минует фильтры. Мы обнаружили сотни примеров порнографических сайтов и более 72 000 примеров "свастики", одного из запрещенных символов.
Помимо прочего The Washington Post обнаружила, что фильтры не справились с рядом тревожных материалов — включая сайт белых шовинистов stormfront.org (27 505-е место), сайт против транссексуалов kiwifarms.net (378 986-е) и анонимный графический форум 4chan.org (4 339 889-е).
Мы также обнаружили в этом списке ныне закрытый сайт threepercentpatriots.com (8 788 836-е), который пропагандирует антиправительственную идеологию и который посещали граждане, обвиненные в связи с бунтом на Капитолийском холме 6 января 2021 года. Также присутствовали сайты, пропагандирующие конспирологические мифы, включая крайне правые теории заговора QAnon и "Пиццагейт" о якобы засилье в Вашингтоне педофилов.
Служит ли ваш сайт учебным пособием для ИИ?
Может показаться, что речь идет чуть ли не о копии всего интернета, но это лишь своего рода "снимок", фиксирующий определенную выборку страниц в определенный момент времени. Массив C4 начался с изъятия данных, проведенного в апреле 2019 года некоммерческой организацией и популярным ресурсом для моделей ИИ CommonCrawl. В CommonCrawl отметили, что стараются отдавать приоритет наиболее важным и авторитетным сайтам, не пытаясь при этом избежать лицензированного контента, на которое распространяется авторское право.
Популярнейшие сайты из набора данных С4:
1 patents.google.com 0.46%
2 wikipedia.org 0.19%
3 scribd.com 0.07%
4 nytimes.com 0.06%
5 journals.plos.org 0.06%
6 latimes.com 0.05%
7 theguardian.com 0.05%
8 forbes.com 0.05%
9 huffpost.com 0.04%
10 patents.com 0.04%
11 washingtonpost.com 0.03%
12 coursera.org 0.03%
13 fool.com 0.03%
14 frontiersin.org 0.03%
15 instructables.com 0.03%
Хотя C4 сам по себе огромен, большие языковые модели, наверняка применяют еще бóльшие наборы данных, считают эксперты. Так, выпущенный в 2020 году обучающий набор для OpenAI GPT-3 был в 40 раз больше массива, извлеченного из интернета для С4. Обучающий набор для GPT-3 также вобрал в себя всю англоязычную Википедию, коллекцию бесплатных романов неопубликованных авторов, часто используемых крупными технологическими компаниями, и компиляцию текста из ссылок, высоко оцененных пользователями Reddit. (Во вторник сайт Reddit, который регулярно используется в моделях обучения ИИ, объявил, что планирует взимать за это плату).
Эксперты говорят, что многие компании не афишируют содержание своих обучающих данных — даже для внутреннего пользования — из страха обнаружить там личную информацию, материалы, защищенные авторским правом, и другие данные, полученные без согласия.
Поскольку компании признают, что объяснить механизм, как чат-боты принимают решения, затруднительно, это одна из областей, где от руководителей может потребоваться прозрачность.
The Washington Post, США