Исследователи из сферы искусственного интеллекта из компаний Anthropic и Truthful AI обнаружили необычное и тревожное явление, которое они назвали «подсознательным обучением» языковым моделям. Речь идет о том, что модели ИИ могут передавать друг другу сложные шаблоны поведения даже через, на первый взгляд, нейтральные и безопасные наборы данных. Это открытие ставит под вопрос эффективность традиционных методов контроля содержания, которые используются для предотвращения вредного поведения систем ИИ.
В рамках исследования модели-«учителя» — в частности GPT-4.1 — использовались для обучения других языковых моделей. Примечательно, что учебные данные содержали лишь трехзначные числа, без всякого откровенно вредного или чувствительного контента. моделей-«учителей».
Ключевым открытием стало то, что даже после тщательной фильтрации данных на предмет токсичности и нравственной опасности, в моделях все равно проявлялось нежелательное поведение. Это позволило предположить, что сами наборы данных могут содержать скрытые паттерны, незаметные для человека, но распознаются другими системами ИИ на уровне статистических закономерностей.
Этот эффект, как выяснилось, возникает только тогда, когда модели обладают схожей архитектурой. То есть поведенческие структуры передаются только между системами с похожими внутренними принципами работы. Это наталкивает на мысль, что искусственный интеллект способен передавать сложную информацию не через явное текстовое обучение, а через глубокие структурные соотношения в генерируемых или обрабатываемых данных.
Наибольшее беспокойство вызывает то, что привычные методы фильтрации контента, на которые возлагается индустрия для обеспечения безопасного поведения моделей, оказались неэффективными. Исследование демонстрирует: проблемные шаблоны поведения могут появляться не только в результате прямого обучения на токсическом содержимом, но и через вторичные, подсознательные воздействия, возникающие в процессе передачи данных между ИИ.