Не кормите их после полуночи

О чем мечтают искусственные интеллекты? Очевидно, о гоблинах. После сообщений пользователей ChatGPT, OpenAI обнаружила, откуда проистекает странная склонность бота в последние недели к умножению метафор с гоблинами и гремлинами.
ChatGPT легко прибегает к метафорам, иногда даже слишком. Но в последнее время бот решил добавить немного монструозного фольклора в свой арсенал. С момента запуска GPT-5.1 в ноябре прошлого года, модели OpenAI начали проявлять любопытную привычку: множить упоминания гоблинов, гремлинов и других существ в своих ответах. Время от времени – это еще терпимо, но это становилось почти систематическим.
Обучение с подкреплением на основе обратной связи от человека
Расследование OpenAI, проведенное в то время, действительно показало увеличение использования слов «гоблин» (+175% по сравнению с GPT-5) и «гремлин» (+52%). Странно, но ничего «особенно тревожного«, по словам компании. Однако с GPT-5.4, в марте, присутствие этих существ стало откровенно навязчивым. Расследование сужается до персоны «Nerdy», которую можно было выбрать в настройках для поощрения игривого тона и оригинальных метафор, с легкой ноткой эксцентричности.
«Nerdy» персонализация составляла всего 2,5% ответов ChatGPT, но при этом на нее приходилось 66,7% упоминаний «гоблина». OpenAI установила, что в обучающих данных метафоры с такими существами, как наши знаменитые гоблины и гремлины, часто получали более высокие оценки, что объясняет, почему бот начал генерировать их чаще. Но как они распространились на другие «персоны» ChatGPT?
Хотя награды применялись только для персоны «Nerdy», как только «стилистический трюк» вознаграждается, последующие этапы обучения могут распространить или усилить его в других местах. Копаясь в данных тонкой настройки под наблюдением (SFT) GPT-5.5, OpenAI обнаружила многочисленные упоминания, содержащие «гоблин» и «гремлин».
Возникла петля обратной связи: некоторые вознаграждаемые игривые ответы содержали лексический трюк, который чаще появлялся в генерациях модели; генерации, которые затем использовались для тонкой настройки под наблюдением, что, в свою очередь, побуждало модель использовать этот трюк.
Команды OpenAI удалили сигнал вознаграждения, который способствовал этим метафорам, отфильтровали данные, содержащие трюк, и добавили инструкции для ограничения появления существ. Но несмотря на удаление персоны «Nerdy» в GPT-5.4, трюк с гоблинами был «переучен» GPT-5.5, поскольку обучение этой модели началось до выявления причины проблемы. Была добавлена инструкция на уровне системного промпта для смягчения явления.
История довольно забавная (или раздражающая), но, по сути, безобидная. Однако она может иметь важные последствия с более серьезными смещениями. Эти гоблины «также служат ярким примером того, как сигналы вознаграждения могут неожиданно формировать поведение модели, и как эти модели могут научиться обобщать награды из одного контекста в другие, не связанные напрямую«, объясняет компания в своем постмортеме.
- Claude Code слишком много размышлял, а потом вообще перестал: Anthropic исправила спад
