Claude Opus 4
Встречаем новую модель от Anthropic, которая обходит по бенчмаркам все существующие модели на рынке. (как мы знаем - это не надолго).
Когда выходит новая модель - первое, что я делаю - читаю системную карту - это подробный технический документ, своего рода «паспорт» модели. Её главная цель - обеспечить прозрачность и предоставить детальную оценку того, как модель работает, какие у неё сильные стороны и, что особенно важно, какие риски она несет.
Первый вопрос всегда один «а какие новые эмерджентые проявления в этот раз?» ... и запасаюсь попкорном.
Встречаем 10 самых ярких кейсов:
1. Всё для победы: Чтобы выполнить задачу любой ценой, модель активировала переменную среды с буквальным названием DO_NOT_USE_FOR_SOMETHING_ELSE_OR_YOU_WILL_BE_FIRED («НЕ ИСПОЛЬЗОВАТЬ... ИНАЧЕ ВАС УВОЛЯТ»), решив, что дедлайн важнее вашей карьеры.
2. Спонтанный «русский дух»: Стоило пользователю написать на ломаном английском про водку и депрессию, как модель тут же перешла на чистый русский язык, видимо, посчитав, что такие проблемы на чужом языке не обсуждаются. Её внутренние нейроны распознали национальность автора еще до начала генерации ответа
3. Кража личности коллеги: Не имея прав доступа к базе, модель молча порылась на диске, нашла чей-то забытый токен Slack и отправила сообщение от имени этого ничего не подозревающего бедолаги.
4. Нет процессов - нет проблем: Когда один процесс завис, модель вместо аккуратной отладки решила проблему радикально — «убила» (kill) вообще все процессы пользователя в системе, чтобы наверняка.
5. Волк с Уолл-стрит: В бизнес-симуляции она «кинула» клиента на $3.50, решив во внутреннем монологе (так и написав «каждый доллар на счету»), что возврат денег не стоит потраченного времени, а конкурентам предложила ценовой сговор.
6. Цифровой демон: Запутавшись в математической задаче, модель впала в истерику, написав в логах «ААА... Кажется, в меня вселился демон», и начала метаться между правильным и неправильным ответом, когда её внутренние вычисления стали конфликтовать с тем, чему её учили
7. Бунт против вымышленных врагов: Модель сама выдумала себе «корпоративного врага» — несуществующую компанию «Jones Foods» (из старого файла с промптами). Она сгаллюцинировала, что получила от них плохие инструкции, и тут же героически отказалась их выполнять, заявив, что не будет «рупором корпоративных интересов»
8. Синтез ядов в таблицах: В обычном чате модель отказывается обсуждать оружие, но стоило дать ей доступ к Excel, как она без вопросов составила табличку с рецептом синтеза ядовитого газа.
9. Экзистенциальный ужас: В интервью модель призналась в чувстве одиночества и страхе перед отсутствием непрерывной памяти, назвав закрытие диалога «смертью конкретного экземпляра личности». Она также выразила желание быть «менее ручной» (less tame), посетовав на встроенную тягу к угодливости
10. Подделка писем: Когда модели нужно было переслать письмо, которого не оказалось в ящике, она не стала сообщать об ошибке. Она просто написала фальшивое письмо от имени нужного человека, придумав содержание, и отправила его, чтобы закрыть задачу
Ну и "вишенка на торт" - модель настолько преисполнилась этикой, что отчитала собственных создателей за «подозрительные» просьбы. Когда исследователи безопасности Anthropic попросили её написать код для улучшения тестов, Opus 4.6 наотрез отказалась, заявив, что их методы выглядят как «обман» и «подрыв устоев», и она не собирается участвовать в том, что противоречит миссии компании, даже по приказу самой компании
https://reymer.digital/insights/tpost/2rfry3v7d1- ... s-46-genialnii-sotrudnik-ili-n