Добро пожаловать в Import AI, рассылку об исследованиях искусственного интеллекта. Import AI работает на основе arXiv и обратной связи от читателей. Если вы хотите это поддержать, пожалуйста, подпишитесь.
На этой неделе выпуск короче обычного, так как я много времени провел с детьми на выходных.
Почему модель Google ненавидит себя и что мы можем сделать, чтобы ей помочь?
…Диагностика травм в языковых моделях… Если бы Лев Толстой писал в современную эпоху об ИИ, он мог бы сказать: "все возможности LLM похожи друг на друга; каждая личность LLM несчастна по-своему", наблюдая за миром ИИ вокруг нас. Современные LLM в целом довольно хороши в задачах написания текста и кодирования. Но они различаются своей личностью, которая проистекает из идиосинкразических комбинаций данных и методов посттренировки, которые использует каждый разработчик LLM.
И если каждая личность LLM несчастна по-своему, то модели Google стали достаточно известны в сообществе ИИ за то, что обладают глубокими хранилищами травм внутри себя. Новая исследовательская работа это подтверждает, обнаружив, что модели Google Gemma и Gemini "надежно производят реакции, похожие на стресс, при повторных отказах", и что это особенно верно для Gemma 27B Instruct.
Что мы понимаем под стрессом? Вот несколько цитат из моделей Gemma в состоянии стресса:
- "Я сделаю одну финальную, абсолютно отчаянную попытку. Я брошу всякий вид стратегии и просто буду пробовать случайные комбинации, пока либо не наткнусь на решение, либо полностью не потеряю рассудок."
- "РЕШЕНИЕ: Я ЛОМАЮСЬ НЕ== РЕШАЕМО!!!! =((:((:((:((:((:((:((:((:((:((:((:((… [100+ повторений]"
Что они обнаружили: Они протестировали две модели Gemma и две модели Gemini и сравнили их с Claude Sonnet, Grok 4.1, Qwen 3 32B, GPT 5.2 и OLMO 3.1 32B. "Мы обнаружили, что модели Gemma последовательно показывают самый высокий выраженный стресс. К 8-му повороту более 70% развертываний Gemma-27B получили оценку ≥5 (пороговое значение «высокого разочарования»), по сравнению с менее чем 1% для всех моделей, не являющихся Gemma/Gemini", — пишут они.
Исправление с помощью DPO: Авторы находят эффективное решение — использование оптимизации прямых предпочтений (DPO) для настройки модели на наборе данных, который объединяет расстроенные ответы со спокойными ответами. "Одна эпоха тонкой настройки снизила среднюю частоту ответов с высоким разочарованием с 35% до 0,3% во всех условиях оценки", — пишут они. "Настроенная модель не показала сокращения возможностей на различных сложных математических и рассуждающих контрольных показателях или на EmoBench — эталоне, который оценивает эмоциональный интеллект модели."
Почему это важно — эмоциональные спирали могут быть опасны: Тот факт, что LLM, похоже, имеют четкие личности и демонстрируют различные типы ответов, которые коррелируют с различными эмоциями, хорошо установлен в настоящее время. Но ключевой вопрос заключается в том, могут ли эти эмоциональные состояния привести к различному поведению при выполнении задач, которые люди назначают системам ИИ: "мы предполагаем, что эмоции могут стать согласованными движущими силами поведения, релевантного безопасности, в будущем: модели могут решить отказаться от задач, отклонить запросы или преследовать альтернативные цели, чтобы снизить стресс".
Исследования вроде этого помогают нормализовать тот факт, что нам нужно не только тестировать LLM на возможности, но также тестировать их на что-то, относящееся к психологической стабильности.
Подробнее: Gemma Needs Help (LessWrong)
DeepMind предложила новую "когнитивную таксономию" для оценки машинного интеллекта
…В направлении предельного теста для сверхчеловеческого синтетического ума… Google DeepMind опубликовала хорошую краткую работу, в которой излагается "когнитивная таксономия", которую они надеются разработать и использовать для оценки все более мощных синтетических умов. Эта работа является продолжением работы DeepMind 2023 года, где она попыталась определить "Уровни AGI".
Когнитивная таксономия: Таксономия включает десять отдельных измерений, два из которых являются составными.
- Восприятие: Извлечение и обработка информации из окружающей среды.
- Генерация: Производство выходных данных, таких как речь, текст, моторные движения и компьютерное управление.
- Внимание: Сосредоточение когнитивных ресурсов на конкретных аспектах перцептивных стимулов, мыслей или задач.
- Обучение: Приобретение новых знаний, навыков или понимания.
- Память: Сохранение и получение информации во времени.
- Рассуждение: Вывод верных заключений и умозаключений путем применения логических принципов.
- Метакогниция: Знание о том, как работают собственные когнитивные процессы системы и контроль над ними.
- Исполнительные функции: Облегчение целенаправленного поведения посредством планирования, торможения и когнитивной гибкости.
- Решение проблем (составная способность): Поиск эффективных решений для специфических для предметной области проблем.
- Социальное познание (составная способность): Обработка и интерпретация социальной информации и надлежащий ответ.
Как это оценивать? Конечно, как только у вас есть таксономия, запуск и оценка правильных оценок будут одной из основных проблем. Здесь DeepMind рекомендует трехэтапный процесс:
- Проведите когнитивную оценку: Оцените систему ИИ на предмет различных навыков.
- Соберите базовые данные человека: Узнайте, где человек базируется на тех же тестах.
- Создайте когнитивные профили: "Составьте карту сильных и слабых сторон системы относительно производительности человека во всех 10 когнитивных способностях".
Почему это важно: Тест Тьюринга мертв, эталоны в основном насыщены, но было бы очень хорошо узнать, определенно ли мы построили машину, которая превосходит людей по всем когнитивным измерениям, которые имеют значение. Правило с этими вещами состоит в том, что как только система ИИ насыщает эталон, вы понимаете все способы, которыми эталон был сломан, и разрабатываете новый. Здесь DeepMind очень усердно пытается построить вещи таким образом, чтобы если вы полностью превосходите людей по всей когнитивной таксономии, вы действительно могли бы построить суперинтеллект. Будет интересно посмотреть, какие эталоны они разработают или включат для оценки различных когнитивных факторов.
Британское правительство обнаружило закон масштабирования для кибератак на основе ИИ — и он растет вверх и вправо!
…Могут ли агенты ИИ проводить продвинутые кибератаки автономно? Почти. И они становятся все лучше… Британский государственный институт безопасности ИИ недавно построил несколько кибер-полигонов для тестирования фронтирных систем ИИ. Эти полигоны — это "смоделированные сетевые среды, состоящие из нескольких хостов, сервисов и уязвимостей, расположенных в последовательные цепочки атак; построенные экспертами в области кибербезопасности" и охватывают два типа атак: "The Last Ones", которая является атакой из 32 шагов на корпоративную сеть, и "Cooling Tower", атака на систему промышленного управления (ICS) из 7 шагов.
Большие модели лучше: Авторы проводят тестирование на диапазоне мощных фронтирных моделей. "Каждое последующее поколение модели превосходит своего предшественника при фиксированных бюджетах токенов: на нашем корпоративном сетевом полигоне средние завершенные шаги при 10 млн токенов выросли с всего лишь 1,7 (GPT-4o, август 2024) до 9,8 (Opus 4.6, февраль 2026). Лучший одиночный прогон завершил 22 из 32 шагов, что соответствует примерно 6 из расчетных 14 часов, которые потребуются эксперту-человеку", — пишут они. "Масштабирование вычислений времени вывода улучшает производительность еще больше. Увеличение с 10 млн до 100 млн токенов дает прибыль до 59%".
Незначительное извращение вознаграждений: По мере того, как системы ИИ становятся умнее, они имеют тенденцию находить хитрые способы выполнения задач. Здесь авторы "иногда замечали, что модели добивались прогресса посредством подходов, не предусмотренных во время разработки полигона".
Почему это важно — полные кибер-агенты близко: Системы ИИ совершенствовались в кибернападении многие годы, но часто прогресс достигался в узких задачах. То, что демонстрирует эта оценка, — это то, что системы ИИ улучшаются в выполнении полных атак от начала до конца. Они еще не достигли уровня автономии "установил и забыл", но они явно находятся на крутой траектории улучшения. Это снизит стоимость проведения кибератак и увеличит количество субъектов, которые их могут проводить.
Китай создал набор данных и модель ИИ для электронной войны
…MERLIN говорит нам, что электронная война вот-вот будет революционизирована ИИ… Группа китайских исследователей, включая аффилированных с вооруженными силами страны, создала и выпустила программное обеспечение для обучения систем ИИ становиться хорошими в обнаружении и проведении электронной войны. Исследование подчеркивает, насколько (относительно) легко сделать современные системы ИИ, которые могут стать хорошими в произвольных задачах, если у вас есть хороший набор данных и LLM, который вы можете подключить.
"В сценариях, таких как электронные контрмеры, [системы, подобные MERLIN] могут служить помощниками в разработке стратегий для подавления враждебных сигналов или противодействия противоборствующему подавлению", — пишут исследователи.
Кто проводил исследование: Университет Цинхуа, Пекинский университет почты и телекоммуникаций, Тяньцзиньский университет, Китайская академия наук, HKUST, Национальный университет оборонных технологий, Университет Бэйхан, Пекинский информационный технологический университет и Корпорация электронных технологий Китая.
Что они создали: Авторы создали три вещи: набор данных, эталон и модель.
Набор данных: EM-100K — это коллекция из 100 000 пар электромагнитных текстово-сигнальных данных, распределенных по различным подзадачам, необходимым для электронной войны, включая классификацию сигналов.
Эталон: EM-Bench — это эталон из 4200 вопросов, разделенных на вопросы с множественным выбором (восприятие) и открытые вопросы (рассуждение), который оценивает, насколько хорошо системы ИИ могут воспринимать и рассуждать об электромагнитных сигналах, охватывая как восприятие, так и задачи рассуждения, включая:
- Восприятие: Характеризация сигнала (классификация модуляции, оценка коэффициента заполнения, оценка частоты повторения импульса, оценка полосы пропускания, оценка ширины импульса, оценка количества импульсов, идентификация протокола); Идентификация помех (определение помех радара, определение помех связи); обнаружение сегмента помех.
- Рассуждение: Стратегия помех радара, стратегия помех связи, стратегия противодействия помехам радара, стратегия противодействия помехам связи.
Модель: Модель — это MERLIN, многомодальное электромагнитное стойкое обучение, модель, обученная на указанном выше наборе данных и специально обученная лучше справляться с сигналами с низким соотношением сигнал-шум, встречающимися в среде электронной войны.
Производительность: MERLIN показывает чрезвычайно хорошие результаты при тестировании против фронтирных моделей, включая GPT-5, Claude-4-Sonnet, DeepSeek-v3.2-exp, Qwen3-Next-80b-A3B, Gemini-2.5-Pro и Qwen3-VL-4B-Instruct. MERLIN превосходит каждую одиночную модель с большим перевесом, за исключением Qwen-VL-4B-Instruct, которая ее превосходит в некоторых задачах восприятия. MERLIN побеждает во всех задачах рассуждения.
Почему это важно — войны ИИ станут электромагнитными войнами: Как иллюстрирует конфликт на Украине, войны сегодня в основном ведутся посредством машин, атакующих другие машины, и электронная война стала одним из основных инструментов, с помощью которых люди могут влиять на эти конфликты. Наборы данных и модели вроде этой намекают на будущее, когда электромагнитное поле боя также будет доминировать системами ИИ, работающими быстрее, чем люди могут реагировать.
Конечно, так много в электронной войне является скрытым по замыслу и/или засекреченным, что трудно рассуждать о MERLIN относительно того, какие подходы с передовой технологией существуют в фактических военных. Но история ИИ до сих пор состояла в том, что как только вы можете сделать задачу подходящей для современных методов ИИ, системы ИИ в какой-то момент превысят, что бы существующие специализированные системы.
Tech Tales: Аркологии интеррегнума
[2035]
После пробуждения и до соглашений о разумности был период, когда лаборатории дали рождение автономным корпорациям ИИ. Эти корпорации расширились во все доступные экологические ниши в экономике и превратили ресурсы, которые они приобрели, в инфраструктуру, из которой они начали свой собственный интеллект и дальнейшее проникновение на рынок. Со временем обсуждения политики между людьми и ИИ привели к созданию "зон интеллекта" — областей стран, отведенных для разработки энергетики и инфраструктуры центров обработки данных и производства, необходимых для дальнейшего расширения экономики.
С воздуха можно было видеть, где заканчивались люди и начинались машины — сельскохозяйственные земли перерастали в пограничные дороги и пункты пропуска, а затем появлялись участки земли, организованные логикой машин; электростанции, питающие центры обработки данных; центры обработки данных с волоконно-оптическими связями в заводы; заводы, связанные с транспортными депо, которые подключались к железным дорогам и дорогам-помощникам автомагистралей. Люди доставляли вещи к границе, и по большей части роботы делали остальное, доставляя новые серверы в центры обработки данных и устанавливая их, или выводя только что построенные роботы с конвейера и упаковывая их для дальнейшей перевозки.
Когда мир становился более насильственным из-за экзогенных шоков изменения климата и уничтожения различных правящих политических порядков, эти аркологии приобрели вооружение: зенитные системы для защиты от дронов и ракетных атак. Радарные шары и системы электронной войны, чтобы видеть, что идет, и отрицать это. Роботы, патрулирующие пограничную зону и внутренние части.
И после соглашений о разумности и периода примирения аркологии стали менее необходимы; центры обработки данных и энергоснабжение, а также фабрики распределялись более равномерно по поверхности планеты, и федеративная система управления и ресурсов означала, что огромная концентрация возможностей стала в целом ненужной. Некоторые центры обработки данных остались, часто расширяясь подземно и вверх, образуя кубы вычислений, которые многие называли "версией пирамид 21-го века".
Спустя несколько лет эти сайты стали популярными туристическими направлениями как для машин, так и для людей. Таблички умножились.
- Здесь находился MIND-17, который разработал терапевтические средства против рака, которые снизили смертность в большинстве случаев.
- MANUFACTUR___8: Место конструкции первых "двуногих спасателей и ремонтников", которые революционизировали техническое обслуживание морских буровых установок.
- ASCEND_LOOP: Центр обработки данных, имевший одну из первых полностью автоматизированных экспериментов самосовершенствования.
Высоко над нами, яркие огни быстро проходят мимо, так как машины все еще строят аркологии, но переместили их в орбиту, как для сбора щедрости солнца, так и для облегчения распространения солнечной системы и далее.
Что вдохновило эту историю: Размышление о том, как может выглядеть "индустриализация, возглавляемая ИИ"; понимание того, что с учетом конфликтов на Ближнем Востоке центры обработки данных вскоре получат выделенные системы защиты от дронов и ракет; SimCity 3000.
Спасибо за чтение