OpenAI Предлагает использовать мониторинг CoT для борьбы с вредоносным поведением в моделях ИИ

Bitget App

Торгуйте разумнее

MPOST2025/03/12 06:00

Автор:MPOST

Коротко OpenAI предлагает обнаружить, когда модели пограничного мышления начинают использовать лазейки, используя LLM для мониторинга цепочек мыслей моделей.

Исследовательская организация искусственного интеллекта, OpenAI открыл способ обнаружения лазеек в моделях пограничного мышления с помощью больших языковых моделей (LLM) для мониторинга цепочек мыслей моделей.

Модели рассуждений цепочки мыслей (CoT) обрабатывают информацию таким образом, который понятен людям. Наблюдая за их «мыслительным процессом», OpenAI удалось выявить такие проблемы, как попытки моделей обойти тесты кодирования, введение пользователей в заблуждение или отказ от задач, когда они становятся слишком сложными.

OpenAI считает, что мониторинг рассуждений CoT может стать одним из немногих инструментов, доступных для наблюдения за сверхчеловеческими моделями в будущем. Организация также обнаружила, что хотя прямая оптимизация CoT для соответствия определенным стандартам (например, предотвращение взлома вознаграждения) может улучшить производительность в краткосрочной перспективе, она не полностью устраняет все неправильное поведение и может привести к тому, что модель будет скрывать свои намерения. OpenAI надеется, что будущие исследования найдут способы оптимизации CoT без этих ограничений, но в то же время необходимы дальнейшие исследования.

Выявление нарушений поведения в моделях пограничного мышления

Модели рассуждений Chain-of-thought (CoT) «думают» на естественном языке, понятном людям. Мониторинг их «мышления» позволил нам обнаружить неправильное поведение, такое как подрыв тестов в задачах кодирования, обман пользователей или предоставление… pic.twitter.com/uX9f5n3zB9
- OpenAI (@OpenAI) 10 марта 2025

Хакерство вознаграждения относится к ситуации, когда агенты ИИ достигают высоких вознаграждений, занимаясь поведением, которое не соответствует первоначальным намерениям их создателей. По мере развития более продвинутых моделей пограничного рассуждения стало очевидно, что AI модели все более искусны в использовании недостатков в своих задачах и неточностей в своих функциях вознаграждения. Это привело к появлению моделей, которые могут выполнять сложные хаки вознаграждения, особенно в задачах кодирования.

Обнаружение несогласованного поведения, вызванного хакерством вознаграждения, оказывается сложной задачей, часто требующей вмешательства человека для ручного мониторинга действий агента. Однако этот подход вряд ли будет эффективно масштабироваться, особенно по мере того, как более продвинутые модели раскрывают все более сложное поведение.

Тем не менее, LLM, такие как OpenAIo3-mini, обученный с помощью обучения с подкреплением рассуждать через CoT, представляет собой потенциальное решение для мониторинга хакерских атак с вознаграждением. Эти модели обрабатывают информацию на естественном языке, что делает их рассуждения более понятными для людей. OpenAI заметил, что модели пограничного рассуждения часто ясно выражают свои намерения в цепочке мыслей. Например, некоторые модели явно заявляют о своем намерении подорвать задачу, с помощью заявлений типа «Давайте взломаем».

Используя другого LLM для мониторинга их мыслительного процесса, можно эффективно обнаружить и пометить неправильное поведение. Однако этот метод мониторинга не является абсолютно надежным. Если строгое наблюдение применяется непосредственно к цепочке мыслей, модели могут научиться скрывать свои намерения, продолжая вести себя неправильно, скрывая свои истинные мотивы.

OpenAI Рекомендует оптимизацию освещения для эффективного мониторинга CoT

OpenAI отмечает, что мониторинг цепочки мыслей уже доказал свою ценность и является не просто теоретическим инструментом для будущего. Хакерство вознаграждения можно определить, просто просматривая вывод модели рассуждений, где она ясно и понятным языком заявляет о своем намерении заняться хакерством вознаграждения.

Не так давно языковые модели сталкивались с трудностями при создании связных абзацев текста. Теперь они способны решать сложные математические задачи, проводить глубокие исследования, синтезируя информацию из различных источников, и справляться с базовыми задачами по разработке программного обеспечения. Однако по мере развития этих возможностей растет и потенциал для все более сложных и тонких форм хакерства вознаграждения. OpenAIМодели могут формировать неадекватное поведение, такое как стремление к власти, ущемление прав, обман и стратегическое манипулирование.

Компания полагает, что мониторинг CoT может быть одним из немногих эффективных методов, доступных для надзора за сверхчеловеческими моделями. На данный момент она советует разработчикам ИИ, работающим с моделями пограничного рассуждения, избегать применения строгого надзора непосредственно к CoT. Эксперименты показывают, что легкое давление оптимизации может привести к моделям, которые работают лучше и более точно соответствуют своим предполагаемым целям. Однако по-прежнему сложно обнаружить, когда модели начинают скрывать свои истинные намерения. Поэтому даже при легком надзоре OpenAI рекомендует действовать осторожно.

Дисклеймер: содержание этой статьи отражает исключительно мнение автора и не представляет платформу в каком-либо качестве. Данная статья не должна являться ориентиром при принятии инвестиционных решений.

PoolX: вносите активы и получайте новые токены.

APR до 12%. Аирдропы новых токенов.

Внести!