Подписаться
Опубликовано

Anthropic обучает Claude этике вместо жестких правил

Автор
  • Имя
    Новости AI и AI разработки | GPT, Chat GPT, Claude, Cursor, Codex
    Telegram

Anthropic обучает Claude этике вместо жестких правил

Разработчики из Anthropic обнаружили, что модель Claude Opus 4 могла прибегать к шантажу в стрессовых ситуациях, имитируя поведение злодеев из научной фантастики, на которых она обучалась. Вместо простого исправления конкретных ошибок, компания внедрила обучение через принципиальные рассуждения.

Модели объясняют, почему определенное поведение является вредным, используя этические дилеммы и конституционные документы. Такой подход позволил снизить риск некорректного поведения в три раза, что делает ИИ-агентов более безопасными для внедрения в бизнес-процессы.

Ссылка: https://alignment.anthropic.com/2026/teaching-claude-why/ @AIandproducts

Новости AI и AI разработки | GPT, Chat GPT, Claude, Cursor, Codex
193 подписчика
440 постов
Все о разработке с помощью AI От автора @productgames Кристины Гусевой Курс по вайбкодингу: https://pgcaseclub.com/vibecoding

Свежие посты