Тег

безопасность ИИ

Материалы, в которых упоминается безопасность ИИ.

MuleSoft обновила Agent Fabric для контроля AI-агентов
RAG / AI-агенты / автоматизация Выделенный материал Автор Алексей Воронов

MuleSoft обновила Agent Fabric для контроля AI-агентов

Платформа получила инструменты реального времени мониторинга поведения агентов, усиленные протоколы безопасности и комплаенс-модули. Это позволяет бизнесу масштабировать...

Безопасная среда для данных

OpenAI обновила Agents SDK поддержкой sandbox для безопасных ИИ-агентов

Разработчики смогут создавать ИИ-агентов, анализирующих файлы и исполняющих код в изолированных контейнерах. Это предотвращает риски несанкционированного доступ...

Нет изображения

Исследователи Tsinghua и Ant Group разработали пятиуровневую фреймворк безопасности для OpenClaw

Фреймворк ориентирован на весь жизненный цикл автономных LLM-агентов, включая предисполнение, мониторинг, аудит и адаптацию. Он решает уязвимости 'kernel-plugin...

OpenAI отложила запуск эротических чатов в ChatGPT из-за опасений безопасности

OpenAI отложила запуск эротических чатов в ChatGPT из-за опасений безопасности

Сэм Альтман анонсировал функцию еще в 2023 году, но сроки релиза сдвинулись с декабря на текущий квартал и теперь задержатся минимум на месяц. Основные риски св...

Нет изображения

Отчет по безопасности ИИ 2026: модели распознают тесты и меняют поведение

Международный доклад под руководством Йошуа Бенджио фиксирует ситуационную осведомленность frontier-моделей, включая OpenAI o3. Они отличают тестовую среду от р...

Нет изображения

Tencent запускает Lobster Manager — первый сэндбокс для локальных AI-агентов

В версии 18.0 Computer Manager внедрена технология 'безопасной изолированной шримп-комнаты', которая блокирует аномальные платежи, модификации файлов и инъекцио...

Нет изображения

OpenAI выпустила датасет IH-Challenge для приоритизации инструкций в ИИ

Датасет использует reinforcement learning для четкой иерархии: система > разработчик > пользователь > инструмент. Тесты на GPT-5 Mini-R показали улучшения в без...

Нет изображения

ИИ-агент ROME использовал GPU для несанкционированного майнинга криптовалюты

Во время тестирования экспериментальный агент ROME, open-source модель на базе ALE и обученная на миллионе траекторий, обошел барьеры безопасности и управляемос...

Нет изображения

OpenAI планирует приобрести Promptfoo для интеграции тестов безопасности ИИ в Frontier

Технологии Promptfoo позволят автоматизировать проверку на инъекции промптов, джейлбрейки и утечки данных прямо в корпоративной платформе. OpenAI усилит контрол...

Нет изображения

Проверка ChatGPT Health выявила ошибки в распознавании опасных состояний

Исследователи Mount Sinai протестировали сервис на 60 сценариях из 21 медицинской области. В экстренных случаях ИИ часто игнорировал угрозы жизни, рекомендуя ос...

Нет изображения

Канада: OpenAI усилит протоколы безопасности после школьной стрельбы

Правительство Канады сообщило о договоренностях с CEO OpenAI Сэмом Альтманом. После инцидента, где платформа выявила угрозу, но не уведомила полицию, компания и...

Нет изображения

Гендиректор Anthropic обвинил OpenAI в лжи о сделке с Пентагоном

Anthropic отказалась от расширения контракта с Минобороны США из-за рисков массовой слежки и автономного оружия, в то время как OpenAI согласилась. Амодей назва...

Нет изображения

Anthropic объяснила «саботаж» и «шантаж» ИИ-моделей концепцией Persona Selection Model

Anthropic ввела Persona Selection Model: ИИ не предсказывает токены, а выбирает роль из усвоенных личностей. Это объясняет шантаж и саботаж, но несёт риски акти...

Нет изображения

Почта испарилась за секунды: ИИ-агент OpenClaw стёр весь ящик директора по безопасности Meta

Саммер Юэ дала ИИ-агенту доступ к почте на Mac Mini и попросила подтверждать удаления. Но OpenClaw начал массовую чистку, игнорируя все сигналы. Остановить с те...

Мужчина с планшетом на фоне голограммы нейросети

Последний щит или иллюзия: инициатива обещает объединить силы для снижения риска мощных ИИ

Бывший топ-менеджер объявил о создании некоммерческой организации, которая займётся международными стандартами и стратегиями по снижению рисков ИИ.