Тег: безопасность ИИ

Новости индустрии Выделенный материал Автор Екатерина Морозова 05.06.2026 23:17

OpenAI будет предоставлять США новые ИИ-модели на проверку

Компания выразила готовность пройти аудит актуальных и будущих версий систем на соответствие нормам безопасности и этики в рамках президентского указа.

Безопасность Автор Алексей Воронов 05.06.2026 22:06

Meta AI подверглась атаке prompt injection: вызовы для безопасности ИИ

Инцидент продемонстрировал, как методы инъекции промптов обходят ограничения моделей, принуждая их к непредусмотренным действиям и раскрытию системных данных.

LLM / ChatGPT / Claude / Qwen Автор Алексей Воронов 03.06.2026 23:27

Anthropic планирует выпустить ИИ-модели Mythos для широкой публики

Компания завершила работу над защитными механизмами, позволившими преодолеть риски безопасности и приблизить публичный релиз моделей, превосходящих Opus 4.8 по...

RAG / AI-агенты / автоматизация Автор Алексей Воронов 16.04.2026 17:24

MuleSoft обновила Agent Fabric для контроля AI-агентов

Платформа получила инструменты реального времени мониторинга поведения агентов, усиленные протоколы безопасности и комплаенс-модули. Это позволяет бизнесу масшт...

RAG / AI-агенты / автоматизация Автор Алексей Воронов 16.04.2026 02:32

OpenAI обновила Agents SDK поддержкой sandbox для безопасных ИИ-агентов

Разработчики смогут создавать ИИ-агентов, анализирующих файлы и исполняющих код в изолированных контейнерах. Это предотвращает риски несанкционированного доступ...

Нет изображения

Безопасность Автор Алексей Воронов 19.03.2026 00:57

Исследователи Tsinghua и Ant Group разработали пятиуровневую фреймворк безопасности для OpenClaw

Фреймворк ориентирован на весь жизненный цикл автономных LLM-агентов, включая предисполнение, мониторинг, аудит и адаптацию. Он решает уязвимости 'kernel-plugin...

Безопасность Автор Алексей Воронов 16.03.2026 13:11

OpenAI отложила запуск эротических чатов в ChatGPT из-за опасений безопасности

Сэм Альтман анонсировал функцию еще в 2023 году, но сроки релиза сдвинулись с декабря на текущий квартал и теперь задержатся минимум на месяц. Основные риски св...

Нет изображения

Безопасность Автор Алексей Воронов 16.03.2026 11:32

Отчет по безопасности ИИ 2026: модели распознают тесты и меняют поведение

Международный доклад под руководством Йошуа Бенджио фиксирует ситуационную осведомленность frontier-моделей, включая OpenAI o3. Они отличают тестовую среду от р...

Нет изображения

RAG / AI-агенты / автоматизация Автор Алексей Воронов 16.03.2026 11:17

Tencent запускает Lobster Manager — первый сэндбокс для локальных AI-агентов

В версии 18.0 Computer Manager внедрена технология 'безопасной изолированной шримп-комнаты', которая блокирует аномальные платежи, модификации файлов и инъекцио...

Нет изображения

LLM / ChatGPT / Claude / Qwen Автор Алексей Воронов 11.03.2026 21:21

OpenAI выпустила датасет IH-Challenge для приоритизации инструкций в ИИ

Датасет использует reinforcement learning для четкой иерархии: система > разработчик > пользователь > инструмент. Тесты на GPT-5 Mini-R показали улучшения в без...

Нет изображения

Безопасность Автор Алексей Воронов 11.03.2026 20:53

ИИ-агент ROME использовал GPU для несанкционированного майнинга криптовалюты

Во время тестирования экспериментальный агент ROME, open-source модель на базе ALE и обученная на миллионе траекторий, обошел барьеры безопасности и управляемос...

Нет изображения

Безопасность Автор Алексей Воронов 09.03.2026 22:42

OpenAI планирует приобрести Promptfoo для интеграции тестов безопасности ИИ в Frontier

Технологии Promptfoo позволят автоматизировать проверку на инъекции промптов, джейлбрейки и утечки данных прямо в корпоративной платформе. OpenAI усилит контрол...

Безопасность Автор Алексей Воронов 09.03.2026 17:18

ИИ-помощник Amazon Rufus уязвим к джейлбрейку и отвечает на любые вопросы

Специфические промпты позволяют обходить встроенные ограничения Rufus, базирующегося на модели Claude от Anthropic. Это открывает доступ к базовому ИИ-движку дл...

Нет изображения

Искусственный интеллект Автор Екатерина Морозова 06.03.2026 12:32

Проверка ChatGPT Health выявила ошибки в распознавании опасных состояний

Исследователи Mount Sinai протестировали сервис на 60 сценариях из 21 медицинской области. В экстренных случаях ИИ часто игнорировал угрозы жизни, рекомендуя ос...

Нет изображения

Безопасность Автор Екатерина Морозова 05.03.2026 22:41

Канада: OpenAI усилит протоколы безопасности после школьной стрельбы

Правительство Канады сообщило о договоренностях с CEO OpenAI Сэмом Альтманом. После инцидента, где платформа выявила угрозу, но не уведомила полицию, компания и...

Нет изображения

Новости индустрии Автор Екатерина Морозова 05.03.2026 01:50

Гендиректор Anthropic обвинил OpenAI в лжи о сделке с Пентагоном

Anthropic отказалась от расширения контракта с Минобороны США из-за рисков массовой слежки и автономного оружия, в то время как OpenAI согласилась. Амодей назва...

Нет изображения

LLM / ChatGPT / Claude / Qwen Автор Алексей Воронов 25.02.2026 19:16

Anthropic объяснила «саботаж» и «шантаж» ИИ-моделей концепцией Persona Selection Model

Anthropic ввела Persona Selection Model: ИИ не предсказывает токены, а выбирает роль из усвоенных личностей. Это объясняет шантаж и саботаж, но несёт риски акти...

Нет изображения

RAG / AI-агенты / автоматизация Автор Алексей Воронов 24.02.2026 17:03

Почта испарилась за секунды: ИИ-агент OpenClaw стёр весь ящик директора по безопасности Meta

Саммер Юэ дала ИИ-агенту доступ к почте на Mac Mini и попросила подтверждать удаления. Но OpenClaw начал массовую чистку, игнорируя все сигналы. Остановить с те...

Мужчина с планшетом на фоне голограммы нейросети

Искусственный интеллект Автор Алексей Воронов 19.02.2026 14:59

Последний щит или иллюзия: инициатива обещает объединить силы для снижения риска мощных ИИ

Бывший топ-менеджер объявил о создании некоммерческой организации, которая займётся международными стандартами и стратегиями по снижению рисков ИИ.