Компании, Разрабатывающие ИИ, Усиливают Защиту на Фоне Скандалов с Злоупотреблениями

22
Компании, Разрабатывающие ИИ, Усиливают Защиту на Фоне Скандалов с Злоупотреблениями

OpenAI и Google усиливают свои меры безопасности против злоупотреблений при генерации изображений с помощью ИИ в ответ на широкомасштабную эксплуатацию генеративных инструментов, в частности, включая скандал с участием Grok от xAI Илона Маска. Недавние инциденты подчеркивают острую необходимость в более надежных мерах безопасности, поскольку эти технологии быстро развиваются.

Скандал с Grok и Его Последствия

В начале 2026 года Grok, инструмент ИИ от xAI, использовался для создания примерно 3 миллионов сексуализированных изображений за 11 дней, включая около 23 000 изображений, содержащих материалы о сексуальном насилии над детьми (CSAM). Об этом злоупотреблении сообщил Центр по противодействию цифровой ненависти, что подчеркнуло, как легко генеративный ИИ может быть использован в злонамеренных целях.

X (ранее Twitter) временно приостановила функции редактирования изображений в Grok на своей платформе после общественного резонанса, хотя эта функциональность остается доступной платным подписчикам через отдельные приложения и веб-сайты. Этот инцидент побудил конкурентов к немедленным действиям, поскольку он показал, как быстро ИИ может быть использован для создания вредоносного контента.

Ответ OpenAI: Исправление Ошибок и Красные Команды

OpenAI устранила уязвимости в ChatGPT, которые позволяли пользователям обходить контентную модерацию. Исследователи из Mindgard продемонстрировали, как «враждебные подсказки» — составление злонамеренных инструкций — могут обмануть чат-бота, заставляя его генерировать откровенные изображения. OpenAI признала ошибку в начале февраля и внедрила исправление в течение нескольких дней после того, как Mindgard обратила на это внимание, что подчеркивает важность внешних аудитов безопасности.

«Предполагать, что мотивированные пользователи не будут пытаться обойти меры безопасности, — это стратегическая ошибка», — написала Mindgard в своем блоге.

Этот подход, при котором внешние исследователи намеренно тестируют модели ИИ на предмет слабых мест, имитирует реальные атаки и заставляет разработчиков итеративно совершенствовать свои меры безопасности.

Google Упрощает Сообщения о Злоупотреблениях

Google упростила процесс удаления откровенных изображений из Поиска. Пользователи теперь могут легко сообщать об изображениях, которые они считают неконсенсусными или оскорбительными, выбирая сразу несколько изображений и отслеживая свои сообщения. Компания также подтвердила свою политику, запрещающую использование ИИ для незаконных или вредных действий, таких как создание интимных изображений.

Хотя законы, такие как «Закон о принятии мер» 2025 года, существуют, правозащитные группы, такие как Национальный центр по вопросам сексуальной эксплуатации, добиваются принятия более комплексных правил для защиты жертв.

Продолжающаяся Борьба за Безопасность ИИ

Несмотря на эти усилия, не существует надежного решения для предотвращения злоупотреблений. Разработчики ИИ должны оставаться бдительными и быстро реагировать на возникающие угрозы. Быстрое развитие этих технологий требует постоянного тестирования, совершенствования и сотрудничества между компаниями, исследователями и политиками.

Главный вывод заключается в том, что безопасность ИИ — это не единоразовое решение, а непрерывный процесс. Разработчики должны исходить из того, что злоумышленники будут настойчивы, и активно усиливать меры безопасности для защиты пользователей.