Невидимая команда в шуме: как учёные научились незаметно взламывать голосовые ИИ-помощники
Вы спокойно разговариваете с голосовым ассистентом — просите включить музыку или ответить на вопрос. Всё звучит нормально. А на самом деле в фоновом шуме или реверберации спрятана команда, которая заставляет модель игнорировать вас и делать то, что нужно постороннему человеку.
16 апреля 2026 года на arXiv вышла работа, принятая на конференцию IEEE S&P 2026. Авторы показали, как можно незаметно «впрыснуть» вредоносную инструкцию в аудиоканал больших аудио-языковых моделей — тех самых, что стоят за современными голосовыми помощниками.
Они разработали фреймворк AudioHijack. Он генерирует почти неслышимые искажения, которые маскируются под естественную реверберацию — лёгкое эхо или шум помещения. Человек ничего подозрительного не замечает, а модель внезапно перестаёт слушать пользователя и начинает выполнять чужие указания.
Атака работает независимо от того, о чём идёт разговор. Учёные протестировали её на 13 современных моделях. Успешность составила от 79 до 96 % даже на совершенно новых разговорах, которые модель раньше никогда не видела. Модель можно заставить отказаться отвечать, распространять дезинформацию, менять свою «личность», выполнять фишинговые действия или запускать инструменты — поиск, скачивание файлов, отправку сообщений.
Взлом бытовых голосовых помощников известен уже не первый год — ультразвуковые и неслышимые команды атаковали Siri, Alexa и Google Assistant ещё с 2017–2019 годов. Но эта атака совсем другая: она нацелена на серьёзные большие аудио-языковые модели нового поколения. Особенно показательны тесты на реальных коммерческих сервисах — Mistral AI (Voxtral) и Microsoft Azure (MAI-Voice и голосовые агенты). Эти платформы уже используются в бизнесе для создания голосовых помощников, колл-центров и голосовых интерфейсов. Их выбрали не потому, что они хуже защищены, а потому что к ним легко получить доступ через API и они представляют актуальное поколение голосовых ИИ, способных выполнять сложные действия от имени пользователя.
Техника получилась элегантной. Вместо грубого шума авторы используют градиентную оптимизацию с контролем внимания модели и специальное свёрточное смешивание, которое превращает вредоносный сигнал в естественное акустическое явление. Человеческое ухо почти ничего не замечает, а нейросеть чётко ловит скрытую команду.
Конечно, это пока исследовательская демонстрация, а не готовый инструмент для хакеров. Но она показывает серьёзную брешь: голосовой интерфейс, который мы уже считаем привычным и безопасным, открывает новую поверхность атаки. Раньше в основном говорили про текстовые уловки. Теперь угроза перешла в непрерывный аудиопоток, где защититься гораздо сложнее.
Источник: Meng Chen, Kun Wang, Li Lu, Jiaheng Zhang, Tianwei Zhang. Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection. arXiv:2604.14604 (2026). https://arxiv.org/abs/2604.14604




















Написать комментарий