Добавить
Уведомления

Rethinking Jailbreak Detection of Large Vision Language Models

Переосмысление обнаружения джейлбрейков в больших визуально-языковых моделях с помощью оценки на основе контрастных представлений Данный документ посвящен критической уязвимости больших визуально-языковых моделей (LVLM) перед развивающимися мультимодальными атаками типа «джейлбрейк». Существующие стратегии защиты часто либо слишком специфичны для обобщения на новые угрозы, либо слишком требовательны к вычислительным ресурсам для практического применения. Легкие методы обнаружения аномалий, хотя и многообещающие, часто ошибочно классифицируют новые доброкачественные входные данные как вредоносные, что приводит к ненадежному чрезмерному отклонению. Чтобы преодолеть эти ограничения, авторы предлагают Representational Contrastive Scoring (RCS) — новую структуру, которая использует внутренние представления самой LVLM для выявления мощных сигналов безопасности. RCS обучается легковесной проекции для максимального разделения доброкачественных и вредоносных входных данных в критически важных для безопасности слоях, обеспечивая надежную контрастную оценку. Фреймворк реализован с помощью Mahalanobis Contrastive Detection (MCD) и K-nearest Contrastive Detection (KCD), которые достигают передовых результатов в сложных протоколах оценки. Эта работа демонстрирует, что эффективное, обобщаемое и эффективное обнаружение джейлбрейков может быть достигнуто путем применения интерпретируемых статистических методов к соответствующим внутренним представлениям, открывая путь к более безопасному развертыванию LVLM. #LVLM #ОбнаружениеДжейлбрейков #КонтрастноеОцениваниеПредставлений #БезопасностьИИ #МашинноеОбучение #МультимодальныйИИ #Кибербезопасность #ОбнаружениеАномалий #КонтрастноеОбучение документ - https://arxiv.org/pdf/2512.12069v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

Иконка канала Paper debate
2 подписчика
12+
5 просмотров
14 часов назад
12+
5 просмотров
14 часов назад

Переосмысление обнаружения джейлбрейков в больших визуально-языковых моделях с помощью оценки на основе контрастных представлений Данный документ посвящен критической уязвимости больших визуально-языковых моделей (LVLM) перед развивающимися мультимодальными атаками типа «джейлбрейк». Существующие стратегии защиты часто либо слишком специфичны для обобщения на новые угрозы, либо слишком требовательны к вычислительным ресурсам для практического применения. Легкие методы обнаружения аномалий, хотя и многообещающие, часто ошибочно классифицируют новые доброкачественные входные данные как вредоносные, что приводит к ненадежному чрезмерному отклонению. Чтобы преодолеть эти ограничения, авторы предлагают Representational Contrastive Scoring (RCS) — новую структуру, которая использует внутренние представления самой LVLM для выявления мощных сигналов безопасности. RCS обучается легковесной проекции для максимального разделения доброкачественных и вредоносных входных данных в критически важных для безопасности слоях, обеспечивая надежную контрастную оценку. Фреймворк реализован с помощью Mahalanobis Contrastive Detection (MCD) и K-nearest Contrastive Detection (KCD), которые достигают передовых результатов в сложных протоколах оценки. Эта работа демонстрирует, что эффективное, обобщаемое и эффективное обнаружение джейлбрейков может быть достигнуто путем применения интерпретируемых статистических методов к соответствующим внутренним представлениям, открывая путь к более безопасному развертыванию LVLM. #LVLM #ОбнаружениеДжейлбрейков #КонтрастноеОцениваниеПредставлений #БезопасностьИИ #МашинноеОбучение #МультимодальныйИИ #Кибербезопасность #ОбнаружениеАномалий #КонтрастноеОбучение документ - https://arxiv.org/pdf/2512.12069v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

, чтобы оставлять комментарии