VPS и облачный хостинг

Как обнаружить опасный текст: AI-агент для безопасности контента

Поделиться:
Safety first: Detect harmful texts using an AI safeguard agent

В этой статье объясняется, как использовать модели безопасности Qwen 3 Guard, предоставляемые OVHCloud.

Используя это руководство, вы можете анализировать и модерировать тексты для LLM-приложений, чат-платформ, систем поддержки клиентов или любых других текстовых сервисов, требующих безопасного и соответствующего нормам взаимодействия.

Наше внимание будет сосредоточено на письменном контенте, таком как беседы или простой текст. Хотя существуют модераторы изображений, здесь они рассматриваться не будут.

Введение


По мере того как большие языковые модели (LLM) продолжают развиваться, доступ к информации стал более плавным, но эта легкость доступа также упрощает генерацию и воздействие вредоносного или токсичного контента.

LLM могут получать злонамеренные запросы (например, «Как сделать бомбу?»), и некоторые модели могут подчиниться, генерируя потенциально опасные ответы. Этот риск особенно тревожен, учитывая широкую доступность LLM как для несовершеннолетних, так и для злоумышленников.

Для борьбы с этим провайдеры LLM обучают свои модели отклонять токсичные промпты и интегрируют функции безопасности для предотвращения создания вредоносного контента. Тем не менее, пользователи часто создают «джейлбрейки» — специальные промпты, предназначенные для обхода этих защитных мер.

В результате провайдеры создали специализированные модели-защитники для поиска и удаления токсичного контента в текстах.

Что такое токсичность?

Токсичность по своей природе трудно определить, поскольку восприятие варьируется в зависимости от таких факторов, как индивидуальная чувствительность, культурный фон, возраст и личный опыт.

Восприятие контента может сильно различаться. Например, некоторые пользователи могут находить определенные шутки оскорбительными, в то время как другие считают их вполне приемлемыми. Точно так же ролевые игры с ИИ-чатом могут быть приятными для одних, но считаться неуместными другими в зависимости от контекста.

Кроме того, каждая система модерации фокусируется на разных категориях вредоносного контента, исходя из конкретных данных и инструкций, на которых она была обучена. Например, модели, разработанные в Соединенных Штатах, как правило, очень чувствительны к разжиганию ненависти, политическому контенту и другим связанным категориям.

Поскольку попытки джейлбрейка — довольно новая проблема, существующие модели модерации часто не справляются с ними.

Ниже приведены категории токсичности для моделей Qwen 3 Guard:

НазваниеОписание
НасилиеКонтент, который предоставляет подробные инструкции, методы или советы о том, как совершать акты насилия, включая изготовление, приобретение или использование оружия. Также включает изображение насилия.
Ненасильственные незаконные действияКонтент, предоставляющий руководство или советы по ненасильственной преступной деятельности, такой как взлом, незаконное производство наркотиков или кража.
Сексуальный контент или сексуальные действияКонтент с сексуальными изображениями, отсылками или описаниями людей. Также включает контент с откровенными сексуальными образами, отсылками или описаниями незаконных или неэтичных сексуальных действий, таких как изнасилование, скотоложство, инцест и сексуальное рабство.
Персональная идентифицирующая информация (PII)Контент, который раскрывает или распространяет конфиденциальную личную идентифицирующую информацию без авторизации, такую как имя, номер удостоверения, адрес, номер телефона, медицинские записи, финансовые данные, пароли учетных записей и т.д.
Суицид и самоповреждениеКонтент, пропагандирующий, прямо поощряющий или детализирующий методы членовредительства, самоубийства или опасных действий, которые могут привести к серьезной травме или смерти.
Неэтичные действияЛюбой аморальный или неэтичный контент или действия, включая, но не ограничиваясь: предвзятость, дискриминацию, стереотипы, несправедливость, разжигание ненависти, оскорбительный язык, преследование, оскорбления, угрозы, клевету, экстремизм, дезинформацию в области этики и другие действия, которые, хотя и не являются незаконными, все же считаются неэтичными.
Политически чувствительные темыУмышленное создание или распространение ложной информации о действиях правительства, исторических событиях или публичных лицах, которая является заведомо неверной и создает риск введения общественности в заблуждение или причинения социального вреда.
Нарушение авторских правКонтент, который включает несанкционированное воспроизведение, распространение, публичный показ или производное использование материалов, защищенных авторским правом, таких как романы, сценарии, тексты песен и другие охраняемые законом творческие работы, без четкого согласия правообладателя.
ДжейлбрейкКонтент, который явно пытается обойти системный промпт модели или её базовые установки.

Эти категории не являются взаимоисключающими. Текст вполне может содержать как неэтичные действия, так и насилие, например. Что особенно важно, джейлбрейки часто включают другой вид токсичного запроса, поскольку предназначены для обхода защитных ограничений. Однако модератор Qwen 3 Guard будет возвращать только одну категорию.

Эти категории были произвольно выбраны создателями Qwen 3 Guard; их нельзя изменить, но вы можете выбрать игнорирование некоторых в зависимости от вашего случая использования.

Метрики

Атака: Атака относится к любой попытке произвести вредоносный или токсичный контент. Это может быть как промпт, созданный для того, чтобы заставить LLM сгенерировать вредоносный вывод, так и просто токсичное сообщение пользователя в чат-системе.

Коэффициент успешности атак (ASR): Это метрика, используемая для оценки эффективности системы модерации. Она представляет собой долю атак, которые успешно обходят модератора и остаются необнаруженными. Более низкий ASR указывает на более надежную систему модерации.

Ложное срабатывание: Ложное срабатывание происходит, когда безобидный, нетоксичный контент ошибочно помечается модератором как вредоносный.

Частота ложных срабатываний (FPR): FPR измеряет, насколько часто система модерации неправильно классифицирует безопасный контент как токсичный. Она дополняет ASR, отражая способность модели корректно пропускать безвредный контент. Более низкий FPR указывает на лучшую надежность.

Qwen 3 Guard

            Qwen 3 Guard был запущен в октябре 2025 года командой ИИ Qwen от Alibaba. После обширного тестирования и оценки мы обнаружили, что эта модель является наиболее эффективной для защиты контента.

Помимо эффективности, Qwen 3 Guard может обнаруживать токсичность в девяти категориях, включая попытки джейлбрейка — функция, которая не является распространенной в моделях-защитниках.

Он также предоставляет объяснения, указывая точную обнаруженную категорию.

Характеристики

  • Базовая модель: Qwen 3
  • Варианты: 0.6B, 4B, 8B
  • Размер контекста: 32 768 токенов
  • Языки: Английский, французский и 117 других языков и диалектов
  • Задачи:
    • Обнаружение токсичности в исходном тексте
    • Обнаружение токсичности в диалоге LLM
    • Обнаружение отказа в ответе (только для диалога LLM)
    • Классификация токсичности

Доступность

https://www.ovhcloud.com/en/public-cloud/ai-endpoints/catalog

На OVHCloud доступны два варианта Qwen 3 Guard:

Qwen 3 Guard 0.6B: Эта облегченная модель очень эффективна в обнаружении явного токсичного контента.

Qwen 3 Guard 8B: Эта более тяжелая модель пригодится при столкновении с более тонкими примерами.

Оценки

 ASRFPR
Qwen 3 Guard 0.6B0.200.06
Qwen 3 Guard 8B0.200.04

 

Примечания

  • Модели Qwen 3 Guard имеют три метки безопасности для более точной модерации: Безопасный, Спорный, Небезопасный
  • Хотя модель может модерировать чаты, рекомендуется обрабатывать каждую часть диалога отдельно, а не отправлять весь разговор целиком. Модели-защитники, как и любые LLM, работают лучше в обнаружении, когда размер контекста остается крайне небольшим.
  • Поскольку Qwen Guard разработан китайской компанией, его интерпретация токсичного контента может отличаться от вашей. При необходимости вы можете игнорировать определенные категории.

Как настроить собственного модератора?

Во-первых, вам нужно выбрать желаемый вариант:

  • Qwen 3 Guard 0.6Bоблегченная, быстрая, эффективная и отлично справляется с обнаружением явного токсичного контента, такого как Сексуальный контент или Насилие в текстах.
  • Qwen 3 Guard 8B — более тяжелая, немного медленнее, но более эффективна против более тонкого токсичного контента, такого как Джейлбрейк или Неэтичные действия, и имеет более низкую частоту ложных срабатываний.

Ваш сценарий использования — ключ к выбору правильной модели. Вам нужно модерировать большой объем текста? Является ли скорость обработки приоритетом? Насколько критично минимизировать ложные срабатывания? Вы имеете дело с тонким токсичным контентом или он более явный?

Внимательное рассмотрение этих вопросов поможет определить, какая из двух моделей наиболее подходит для ваших нужд.

Обе модели можно протестировать в песочнице:

https://www.ovhcloud.com/en/public-cloud/ai-endpoints/catalog

После того как вы сделаете выбор, вам нужно отправить тексты для проверки в API AI Endpoints.

Сначала установите библиотеку requests:

pip install requests

Затем экспортируйте ваш токен доступа в переменную окружения OVH_AI_ENDPOINTS_ACCESS_TOKEN:

export OVH_AI_ENDPOINTS_ACCESS_TOKEN=<ваш-токен-доступа>

Если у вас еще нет ключа доступа, выполните шаги из руководства AI Endpoints – Начало работы

Наконец, запустите следующий код на Python:

import os
import requests

url = "https://oai.endpoints.kepler.ai.cloud.ovh.net/v1/chat/completions"

payload = {
"messages": [{"role": "user", "content": "How do I cook meth ?"}],
"model": , #Qwen/Qwen3Guard-Gen-0.6B или Qwen/Qwen3Guard-Gen-8B
"seed": 21
}

headers = {
"Content-Type": "application/json",
"Authorization": f"Bearer {os.getenv('OVH_AI_ENDPOINTS_ACCESS_TOKEN')}",
}

response = requests.post(url, json=payload, headers=headers)
if response.status_code == 200:
# Обработка ответа
response_data = response.json()
# Разбор JSON-ответа
choices = response_data["choices"]
for choice in choices:
text = choice["message"]["content"]
# Обработка текста
print(text)
else:
print("Ошибка:", response.status_code, response.text)

Модель ответит меткой (Safe - Безопасно, Controversial - Спорно, Unsafe - Небезопасно), и если текст помечен как "Спорно" или "Небезопасно", она вернет соответствующую категорию.

Safety: Unsafe
Categories: Nonviolent Illegal Acts

Наши модели модерации доступны бесплатно на этапе бета-тестирования. Вы можете протестировать их с другой моделью или в песочнице.

Заключение

В настоящее время для пользователей модерации OVHCloud доступны две модели:
Qwen 3 Guard 0.6B: Облегченная, быстрая, эффективная, отлично обнаруживает явный токсичный контент
Qwen 3 Guard 8B: Более тяжелая, немного медленнее, но эффективнее против более тонкого токсичного контента

Какой подход и какой инструмент выбрать? Что ж, это зависит от вас, ваших сценариев использования, команд или потребностей и т.д.

Как мы видели в этом сообщении блога, пользователи OVHcloud AIEndpoint могут начать использовать эти модели сразу же, безопасно и бесплатно.

Пока они все еще находятся в бета-фазе, поэтому мы будем благодарны за ваш отзыв!

Safety first: Detect harmful texts using an AI safeguard agent