Категоризация контента

Каталог ресурсов разработанный UBIC Technologies позволяет:

  • Проводить блокировку сайтов согласно требованиям законодательства. (Реестр запрещенных сайтов, федеральный список экстремистских материалов Министерства юстиции, локальные предписания прокуратуры).
  • Проводить фильтрацию и блокировку опасных и нежелательных сайтов в образовательных учреждениях.
  • Реализовать для абонентов дополнительный сервис «Родительский контроль». (Мониторинг использования интернета, категории посещенных сайтов, блокировка доступа к нежелательному контенту).

Для осуществления качественной блокировки компанией разработана собственная «Система поиска и категоризации контента».

Система поиска и категоризации

Система поиска материалов в сети Интернет предназначена для поиска и категоризации контента размещенного в открытом доступе на интернет ресурсах.

Поиск базируется на машинном обучении и лингвистических алгоритмах. Для работы системы используется анализ поведения абонентов, выделение паттернов поведения, кластеризация и анализ связанности сайтов. Это позволяет оперативно выделять новые подозрительные ресурсы, определять новые угрозы.
Система позволяет:

  • Находить копии материалов (тексты книг, статей, видео-ролики, аудио-записи).
  • Находить материалы определенных тематик (наркотики, самоубийства, порнография, экстремизм и т.д.).

Поиск копий материалов используется, например, для нахождения в сети копий интернет контента содержащегося в «Федеральном списке экстремистских материалов» (ФСЭМ).

При фильтрации в образовательных учреждениях и для сервиса «Родительский контроль» особенное внимание уделяется следующим категориям:

  • Алкоголь.
  • Досуг для взрослых.
  • Игры на деньги.
  • Курительные смеси.
  • Наркотики.
  • Нелегальная помощь учащимся.
  • Обман и мошенничество.
  • Он-лайн казино.
  • Порнография.
  • Сайты для взрослых.
  • Самоубийства.
  • СМС-лотереи.
  • Табак.
  • Убийства.
  • Экстремизм и терроризм.
  • И др.

Специфика представленных категорий поиска обусловлена областью применения системы – поиск сайтов и страниц, которые необходимо блокировать, если компьютером пользуются дети. Но в общем случае система может быть настроена на поиск текста произвольных тематик.

Работа системы

Поиск и категоризация проходит в несколько этапов.

  1. Поиск подозрительных страниц (предварительный полностью автоматический подбор страниц для дальнейшего анализа).
    • Анализ поведения пользователей. (Выделение паттернов, построение профилей, оценка популярности неизвестных системе ресурсов и т.д.)
    • Анализ поисковой выдачи. (Имитация поведения, сбор поисковых запросов).
    • Сбор ссылок собственными «пауками».
    • Система обратной связи с абонентами.
  2. Лингвистический анализ страниц найденных на первом этапе.(Методы нечеткого поиска, онтологии и словари).
  3. Принятие решения.
    • Автоматический режим.
    • Полуавтоматический режим.

Система находит миллионы запрещенных материалов ежемесячно.