Post on 26-Jan-2016
description
Определение спам-изображений на основе перцептивных хешей
Фефелов Алексей Андреевич, 545 группа
Научный руководитель: к.ф.-м.н. , Д.Ю. Бугайченко
Рецензент: к.ф.-м.н. А.Т. Вахитов
ВведениеФильтрация спамаo Социальные сети, сайты знакомств,
блогиo Электронная почтаo Мессенджеры
Способы борьбы со спамомo Пользовательская модерацияo Статистические фильтры
Спам-изображенияo Содержат похожие, но не идентичные
фрагментыПроблема: спамеры постоянно создают
новые подложки и искажают фрагменты
Возможные решенияНейронные сетиo Необходимость обучения
Алгоритмы на базе детекции особенностей (SURF, SIFT и другие)o Необходимость разрешения для
использования в коммерческих целях/отсутствие зрелых библиотек
o Низкая производительностьИспользование перцептивных хешейo Можно сравнивать между собойo При вычислении применяются процессы,
имитирующие различные аспекты восприятия информации человеком
o Один из наиболее общих способов решения
Постановка задачиИзучить различные существующие
подходы для вычисления перцептивных хешей изображений
Реализовать несколько хеш-алгоритмов и адаптировать их для задачи поиска спам-изображений
Протестировать алгоритмы на базе данных с изображениями, проанализировать результаты их работы
Подготовить условия для введения алгоритмов в эксплуатацию
Используемые алгоритмыSimple Hash (128 байт)
Marr-Hildreth Operator Based Hash (64 байта)
Используемые алгоритмы(2)
Discrete Cosine Transform Based Hash – построение матрицы частот, избавление от высоких частот (8 байт)o Дискретное косинусное преобразование
для вектора X длины N-1: Radial Variance Based Hash –
построение вектора энергий + DCT (40 байт)
Схема архитектуры системы
Множество паттернов (пара спам-изображение и расположение фрагмента на нем)
Поиск подстроки, соответствующей хешу спам-фрагмента в хеше изображения
Характеристики работы спам-фильтраСпам-фильтр разбивает все
изображения на 3 группы: «точно спам», «возможно спам», «точно не спам» Результат проверки
изображения
На самом деле спам
На самом деле не
спам
Позитивное срабатывание(«точно спам»)
Истинно-позитивное
Ложно-позитивное
(ошибка 2 рода, FAR)
Негативное срабатывание
(«точно не спам»)
Ложно-негативное(ошибка 1 рода,FRR)
Истинно-негативное
«Возможно спам» В этой группе находится как спам, так и не спам
Ложные срабатывания
Рис. Ложно-позитивные(FAR) и ложно-негативные срабатывания(FRR) для алгоритма DCTBH
60000 изображений с музыкального сервиса социальной сети odnoklassniki.ru, из которых 700 – спам, 3 типа спама
SH DCT RV MH0%
10%
20%
30%
40%
50%
60%
70%
80%
90%Истинно-позитивное срабатываниеНеопределенное срабатывание (возможно спам)Ложно-позитивное срабатываниеЛожно-негативное срабатывание
Сравнение результатов
Сравнение скоростей
SH DCT RV MH SH(sub
)
MH(sub
)
0
100
200
300
400
500
600
Среднее время сравнения 100
хешей (мс.)
SH DCT RV MH0
20406080
100120140160
Среднее время обработки 1
изображения(мс.)
Intel Core i5-2430M CPU (2,40 GHz)
РезультатыБыли изучены различные существующие
подходы для вычисления перцептивных хешей изображений
4 перцептивных хеш-алгоритма адаптировано для задачи поиска спам-изображений
Алгоритмы протестированы на реальных данных, проанализированы результаты их работы
Создано API для введения алгоритмов в эксплуатацию, компания «Одноклассники» рассматривает возможность внедрения полученных результатов для фильтрации спама