Определение спам-изображений на основе перцептивных...

Определение спам-изображений на основе перцептивных хешей

Фефелов Алексей Андреевич, 545 группа

Научный руководитель: к.ф.-м.н. , Д.Ю. Бугайченко

Рецензент: к.ф.-м.н. А.Т. Вахитов

ВведениеФильтрация спамаo Социальные сети, сайты знакомств,

блогиo Электронная почтаo Мессенджеры

Способы борьбы со спамомo Пользовательская модерацияo Статистические фильтры

Спам-изображенияo Содержат похожие, но не идентичные

фрагментыПроблема: спамеры постоянно создают

новые подложки и искажают фрагменты

Возможные решенияНейронные сетиo Необходимость обучения

Алгоритмы на базе детекции особенностей (SURF, SIFT и другие)o Необходимость разрешения для

использования в коммерческих целях/отсутствие зрелых библиотек

o Низкая производительностьИспользование перцептивных хешейo Можно сравнивать между собойo При вычислении применяются процессы,

имитирующие различные аспекты восприятия информации человеком

o Один из наиболее общих способов решения

Постановка задачиИзучить различные существующие

подходы для вычисления перцептивных хешей изображений

Реализовать несколько хеш-алгоритмов и адаптировать их для задачи поиска спам-изображений

Протестировать алгоритмы на базе данных с изображениями, проанализировать результаты их работы

Подготовить условия для введения алгоритмов в эксплуатацию

Используемые алгоритмыSimple Hash (128 байт)

Marr-Hildreth Operator Based Hash (64 байта)

Используемые алгоритмы(2)

Discrete Cosine Transform Based Hash – построение матрицы частот, избавление от высоких частот (8 байт)o Дискретное косинусное преобразование

для вектора X длины N-1: Radial Variance Based Hash –

построение вектора энергий + DCT (40 байт)

Схема архитектуры системы

Множество паттернов (пара спам-изображение и расположение фрагмента на нем)

Поиск подстроки, соответствующей хешу спам-фрагмента в хеше изображения

Характеристики работы спам-фильтраСпам-фильтр разбивает все

изображения на 3 группы: «точно спам», «возможно спам», «точно не спам» Результат проверки

изображения

На самом деле спам

На самом деле не

спам

Позитивное срабатывание(«точно спам»)

Истинно-позитивное

Ложно-позитивное

(ошибка 2 рода, FAR)

Негативное срабатывание

(«точно не спам»)

Ложно-негативное(ошибка 1 рода,FRR)

Истинно-негативное

«Возможно спам» В этой группе находится как спам, так и не спам

Ложные срабатывания

Рис. Ложно-позитивные(FAR) и ложно-негативные срабатывания(FRR) для алгоритма DCTBH

60000 изображений с музыкального сервиса социальной сети odnoklassniki.ru, из которых 700 – спам, 3 типа спама

SH DCT RV MH0%

90%Истинно-позитивное срабатываниеНеопределенное срабатывание (возможно спам)Ложно-позитивное срабатываниеЛожно-негативное срабатывание

Сравнение результатов

Сравнение скоростей

SH DCT RV MH SH(sub

MH(sub

Среднее время сравнения 100

хешей (мс.)

SH DCT RV MH0

20406080

100120140160

Среднее время обработки 1

изображения(мс.)

Intel Core i5-2430M CPU (2,40 GHz)

РезультатыБыли изучены различные существующие

подходы для вычисления перцептивных хешей изображений

4 перцептивных хеш-алгоритма адаптировано для задачи поиска спам-изображений

Алгоритмы протестированы на реальных данных, проанализированы результаты их работы

Создано API для введения алгоритмов в эксплуатацию, компания «Одноклассники» рассматривает возможность внедрения полученных результатов для фильтрации спама

Определение спам-изображений на основе перцептивных...

Documents

Transcript of Определение спам-изображений на основе перцептивных...

Спам и фишинг в с оциальных сетях

директ маркетинг – это не спам!

Кибер-криминал , новый виток противостояния ( ботнет сети, спам)

744.введение в цифровую обработку сигналов и изображений математические модели изображений

Семантическая классификация изображений, осень 2010: Распознавание изображений

Анализ изображений и видео 1, осень 2015: Введение в анализ изображений

Анализ изображений и видео 1, осень 2012: Основы пространственной и частотной обработки изображений

Обработка изображений

Сжатие изображений ( введение )

Анализ изображений и видео, часть 1, осень 2016: Введение в анализ изображений

205.введение в цифровую обработку сигналов и изображений критерии качества изображений и погрешности

Анализ изображений и видео 1, осень 2012: Морфологическая обработка изображений

Анализ изображений и видео 2, весна 2015: Сегментация изображений

Анализ изображений и видео 1, осень 2012: Сегментация изображений

Фильтрация изображений. Быстрое ... · 2013-02-26 · Фильтрация изображений. Быстрое преобразование Фурье

Александр Рысь: Как не попадать в спам?

Анализ изображений и видео 1, осень 2014: Введение в анализ изображений

Анализ изображений и видео 1, осень 2012: Классификация изображений и распознавание объектов

Неэталонная оценка качества изображений

специфика изображений в полиграфии