Александр Крайнов "Кластеризация дубликатов в...

26
Я.Субботник, Челябинск, 25 февраля 2012 года Менеджер проектов Александр Крайнов Кластеризация дубликатов в Яндекс.Картинках

Transcript of Александр Крайнов "Кластеризация дубликатов в...

Page 1: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Я.Субботник, Челябинск, 25 февраля 2012 года

Менеджер проектов Александр Крайнов

Кластеризация дубликатов в Яндекс.Картинках

Page 2: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Хостовые клоны (дубликаты) Картинки в интернете

Тумбнейлерные дубликаты

Джоконда

Джоконда

<Мо?на Ли?за>

(<Джоко?нда>;

итал. La Gioconda,

фр. La Joconde,

полное название -

Портре?т госпожи?

Ли?зы Джоко?ндо,

итал. Ritratto di

Monna Lisa Винчи, находящаяся в

Лувре (Париж,

Франция), одно из

самых известных

произведений живописи

в мире[1][2], которое,

как считается,

dzhokonda_full.jpg

www.louvre.fr Полудубликаты

2

Page 3: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Хостовые и межхостовые дубликаты Картинки в интернете

3

Page 4: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Тумбнейлерные полудубликаты 182 х 264

100 х 100

50 х 50

20 х 20

20 х 20, grayscale 16 х 16, grayscale

4

Page 5: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Нечеткие полудубликаты Как их распознать?

5

Page 6: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Нечеткие полудубликаты Работаем в grayscale

6

Page 7: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Нечеткие полудубликаты Используем фильтр DoG

7

Page 8: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Нечеткие полудубликаты Получаем дескрипторы

8

Page 9: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Нечеткие полудубликаты Находим область пересечения изображений

9

Page 10: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Нечеткие полудубликаты Задача свелась к предыдущей

10

Page 11: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Стадии кластеризации дубликатов

— Распределение на сотни больших пересекающихся групп по удаленности дескрипторов

— Формирование групп кандидатов в дубликаты по близости дескрипторов

— Финальная валидация

11

Page 12: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Проблемы больших групп

12

Page 13: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Кластеризация на большой базе

— Миллионы считаются на обычном компьютере за минуты

— Для сотен миллионов хватает кластера из десятка компьютеров

— Для миллиардов нужна сложная инфраструктура распределенного вычисления

13

Page 14: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Кластеризация на маленькой базе

14

Page 15: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Кластеризация на большой базе

15

Page 16: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Что считать дубликатами?

16

Page 17: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Что считать дубликатами?

17

Page 18: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Что считать дубликатами?

18

Page 19: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Что считать дубликатами?

19

Page 20: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Клоны – кто они для поиска?

Враги?

…или друзья? 20

Page 21: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Описания изображений на сайтах

«запорожец»

15 картинок

«синий запорожец»

10 картинок

«зеленый запорожец»

5 картинок

«лимузин»

10 картинок

Степень правдоподобия описаний:

•запорожец – 0,75 (30 картинок из 40)

•синий – 0,25 (10 картинок из 40)

•лимузин – 0,25

•зеленый – 0,13 (5 картинок из 40)

синий запорожец

запорожец лимузин

Сопоставление описаний

21

Page 22: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Разнообразие выдачи без кластеризации дубликатов

22

Page 23: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Разнообразие выдачи с кластеризацией дубликатов

23

Page 24: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Применение дубликатов

— Разнообразие выдачи

— Точность поиска: • популярные изображения • сопоставление описаний

— Уточнение порно-классификатора

— Улучшение поиска «зеркал» и сайтов-клонов

Для чего используется

24

Page 25: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Я.Картинки

• 10 миллиардов картинок

• 10 миллионов новых картинок в сутки

• 70 терабайт - объем базы тумбнейлов и сигнатур

• 200 миллионов хитов в сутки

• 5.5 миллионов уникальных посетителей в сутки

• 1000 серверов

в числах

25

Page 26: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Менеджер проектов

[email protected]

Александр Крайнов