Александр Крайнов "Кластеризация дубликатов в...
-
Upload
yandex -
Category
Technology
-
view
620 -
download
6
Transcript of Александр Крайнов "Кластеризация дубликатов в...
![Page 1: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"](https://reader034.fdocument.pub/reader034/viewer/2022042701/55b26b9bbb61eb8d2e8b4626/html5/thumbnails/1.jpg)
Я.Субботник, Челябинск, 25 февраля 2012 года
Менеджер проектов Александр Крайнов
Кластеризация дубликатов в Яндекс.Картинках
![Page 2: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"](https://reader034.fdocument.pub/reader034/viewer/2022042701/55b26b9bbb61eb8d2e8b4626/html5/thumbnails/2.jpg)
Хостовые клоны (дубликаты) Картинки в интернете
Тумбнейлерные дубликаты
Джоконда
Джоконда
<Мо?на Ли?за>
(<Джоко?нда>;
итал. La Gioconda,
фр. La Joconde,
полное название -
Портре?т госпожи?
Ли?зы Джоко?ндо,
итал. Ritratto di
Monna Lisa Винчи, находящаяся в
Лувре (Париж,
Франция), одно из
самых известных
произведений живописи
в мире[1][2], которое,
как считается,
dzhokonda_full.jpg
www.louvre.fr Полудубликаты
2
![Page 3: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"](https://reader034.fdocument.pub/reader034/viewer/2022042701/55b26b9bbb61eb8d2e8b4626/html5/thumbnails/3.jpg)
Хостовые и межхостовые дубликаты Картинки в интернете
3
![Page 4: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"](https://reader034.fdocument.pub/reader034/viewer/2022042701/55b26b9bbb61eb8d2e8b4626/html5/thumbnails/4.jpg)
Тумбнейлерные полудубликаты 182 х 264
100 х 100
50 х 50
20 х 20
20 х 20, grayscale 16 х 16, grayscale
4
![Page 5: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"](https://reader034.fdocument.pub/reader034/viewer/2022042701/55b26b9bbb61eb8d2e8b4626/html5/thumbnails/5.jpg)
Нечеткие полудубликаты Как их распознать?
5
![Page 6: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"](https://reader034.fdocument.pub/reader034/viewer/2022042701/55b26b9bbb61eb8d2e8b4626/html5/thumbnails/6.jpg)
Нечеткие полудубликаты Работаем в grayscale
6
![Page 7: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"](https://reader034.fdocument.pub/reader034/viewer/2022042701/55b26b9bbb61eb8d2e8b4626/html5/thumbnails/7.jpg)
Нечеткие полудубликаты Используем фильтр DoG
7
![Page 8: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"](https://reader034.fdocument.pub/reader034/viewer/2022042701/55b26b9bbb61eb8d2e8b4626/html5/thumbnails/8.jpg)
Нечеткие полудубликаты Получаем дескрипторы
8
![Page 9: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"](https://reader034.fdocument.pub/reader034/viewer/2022042701/55b26b9bbb61eb8d2e8b4626/html5/thumbnails/9.jpg)
Нечеткие полудубликаты Находим область пересечения изображений
9
![Page 10: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"](https://reader034.fdocument.pub/reader034/viewer/2022042701/55b26b9bbb61eb8d2e8b4626/html5/thumbnails/10.jpg)
Нечеткие полудубликаты Задача свелась к предыдущей
10
![Page 11: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"](https://reader034.fdocument.pub/reader034/viewer/2022042701/55b26b9bbb61eb8d2e8b4626/html5/thumbnails/11.jpg)
Стадии кластеризации дубликатов
— Распределение на сотни больших пересекающихся групп по удаленности дескрипторов
— Формирование групп кандидатов в дубликаты по близости дескрипторов
— Финальная валидация
11
![Page 12: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"](https://reader034.fdocument.pub/reader034/viewer/2022042701/55b26b9bbb61eb8d2e8b4626/html5/thumbnails/12.jpg)
Проблемы больших групп
12
![Page 13: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"](https://reader034.fdocument.pub/reader034/viewer/2022042701/55b26b9bbb61eb8d2e8b4626/html5/thumbnails/13.jpg)
Кластеризация на большой базе
— Миллионы считаются на обычном компьютере за минуты
— Для сотен миллионов хватает кластера из десятка компьютеров
— Для миллиардов нужна сложная инфраструктура распределенного вычисления
13
![Page 14: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"](https://reader034.fdocument.pub/reader034/viewer/2022042701/55b26b9bbb61eb8d2e8b4626/html5/thumbnails/14.jpg)
Кластеризация на маленькой базе
14
![Page 15: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"](https://reader034.fdocument.pub/reader034/viewer/2022042701/55b26b9bbb61eb8d2e8b4626/html5/thumbnails/15.jpg)
Кластеризация на большой базе
15
![Page 16: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"](https://reader034.fdocument.pub/reader034/viewer/2022042701/55b26b9bbb61eb8d2e8b4626/html5/thumbnails/16.jpg)
Что считать дубликатами?
16
![Page 17: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"](https://reader034.fdocument.pub/reader034/viewer/2022042701/55b26b9bbb61eb8d2e8b4626/html5/thumbnails/17.jpg)
Что считать дубликатами?
17
![Page 18: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"](https://reader034.fdocument.pub/reader034/viewer/2022042701/55b26b9bbb61eb8d2e8b4626/html5/thumbnails/18.jpg)
Что считать дубликатами?
18
![Page 19: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"](https://reader034.fdocument.pub/reader034/viewer/2022042701/55b26b9bbb61eb8d2e8b4626/html5/thumbnails/19.jpg)
Что считать дубликатами?
19
![Page 20: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"](https://reader034.fdocument.pub/reader034/viewer/2022042701/55b26b9bbb61eb8d2e8b4626/html5/thumbnails/20.jpg)
Клоны – кто они для поиска?
Враги?
…или друзья? 20
![Page 21: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"](https://reader034.fdocument.pub/reader034/viewer/2022042701/55b26b9bbb61eb8d2e8b4626/html5/thumbnails/21.jpg)
Описания изображений на сайтах
«запорожец»
15 картинок
«синий запорожец»
10 картинок
«зеленый запорожец»
5 картинок
«лимузин»
10 картинок
Степень правдоподобия описаний:
•запорожец – 0,75 (30 картинок из 40)
•синий – 0,25 (10 картинок из 40)
•лимузин – 0,25
•зеленый – 0,13 (5 картинок из 40)
синий запорожец
запорожец лимузин
Сопоставление описаний
21
![Page 22: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"](https://reader034.fdocument.pub/reader034/viewer/2022042701/55b26b9bbb61eb8d2e8b4626/html5/thumbnails/22.jpg)
Разнообразие выдачи без кластеризации дубликатов
22
![Page 23: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"](https://reader034.fdocument.pub/reader034/viewer/2022042701/55b26b9bbb61eb8d2e8b4626/html5/thumbnails/23.jpg)
Разнообразие выдачи с кластеризацией дубликатов
23
![Page 24: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"](https://reader034.fdocument.pub/reader034/viewer/2022042701/55b26b9bbb61eb8d2e8b4626/html5/thumbnails/24.jpg)
Применение дубликатов
— Разнообразие выдачи
— Точность поиска: • популярные изображения • сопоставление описаний
— Уточнение порно-классификатора
— Улучшение поиска «зеркал» и сайтов-клонов
Для чего используется
24
![Page 25: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"](https://reader034.fdocument.pub/reader034/viewer/2022042701/55b26b9bbb61eb8d2e8b4626/html5/thumbnails/25.jpg)
Я.Картинки
• 10 миллиардов картинок
• 10 миллионов новых картинок в сутки
• 70 терабайт - объем базы тумбнейлов и сигнатур
• 200 миллионов хитов в сутки
• 5.5 миллионов уникальных посетителей в сутки
• 1000 серверов
в числах
25
![Page 26: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"](https://reader034.fdocument.pub/reader034/viewer/2022042701/55b26b9bbb61eb8d2e8b4626/html5/thumbnails/26.jpg)
Менеджер проектов
Александр Крайнов