К. Жагорина "Насколько уникально ФИО?" DUMP-2014

35
Насколько уникально ФИО? Жагорина Ксения, СКБ Контур

description

 

Transcript of К. Жагорина "Насколько уникально ФИО?" DUMP-2014

Page 1: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

Насколько уникально ФИО?

Жагорина Ксения, СКБ Контур

Page 2: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

Все знают, что ФИО не уникально…

Page 3: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

Все знают, что ФИО не уникально…

Иванов Иван Иванович 1.600 чел.

Предполагаемое число людей с таким

ФИО в России

Page 4: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

Все знают, что ФИО не уникально…

Иванов Иван Иванович 1.600 чел.

Иванов Сергей Владимирович 6.200 чел.

Кузнецов Сергей Александрович 4.600 чел.

Предполагаемое число людей с таким

ФИО в России

Page 5: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

А на самом деле …

Page 6: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

А на самом деле …

Статистика по базе данных ЕГРЮЛ 13.4 млн человек с ФИО и ИНН

0.999 0.96

0.68

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

1 10 100 1 000 10 000 100 000 1 000 000 10 000 000

С у

ни

кал

ьны

м Ф

ИО

Количество людей в сообществе

Доля людей с уникальным ФИО

Page 7: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

И какая же польза?

Page 8: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

И какая же польза?

• Поиск «клонов»

Page 9: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

И какая же польза?

• Поиск «клонов»

• Интеграция сервисов

Page 10: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

База данных ЕГРЮЛ

13 М человек с ИНН 21 М упоминаний

Page 11: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

База данных ЕГРЮЛ

11 М упоминаний без ИНН

13 М человек с ИНН 21 М упоминаний

Page 12: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

База данных ЕГРЮЛ

с

13 М человек с ИНН 21 М упоминаний

11 М упоминаний без ИНН

Page 13: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

База данных ЕГРЮЛ

11 М упоминаний без ИНН

13 М человек с ИНН 21 М упоминаний

Page 14: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

База данных ЕГРЮЛ

Семенов С.А.

Семенов С.А.

Рогов А.В. Копытов Д.Е. Иванов И.И.

11 М упоминаний без ИНН

13 М человек с ИНН 21 М упоминаний

Page 15: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

База данных ЕГРЮЛ

Семенов С.А.

Рогов А.В. Копытов Д.Е. Иванов И.И.

? Семенов С.А.

11 М упоминаний без ИНН

13 М человек с ИНН 21 М упоминаний

Page 16: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

Как?

Page 17: К. Жагорина "Насколько уникально ФИО?" DUMP-2014
Page 18: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

Постановка задачи

По двум упоминаниям с одинаковым ФИО определить насколько вероятно, что они об одном и том же человеке.

Page 19: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

Методика тестирования

Тестирование – на упоминаниях с указанным ИНН

Оценка модели – точность и полнота

Точность = |Найденные верные связи|

|Все найденные связи|

Полнота = |Найденные верные связи|

|Все верные связи|

Page 20: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

Модель на основе независимых ФИО.

𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О

Количество людей с данным ФИО – случайная величина:

𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝

𝑝 = 𝑃фио

n − количество людей в сообществе

Вероятность связи - вероятность того, что количество людей с данным ФИО в сообществе меньше единицы

𝑃 = 𝑃 𝑁фио < 1

Page 21: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

Модель на основе независимых ФИО.

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

по

лн

от

а, т

оч

но

сть

в %

P(Nфио < 1)

точность

полнота

Page 22: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

База данных ЕГРЮЛ

Семенов С.А.

Семенов С.А.

Рогов А.В. Копытов Д.Е. Иванов И.И.

11 М упоминаний без ИНН

13 М человек с ИНН 21 М упоминаний

Page 23: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

с

База данных ЕГРЮЛ

Семенов С.А.

Семенов С.А.

Рогов А.В. Копытов Д.Е. Иванов И.И.

ООО «Рога и Копыта» Москва

ЗАО «ЗаМКАД» Московская обл.

11 М упоминаний без ИНН

13 М человек с ИНН 21 М упоминаний

Page 24: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

Модель на основе зависимости ФИО и региона.

𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО

𝑃 О 𝑅Ф ≈ 𝑃 О Ф 𝑃 И 𝑅ФО ≈ 𝑃 И О

𝑃𝑅ФИО ≈ 𝑃 𝑅 ∗ 𝑃 Ф 𝑅 ∗ 𝑃 О Ф ∗ 𝑃 И О если 𝑅1 = 𝑅2 𝑃𝑅ФИО ≈ 𝑃 Ф ∗ 𝑃 О Ф ∗ 𝑃 И О если 𝑅1 ≠ 𝑅2

Вероятность связи:

𝑃 = 𝑃 𝑁фио < 1 = 𝐹𝑁фио1

Page 25: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

Модель на основе зависимости ФИО и региона.

𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО

𝑃 О 𝑅Ф ≈ 𝑃 О Ф 𝑃 И 𝑅ФО ≈ 𝑃 И О

𝑃𝑅ФИО ≈ 𝑃 𝑅 ∗ 𝑃 Ф 𝑅 ∗ 𝑃 О Ф ∗ 𝑃 И О если 𝑅1 = 𝑅2 𝑃𝑅ФИО ≈ 𝑃 Ф ∗ 𝑃 О Ф ∗ 𝑃 И О если 𝑅1 ≠ 𝑅2

Вероятность связи:

𝑃 = 𝑃 𝑁фио < 1 = 𝐹𝑁фио1

Page 26: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

Модель на основе зависимости ФИО и региона.

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

По

лн

от

а, т

оч

но

сть

в %

P(NRФИО < 1)

точность

полнота

Page 27: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

Модель на основе независимых ФИО.

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

по

лн

от

а, т

оч

но

сть

в %

P(Nфио < 1)

точность

полнота

Page 28: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

Модель на основе зависимости ФИО и региона. Результаты.

Рогов А.В.

Рогов А.В.

?

ООО «Рога и Копыта» Москва

R = Москва ФИО = Рогов Александр Владимирович P = P(NRФИО<1) = 0.684

P = 0.684

ЗАО «ЗаМКАД» Москва

Page 29: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

Модель на основе зависимости ФИО и региона. Результаты.

Копытов Д.Е.

Копытов Д.Е.

?

ООО «Рога и Копыта» Москва

R = Москва ФИО = Копытов Давид Ефремович P = P(NRФИО<1) = 0.9857

P = 0.9857

ЗАО «ЗаМКАД» Москва

Page 30: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

Модель на основе зависимости ФИО и региона. Результаты.

Семенов С.А.

Семенов С.А.

?

ООО «Рога и Копыта» Москва

R = Москва ФИО = Семёнов Сергей Андреевич P = P(NRФИО<1) = 0.396

P = 0.396

ЗАО «ЗаМКАД» Москва

Page 31: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

Вывод

Полнота 80% при точности 95%.

150 млн. новых связей.

Page 32: К. Жагорина "Насколько уникально ФИО?" DUMP-2014
Page 33: К. Жагорина "Насколько уникально ФИО?" DUMP-2014
Page 34: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

Конец

Page 35: К. Жагорина "Насколько уникально ФИО?" DUMP-2014

Конец

[email protected]