М. Коробов "Машинное обучение на фронте и в тылу", DUMP-2014

Машинное обучение в ScrapingHub

Михаил Коробов, DUMP 2014

Задачи

• Скачать веб-странички;

• из HTML вытащить информацию.

Примеры• цены и продукты

• названия и контакты организаций

• категории товаров

• …

• места дислокации батальонов в WWI

• энергопотребление вентиляторов

Единого подхода нет

Подходы

• Правила (xpath, css, regex) - Scrapy

• …

Сложные случаи

• 100000 сайтов, все разные

• сайт один, но информация - в обычном тексте

• объединение информации из разных источников

• хочется «накликать» мышкой, что извлекать, и не писать код

Примеры проектов

100k сайтов; узнать, какие веб-студии их

делали

Классификация ссылок

• текст ссылки

• текст в title

• текст до ссылки

• target=_blank

• …

Учет нескольких факторов

• AND: 15*x1 + 15*x2 > 20

• OR: 15*x1 + 15*x2 > 10

• z = sum(wi*xi)

• P = f(z)

Подбор правил (весов)

• вручную

• автоматически: SVM (без ядра), Logistic Regression

Подход

• для каждой ссылки выделить признаки

• перевести признаки в цифры (получить вектор x)

• для каждой ссылки передать в библиотеку x и метку (ссылка на веб-студию: да/нет)

• библиотека подберет веса

Подход (предсказание)

• для каждой ссылки выделить признаки

• перевести признаки в цифры (получить вектор x)

• для каждой ссылки передать в библиотеку x

• библиотека вернет метку (веб-студия/нет)

Тонкости

• Переобучение

• Регуляризация

• Подбор параметров классификатора

• Кросс-валидация

Поиск именованных сущностей (NER) есть 100k сайтов, нужно узнать:

• название организации

• ее адреса

• телефоны

• факсы

• время работы

• URL-ы форм обратной связи

• размещенные вакансии

• способы подачи заявки на работу

• …

US Address<ORG> <STREET> <CITY> <ZIPCODE> <COUNTRY>

tel: <TEL>, fax: <FAX>

Правила - сложные и работают не очень хорошо

• части необязательны

• встречаются в разных местах страницы

• сокращения

• перестановки

• названия организаций не проверишь по словарю

• …

Название организации

• подстрока веб-страницы

• несколько токенов, идущих подряд

Contact:O Us:O ScrapingHub:B-ORG

BIO-кодирование

O I-ORG B-ORG … I-ORG I-STREET B-CITY

• обычно 1 порядка

• максимизирует вероятность всей цепочки, а не тегов для отдельных токенов

• реализации: Wapiti, CRFsuite

Подход• Выделяем из HTML текст

• разбиваем его на токены

• тренировочные данные: каждому токену сопоставляем тег в BIO кодировке

• для каждого токена определяем характерные признаки

• передаем все в библиотеку для тренировки

Примеры признаков (фич)• сам токен

• предыдущий токен

• с заглавной буквы?

• по регекспу похож на телефон

• часть названия города и GeoNames (начало, середина?)

• HTML-элемент, в котором лежит токен

• первый или последний токен в HTML элементе?

• word2vec

Разметка тренировочных данных

• WebAnnotator (https://addons.mozilla.org/en-US/firefox/addon/webannotator/)

• GATE (https://gate.ac.uk/)

WebStruct github.com/scrapinghub/webstruct• загрузка данных

• токенизация с сохранением информации о позиции в HTML

• конвертация в BIO и обратно

• интерфейсы к CRF

• работа с GeoNames

• метрики

• группировка сущностей

• …

Вопросы?https://github.com/kmike

М. Коробов "Машинное обучение на фронте и в тылу", DUMP-2014

Documents

Transcript of М. Коробов "Машинное обучение на фронте и в тылу", DUMP-2014

spbftu.ruspbftu.ru/wp-content/uploads/2018/09/Korobov-P.N..pdf · 4 УДК 519.85:519.86 Коробов П.Н. Математическое программирование и моделирование

MOD. CIRO MOD. ZENO - maschio.com · ciro - Разбрасывание удобрений на фронте 12 метров Компактная версия с локализованным

УОТЧМЭН НИ НАПОЛНЕННЫХ КОРОБОВ ТОМ 3. 1 2 3 4 5 6 7 …bvadim.narod.ru/wnee/watchman_nee._dvenadtsat... · названием “Тело Христа”,

Копия EEE 8 · Коробов Валерий Юрьевич – директор Филиала ОАО «СО ЕЭС» Удмуртское РДУ ... оборотной стороной

Каталог коробов ANGARA

События Октябрьской революции в Беларуси и на Западном фронте

Извлечение информации из веб-страниц - Михаил Коробов, PyCon RU 2014

Луч. Альманах. Кливленд. 2003. EBook 2010 · На внутреннем фронте Федерация предприняла смелый шаг по развитию

Р 82 - Любители автопутешествий и ...auto-skiers.msk.ru/text/zloy_gorod.pdf · в своём тылу такой «злой» и непо- ... Только

правах рукописи КОРОБОВ ИССЛЕДОВАНИЕ …chemi-ksc.ru/images/doc/autoreferats/Korobov_SV.pdfпроцессы обратного промерзания

Переход власти в руки Советов в Беларуси и на Западном фронте

В ТЫЛУ У ВРАГА · 2018. 8. 2. · Чтобы задержать врага, группа партизан Дмитрия Царенкова взорвала мост через

Бесплатный БАБА ЯГАВ ТЫЛУ У ВРАГАpressa.ru/files/issue/private/vechernyaya-moskva-vechernij-vyipusk/... · 2 ИНФА 100% ВечерняяМосква

Масловский Е.В. Мировая война на Кавказском фронте 1914-1918

01 HappyDev-lite-2015 spring. Владислав Коробов. Зона дискомфорта или зона крутости?

Номинация – «Учителя на фронте и в тылу»

09 02 HappyDev-lite'14 Владислав Коробов. Маленькие сложности Android-разработки

11 HappyDev-lite-2014. Владислав Коробов. Маленькие сложности Android-разработки.

Cəbhə albomu - AZLIBNET · моей войной, и как каждый солдат на фронте, я страстно желаю ее окончания. Я приезжала

(Фронтовая Иллюстрация) ''Тигры'' На Восточном Фронте (От Ростова До Курской Дуги) - Стратегия КМ (2005)