Текстовый анализ - теория и практика
-
Upload
alexey-chekushin -
Category
Marketing
-
view
1.694 -
download
1
Transcript of Текстовый анализ - теория и практика
![Page 1: Текстовый анализ - теория и практика](https://reader036.fdocument.pub/reader036/viewer/2022062905/586e8d401a28aba0038b8805/html5/thumbnails/1.jpg)
Инновациив текстовой
оптимизации
Рассказывает Алексей Чекушин.Kokoc.com / Just-Magic.org
![Page 2: Текстовый анализ - теория и практика](https://reader036.fdocument.pub/reader036/viewer/2022062905/586e8d401a28aba0038b8805/html5/thumbnails/2.jpg)
Зоны документа
Title
Plain-текст
Текстовые фрагменты
<a> - внутренние Анкор-лист
Анкор-лист – «резиновый»
![Page 3: Текстовый анализ - теория и практика](https://reader036.fdocument.pub/reader036/viewer/2022062905/586e8d401a28aba0038b8805/html5/thumbnails/3.jpg)
Как строилась оптимизация до 2014?• Внимание на <title> и plain-текст.
• Делаем минимальный набор вхожденийПараметры вхождений ограничены «тошнотой»
• В анкор-файл загоняем все возможные вхождения
![Page 4: Текстовый анализ - теория и практика](https://reader036.fdocument.pub/reader036/viewer/2022062905/586e8d401a28aba0038b8805/html5/thumbnails/4.jpg)
Отключение ссылочного - 2014
* По большинству коммерческих гео-зависимых запросов в Москве.
Title
Plain-текст
Текстовые фрагменты
<a> - внутренние Анкор-файл200? - 2014
![Page 5: Текстовый анализ - теория и практика](https://reader036.fdocument.pub/reader036/viewer/2022062905/586e8d401a28aba0038b8805/html5/thumbnails/5.jpg)
Что поменялось на практике?
• Исчезла «резиновая» зона «анкор-лист».
• Вхождения, которые были анкор-листе, теперь нужно компенсировать остальными зонами.
• Структурирование сайта и текстовый анализ стали критически важными для продвижения.
![Page 6: Текстовый анализ - теория и практика](https://reader036.fdocument.pub/reader036/viewer/2022062905/586e8d401a28aba0038b8805/html5/thumbnails/6.jpg)
Особенности ранжирования Яндекса
Большое количество различных текстовых факторов.
Применение машинного обучения.
Больше – не значит лучше.Мерять нужно все, а не только «тошноту»
![Page 7: Текстовый анализ - теория и практика](https://reader036.fdocument.pub/reader036/viewer/2022062905/586e8d401a28aba0038b8805/html5/thumbnails/7.jpg)
Особенности ранжирования Яндекса
Большое количество запросных модификаторов формулы.
Свои правила под каждый запрос/групу запросов.
Необходима предварительная группировка.Анализ выполнять не по запросу, а для всей группы.
![Page 8: Текстовый анализ - теория и практика](https://reader036.fdocument.pub/reader036/viewer/2022062905/586e8d401a28aba0038b8805/html5/thumbnails/8.jpg)
Выводы
• Подсчет отдельных метрик (tf-idf, bm25, и.т.п.) сам по себе смысла не имеет.
• Подсчет единой «формулы релевантности» также лишен смысла.
• Необходимо анализировать все в совокупности.
![Page 9: Текстовый анализ - теория и практика](https://reader036.fdocument.pub/reader036/viewer/2022062905/586e8d401a28aba0038b8805/html5/thumbnails/9.jpg)
И что делать?
• Машинное обучение на топах по большой совокупности факторов
или
• Поиск закономерностей в топе на основе вхождений
![Page 10: Текстовый анализ - теория и практика](https://reader036.fdocument.pub/reader036/viewer/2022062905/586e8d401a28aba0038b8805/html5/thumbnails/10.jpg)
Варианты анализа топа.• Ручной разбор топов «на глазок». Most popular!
• Полноценный разбор топов руками, автоматизация в excel.
• Полностью автоматический разбор специальными сервисами.
![Page 11: Текстовый анализ - теория и практика](https://reader036.fdocument.pub/reader036/viewer/2022062905/586e8d401a28aba0038b8805/html5/thumbnails/11.jpg)
Основные проблемы анализа.• Определение возможных типов вхождений.Прямые, обратные, частичные, с пропусками, …
• Определение «окна допустимых значений».Мало данных, большой шум.
• Совмещение «окон» по нескольким запросам.
![Page 12: Текстовый анализ - теория и практика](https://reader036.fdocument.pub/reader036/viewer/2022062905/586e8d401a28aba0038b8805/html5/thumbnails/12.jpg)
Недостатки классического разбора• Смотрят на одну зону документа, а не на весь документ в
совокупности. (Как правило – на plain-текст).
• Часто пропускают не находящийся по ctrl+f текст.
• Учитывают минимум вариций вхождений и словоформ.
• Человек не может держать в уме несколько документов.
![Page 13: Текстовый анализ - теория и практика](https://reader036.fdocument.pub/reader036/viewer/2022062905/586e8d401a28aba0038b8805/html5/thumbnails/13.jpg)
Руками или автоматом?• Руками разбирать очень долго На одну продвигаемую страницу уходит ~2 часа
• Высока вероятность ошибки при ручном разборе.
• При ручном разборе проще отобрать только подходящие документы.
![Page 14: Текстовый анализ - теория и практика](https://reader036.fdocument.pub/reader036/viewer/2022062905/586e8d401a28aba0038b8805/html5/thumbnails/14.jpg)
Немного математики
Расчет дисперсии и доверительного интервала на основе предположения о нормальном распределении некорректен и дает кривые результаты.
Лучше всего работает– межквантильное расстояние при переменных (зависящих от результата по запросу) значениях квантилей.
Совмещение окон допустимых значений – задача со многими решениями, необходимо использовать метрику оптимальности результирующего окна (например – минимизация интегральной величины конфликтов).
![Page 15: Текстовый анализ - теория и практика](https://reader036.fdocument.pub/reader036/viewer/2022062905/586e8d401a28aba0038b8805/html5/thumbnails/15.jpg)
Ограничения метода.• Необходима предварительная кластеризация по топам.И только по правильным алгоритмам.
• Структура сайтаСайт под семантику, а не семантика под сайт.
• Ctrl+c – Ctrl+v не пройдетВсе равно придется думать.
![Page 16: Текстовый анализ - теория и практика](https://reader036.fdocument.pub/reader036/viewer/2022062905/586e8d401a28aba0038b8805/html5/thumbnails/16.jpg)
А что на практике?Запрос «купить ноутбук»
![Page 17: Текстовый анализ - теория и практика](https://reader036.fdocument.pub/reader036/viewer/2022062905/586e8d401a28aba0038b8805/html5/thumbnails/17.jpg)
«Диван аккордеон» и «купить диван аккордеон»
![Page 18: Текстовый анализ - теория и практика](https://reader036.fdocument.pub/reader036/viewer/2022062905/586e8d401a28aba0038b8805/html5/thumbnails/18.jpg)
Остекление коттеджей
![Page 19: Текстовый анализ - теория и практика](https://reader036.fdocument.pub/reader036/viewer/2022062905/586e8d401a28aba0038b8805/html5/thumbnails/19.jpg)
Попробовать самому!Текстовый анализатор на Just-Magic.org
+ Анализ всех зон документа.
+ Одновременно по нескольким запросам.
+ Полная информация для оптимизации.
Платно, с регистрацией, без sms: Just-Magic.org
![Page 20: Текстовый анализ - теория и практика](https://reader036.fdocument.pub/reader036/viewer/2022062905/586e8d401a28aba0038b8805/html5/thumbnails/20.jpg)
Финальный слайд с котенком
?Ваши вопросы
Алексей Чекушин. Just-Magic.org