styles

42
Может ли Веб-поиск быть стильным? Павел Браславский Яндекс

description

Lecture on styles in web-search

Transcript of styles

Page 1: styles

Может ли Веб-поискбыть стильным?

Павел БраславскийЯндекс

Page 2: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

2

ПланВведение: почему Веб-поиск и стиль?Стиль, жанр: попытка определенияНаправления исследованийИндивидуальный стильСтилистическая категоризацияСтилистическая кластеризацияУдобочитаемость

Как это можно использовать в Веб-поиске?Заключение

Page 3: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

3

программа курса

словарь

учебник

ссылка на книгу

реферат

FAQ?

инструкция

резюме диплома

запрос:[синтетическийучет основногопроизводства](1078755)

Page 4: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

4

Чем может помочь стиль/жанр?

Жанр документа типинформационной потребностилучше моделировать релевантностьв условиях роста Веба и количествапользователейпродвинутые пользователи, специализированный поиск

Page 5: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

5

Что такое стиль?

Стиль: искусство, литература, музыка, мода, спорт…

…стиль барокко, телеграфный стиль, вольный стиль, стильпрограммирования, стильнаявечеринка, Cascading Style Sheets, стиль «пьяный кулак»…

Page 6: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

6

Стиль vs. жанр

Стиль: в каком-то смысле ортогонален темекак vs. чтоплан выражения vs. план содержаниявариант раскрытия темыЖанр:устоявшийся тип документанапример: FAQ, новости, home page, product page, форма регистрациии т.д.

Page 7: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

7

Стиль/содержание

Сущность квантовой теории танца, представляющей собой своего родакомпромисс между классической механикой условно периодическихдвижений и классической эмоциодинамикой, заключается в следующем. Танцующие могут описывать определенные квантовые орбиты, не испускаяи не поглощая при этом никаких эмоций. Последние испускаются ипоглощаются прерывным образом при переходах с одной квантованнойорбиты на другую. При этом в противоположность тому, что имеет место вслучае электронных плясок в боровском атоме, эмоциональное излучение, как и поглощение, сопровождается переходом не на более низкий, а, наоборот, на более высокий уровень, т.е., другими словами, возбуждением. Таким образом, во время танца (особенно парного) возбуждениетанцующих неизменно возрастает, пока не наступит релаксация, вызываемая истощением.

Я.И.Френкель «Квантовая теория танца»

Page 8: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

8

Стиль (от лат. stilus, stylus)

«Уровень» языка (нейтральный, высокий, низкий)Функциональный стильОсобенности конкретного речевого акта(ораторская речь, бытовой диалог, дружеское письмо и т.д.)Индивидуальный стильСтиль эпохи

Лингвистический энциклопедический словарь

Page 9: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

9

Направления исследований

Анализ индивидуального стиля, подлинность, атрибуция текста (вариант: консистентностьстиля документа)Категоризация по стилям/жанрамКластеризация по жанровым признакамПоказатели удобочитаемости /стилистическое ранжированиеГендерные особенности стиляТон, настроение, критика/похвала

Page 10: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

10

Стилистические признакиФормальные параметры «нижнегоуровня»Морфемы, словообразованиеЛексика * очи – глаза – зенки; поребрик – бордюр ☺

МорфологияПредсинтаксисСинтаксис **Специфические Веб-признакисмайликиURLHTML

Page 11: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

11

Пример: стиль в MS Word

Page 12: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

12

Индивидуальный стильКто написал «Тихий Дон»?Кто написал «Роман с кокаином»? (Агеев? Набоков?)Идея: найти комбинацию параметров, которуюсложно сознательно контролироватьНапример: доля служебных слов

Лингвоанализатор Дм. Хмелева:Последовательности пар букв (цепи Маркова)Алгоритмы сжатия данных (!)

Page 13: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

13

Жанровая категоризацияСистема стилей (категории)Набор признаков, метод извлечения признаковОбучающая/тестовая выборки (корпус)Метод обучения ( вид решающего правила)

Если жанров немного и они четко определеныприемлемое для практических приложенийкачество классификации с помощью простыхпризнаков

Проблема: сравнение результатов (см. Rehm G. et al., 2008)

Page 14: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

14

ПионерыBrown corpusДискриминантный анализ

Karlgren, Cutting (1994)

Page 15: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

15

Функциональные стили

Браславский (2000)

Page 16: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

16

Морфология

0,04

0,06

0,08

0,10

0,12

0,14

0,16

law science publ liter chat4,5

5,0

5,5

6,0

6,5

7,0

7,5

adjective ratioadverb ratioword length

Page 17: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

17

Современный подходКлассификаторВеб-документов16 категорийКорпус ~1200 док. на корейскомМетод – вариантkNNaccuracy – до 0,76

Lim C. S. et al. Multiple sets… (2005)

Page 18: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

18

Lim C. S. et al. Multiple sets – 2

Группы признаков:Уровень слов (формальные параметры)ЛексикаСинтаксисHTML разметкаURL

Полный набор: 326 (!)

Page 19: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

19

Lim C. S. et al. Multiple sets – 3

Page 20: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

20

Удобочитаемость (readability)

сложность текста

параметры текста

Flesh Reading Ease

Flesch-Kincaid Grade Level score

Мацковский (1969)

Микк (1972)

регресионный анализ

Page 21: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

21

Показатели удобочитаемостиFlesch Reading Ease score, 0..100.

206.835 – (1.015 * ASL) – (84.6 * ASW)

Flesch-Kincaid Grade Level score, 1..12.

(0.39 * ASL) + (11.8 * ASW) – 15.59

ASL = average sentence lengthASW = average number of syllables per word

Page 22: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

22

Показатели сложности текста длярусского языка

Мацковский (1969):

С = 0,62x + 0,123y + 0,051x – средняя длина предложения в словахy – % слов > 3 слогов

Микк (1974):

С = 0,131x + 9,84y – 4,59x – средняя длина самост. предложений в знакахy – средняя абстрактность существительных

Page 23: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

23

Удобочитаемость 2.0

Определение Grade Level как задачакатегоризации в пространстве слов(Callan et al., 2001, 2004)(Query-independent) familiarity classifier: introductory vs. advanced (Kumaran et al., 2005)Показатель “формальности”, получаемыйна классах документов (Braslavski, 2007)

Page 24: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

24

КластеризацияRauber A., Mueller-Koegler (2001)

«Без учителя»Простые признаки~1000 статей на немецкомСамоорганизующиеся сети

Кохонена (SOM)Интеграция в существующий

интерфейс ЭБ

Page 25: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

25

«Сложность/формальность»без учителя

Braslavski, Tselishchev (2005)

Page 26: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

26

Genres and SEs: explicit useFocused (‘vertical’) searchGenre in query (фактически есть)SERP: tagging or grouping results Problems:Do we really need sophisticated methods? (e.g. scientific papers, blogs, news, e-shops, etc.)Advanced search – marginal valueIntuitive interface (!)Universal set of genres (!)

Page 27: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

27

WeGA

Meyer zu Eissen S., Stein B. (2004)

Page 28: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

28

Метки в выдаче: эксперименты

пользователи ожидают, что метки будутполезны, 8 жанров (Meyer zu Eissen S., Stein B., 2004)не наблюдается повышенияэффективности поиска, 18 жанров (RossoM., 2005)пользователи хорошо определяютосновные жанры по сниппету, 4 жанра(Stubbe A. et al., 2007)

Page 29: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

29

Стиль документа/сайта

0.6360.618Советы

0.8180.783НормДок

0.5000.447Науч

0.5650.788ХудЛит

RP

Браславский, Вовк, Маслов (2002)

Page 30: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

30

Жанры @ HARD TrackHigh Accuracy Retrieval from DocumentsИдея: больше данных о пользователях2004, 2005: GENRE (news-report, opinion-editorial, other, any), FAMILIARITY (little/much)

~жанры в запросеМетоды: ранжирование по разным основаниям споследующим смешением рангов

…many documents judged relevant clearly fall outside the requested metadata. Searchers know a relevant document when they see one, but a priori they do not fully know what metadata is required of a relevant document. [Abdul-Jaleel et al., 2005]

Page 31: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

31

Genres and SEs: implicit use

Some genres are better than other static (i.e. query-independent)

rankingGenre diversity in SERP (‘let all flowers flourish’) (в отрицательномсмысле: не допускать «засилья» определенных жанров)

Desired genre based on query analysis (!)

Page 32: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

32

Пионерыданные TRECстилистические признаки для различениярелевантных и нерелевантныхдокументов релевантные болеесложныеклассификатор на основе дереварешенийнет улучшения в среднем нужнатипология запросов

Strzalkowski T. et al., 1995

Page 33: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

33

Последователи (Braslavski, 2007)

1. -----2. -----3. -----4. -----

1. -----2. -----3. -----4. -----

Original text relevance rankings

Genre-related rankings

1. -----2. -----3. -----4. -----

New rankings: RY + αRG

Can we hope to improve relevance ranking by mixing rankings together?

Page 34: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

34

ROMIP data

600,000+ Web documents in Russian70 evaluated ad hoc search tasks

Results of the system Y: 6,906 Web documents (5,416 with relevance judgments)

Query arw19003: are we alone in the universe?Description: The page must contain information on extraterrestrial intelligence research, existing hypotheses as well as different opinions on this issue.

Page 35: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

35

Показатель формальности

feature 1

feature 2

Метод: канонический дискриминантный анализ навыборке функциональных стилей

Признаки:

• average word length;

• smiley count;

• finite verb count;

• adjective count;

• first person pronoun count;

• expressive punctuation count;

• neuter noun count;

• adverb count;

• genitive chain count.

Page 36: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

36

Результаты

-0,3

-0,2

-0,1

0

0,1

0,2

0,3

0,4

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

alpha

micro-averagedmacro-averaged

0

5

10

15

20

25

30

35

40

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

alpha

positive changesnegative changes

rank displacement

Page 37: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

37

Результаты - 2

0,35

0,45

0,55

0,65

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

alpha

p1p10MAP

arw13494

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

initial rankingalpha=0,2

average precision

и снова: нет улучшения в среднем нужна типология запросов…

Page 38: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

38

Как узнать жанр, соответствующий запросу?

определение уровня образованияпо запросу (Liu X. et al., 2004)implicit feedback (клики)персонализация поиска

Page 39: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

39

Кстати: не только релевантность

Жанры – дополнительнаяинформация для планированияобхода Веба роботом МПОбновляемость страниц зависит отжанраBoese E.S., Howe A.E. (2005)

Page 40: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

40

Заключение

методы созрели для приложенийсложность применения в Веб-поиске: определение жанров позапросувозможно: специализированный / персонализированный поиск

Page 41: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

41

Павел Браславский

[email protected]

http://kansas.ru/pb/

Page 42: styles

19.11.2008 Может ли Веб-поиск бытьстильным?

42

СсылкиAbdul-Jaleel, N., Allan, J., Croft, W.B., Diaz, F., Larkey, L., Li, X., Smucker, M. D., Wade, C. UMass at TREC 2004: Novelty and HARD. In Proceedings of TREC 2004 (2005) Boese E.S., Howe A.E. Effects of Web Document Evolution on Genre Classification. CIKM’05.Braslavski P. Combining Relevance and Genre-Related Rankings: an Exploratory Study. In Proc. of the Workshop"Towards Genre-Enabled Search Engines: The Impact of NLP", 2007. Braslavski P., Tselishchev A. Style-Dependent Document Ranking. RCDL'2005. Collins-Thompson, K., Callan, J.P. A Language Modeling Approach to Predicting Reading Difficulty. HLT/NAACL’2004.Karlgren J., Cutting D. Recognizing Text Genre with Simple Metrics Using Discriminant Analysis. COLING 1994. Kumaran, G., Jones, R., Madani, O. Biasing Web Search Results for Topic Familiarity. CIKM’05 Lim C. S. et al. Multiple sets of features for automatic genre classification of web documents. IPM, 2005.Liu, X., Croft, W. B., Oh, P., Hart, D. Automatic Recognition of Reading Levels from User Queries. SIGIR’2004.Meyer zu Eissen S., Stein B. Genre Classification of Web Pages: User Study and Feasibility Analysis. KI’2004.Rauber A., Mueller-Koegler A. Integrating Automatic Genre Analysis into Digital Libraries. JCDL’2001.Rehm G., Santini M., Mehler A., Braslavski P., Gleim R., Stubbe A., Symonenko S., Tavosanis M., Vidulin V. Towards a Reference Corpus of Web Genres for the Evaluation of Genre Identification Systems. LREC 2008.Rosso, M.A. Using Genre To Improve Web Search. PhD thesis, University of North Carolina, Chapel Hill (2005)Santini M. State-of-the-Art on Automatic Genre Identification. Technical Report ITRI-04-03, Information Technology Research Institute, Univ. of Brighton, UK (2004) Si, L., Callan, J. A Statistical Model for Scientific Readability. In: Proceedings of CIKM’2001, pp. 574--576 (2001) Strzalkowski, T., Guthrie, L., Karlgren, J., Leistensnider, J., Lin, F. Perez-Carballo, J., Straszheim, T., Wang, J., Wilding, J. Natural Language Information Retrieval: TREC-5 Report. In: Proceedings of TREC’1995 (1996) Stubbe, A., Ringlstetter, Ch., Goebel, R. Elements of a Learning Interface for Genre Qualified Search. Proceedings of the Workshop “Towards Genre-Enabled Search Engines: The Impact of NLP”, 2007. WebGenreWiki, http://valian.kgf.uni-frankfurt.de/WebGenreWiki/index.php5/Main_PageWEGA project, http://www.uni-weimar.de/cms/medien/webis/research/projects/wega.htmlБраславский П. Методы повышения эффективности поиска научной информации (на материале Internet), 2000.