styles
-
Upload
nlpseminar -
Category
Education
-
view
1.453 -
download
6
description
Transcript of styles
Может ли Веб-поискбыть стильным?
Павел БраславскийЯндекс
19.11.2008 Может ли Веб-поиск бытьстильным?
2
ПланВведение: почему Веб-поиск и стиль?Стиль, жанр: попытка определенияНаправления исследованийИндивидуальный стильСтилистическая категоризацияСтилистическая кластеризацияУдобочитаемость
Как это можно использовать в Веб-поиске?Заключение
19.11.2008 Может ли Веб-поиск бытьстильным?
3
программа курса
словарь
учебник
ссылка на книгу
реферат
FAQ?
инструкция
резюме диплома
запрос:[синтетическийучет основногопроизводства](1078755)
19.11.2008 Может ли Веб-поиск бытьстильным?
4
Чем может помочь стиль/жанр?
Жанр документа типинформационной потребностилучше моделировать релевантностьв условиях роста Веба и количествапользователейпродвинутые пользователи, специализированный поиск
19.11.2008 Может ли Веб-поиск бытьстильным?
5
Что такое стиль?
Стиль: искусство, литература, музыка, мода, спорт…
…стиль барокко, телеграфный стиль, вольный стиль, стильпрограммирования, стильнаявечеринка, Cascading Style Sheets, стиль «пьяный кулак»…
19.11.2008 Может ли Веб-поиск бытьстильным?
6
Стиль vs. жанр
Стиль: в каком-то смысле ортогонален темекак vs. чтоплан выражения vs. план содержаниявариант раскрытия темыЖанр:устоявшийся тип документанапример: FAQ, новости, home page, product page, форма регистрациии т.д.
19.11.2008 Может ли Веб-поиск бытьстильным?
7
Стиль/содержание
Сущность квантовой теории танца, представляющей собой своего родакомпромисс между классической механикой условно периодическихдвижений и классической эмоциодинамикой, заключается в следующем. Танцующие могут описывать определенные квантовые орбиты, не испускаяи не поглощая при этом никаких эмоций. Последние испускаются ипоглощаются прерывным образом при переходах с одной квантованнойорбиты на другую. При этом в противоположность тому, что имеет место вслучае электронных плясок в боровском атоме, эмоциональное излучение, как и поглощение, сопровождается переходом не на более низкий, а, наоборот, на более высокий уровень, т.е., другими словами, возбуждением. Таким образом, во время танца (особенно парного) возбуждениетанцующих неизменно возрастает, пока не наступит релаксация, вызываемая истощением.
Я.И.Френкель «Квантовая теория танца»
19.11.2008 Может ли Веб-поиск бытьстильным?
8
Стиль (от лат. stilus, stylus)
«Уровень» языка (нейтральный, высокий, низкий)Функциональный стильОсобенности конкретного речевого акта(ораторская речь, бытовой диалог, дружеское письмо и т.д.)Индивидуальный стильСтиль эпохи
Лингвистический энциклопедический словарь
19.11.2008 Может ли Веб-поиск бытьстильным?
9
Направления исследований
Анализ индивидуального стиля, подлинность, атрибуция текста (вариант: консистентностьстиля документа)Категоризация по стилям/жанрамКластеризация по жанровым признакамПоказатели удобочитаемости /стилистическое ранжированиеГендерные особенности стиляТон, настроение, критика/похвала
19.11.2008 Может ли Веб-поиск бытьстильным?
10
Стилистические признакиФормальные параметры «нижнегоуровня»Морфемы, словообразованиеЛексика * очи – глаза – зенки; поребрик – бордюр ☺
МорфологияПредсинтаксисСинтаксис **Специфические Веб-признакисмайликиURLHTML
19.11.2008 Может ли Веб-поиск бытьстильным?
11
Пример: стиль в MS Word
19.11.2008 Может ли Веб-поиск бытьстильным?
12
Индивидуальный стильКто написал «Тихий Дон»?Кто написал «Роман с кокаином»? (Агеев? Набоков?)Идея: найти комбинацию параметров, которуюсложно сознательно контролироватьНапример: доля служебных слов
Лингвоанализатор Дм. Хмелева:Последовательности пар букв (цепи Маркова)Алгоритмы сжатия данных (!)
19.11.2008 Может ли Веб-поиск бытьстильным?
13
Жанровая категоризацияСистема стилей (категории)Набор признаков, метод извлечения признаковОбучающая/тестовая выборки (корпус)Метод обучения ( вид решающего правила)
Если жанров немного и они четко определеныприемлемое для практических приложенийкачество классификации с помощью простыхпризнаков
Проблема: сравнение результатов (см. Rehm G. et al., 2008)
19.11.2008 Может ли Веб-поиск бытьстильным?
14
ПионерыBrown corpusДискриминантный анализ
Karlgren, Cutting (1994)
19.11.2008 Может ли Веб-поиск бытьстильным?
15
Функциональные стили
Браславский (2000)
19.11.2008 Может ли Веб-поиск бытьстильным?
16
Морфология
0,04
0,06
0,08
0,10
0,12
0,14
0,16
law science publ liter chat4,5
5,0
5,5
6,0
6,5
7,0
7,5
adjective ratioadverb ratioword length
19.11.2008 Может ли Веб-поиск бытьстильным?
17
Современный подходКлассификаторВеб-документов16 категорийКорпус ~1200 док. на корейскомМетод – вариантkNNaccuracy – до 0,76
Lim C. S. et al. Multiple sets… (2005)
19.11.2008 Может ли Веб-поиск бытьстильным?
18
Lim C. S. et al. Multiple sets – 2
Группы признаков:Уровень слов (формальные параметры)ЛексикаСинтаксисHTML разметкаURL
Полный набор: 326 (!)
19.11.2008 Может ли Веб-поиск бытьстильным?
19
Lim C. S. et al. Multiple sets – 3
19.11.2008 Может ли Веб-поиск бытьстильным?
20
Удобочитаемость (readability)
сложность текста
параметры текста
Flesh Reading Ease
Flesch-Kincaid Grade Level score
Мацковский (1969)
Микк (1972)
регресионный анализ
19.11.2008 Может ли Веб-поиск бытьстильным?
21
Показатели удобочитаемостиFlesch Reading Ease score, 0..100.
206.835 – (1.015 * ASL) – (84.6 * ASW)
Flesch-Kincaid Grade Level score, 1..12.
(0.39 * ASL) + (11.8 * ASW) – 15.59
ASL = average sentence lengthASW = average number of syllables per word
19.11.2008 Может ли Веб-поиск бытьстильным?
22
Показатели сложности текста длярусского языка
Мацковский (1969):
С = 0,62x + 0,123y + 0,051x – средняя длина предложения в словахy – % слов > 3 слогов
Микк (1974):
С = 0,131x + 9,84y – 4,59x – средняя длина самост. предложений в знакахy – средняя абстрактность существительных
19.11.2008 Может ли Веб-поиск бытьстильным?
23
Удобочитаемость 2.0
Определение Grade Level как задачакатегоризации в пространстве слов(Callan et al., 2001, 2004)(Query-independent) familiarity classifier: introductory vs. advanced (Kumaran et al., 2005)Показатель “формальности”, получаемыйна классах документов (Braslavski, 2007)
19.11.2008 Может ли Веб-поиск бытьстильным?
24
КластеризацияRauber A., Mueller-Koegler (2001)
«Без учителя»Простые признаки~1000 статей на немецкомСамоорганизующиеся сети
Кохонена (SOM)Интеграция в существующий
интерфейс ЭБ
19.11.2008 Может ли Веб-поиск бытьстильным?
25
«Сложность/формальность»без учителя
Braslavski, Tselishchev (2005)
19.11.2008 Может ли Веб-поиск бытьстильным?
26
Genres and SEs: explicit useFocused (‘vertical’) searchGenre in query (фактически есть)SERP: tagging or grouping results Problems:Do we really need sophisticated methods? (e.g. scientific papers, blogs, news, e-shops, etc.)Advanced search – marginal valueIntuitive interface (!)Universal set of genres (!)
19.11.2008 Может ли Веб-поиск бытьстильным?
27
WeGA
Meyer zu Eissen S., Stein B. (2004)
19.11.2008 Может ли Веб-поиск бытьстильным?
28
Метки в выдаче: эксперименты
пользователи ожидают, что метки будутполезны, 8 жанров (Meyer zu Eissen S., Stein B., 2004)не наблюдается повышенияэффективности поиска, 18 жанров (RossoM., 2005)пользователи хорошо определяютосновные жанры по сниппету, 4 жанра(Stubbe A. et al., 2007)
19.11.2008 Может ли Веб-поиск бытьстильным?
29
Стиль документа/сайта
0.6360.618Советы
0.8180.783НормДок
0.5000.447Науч
0.5650.788ХудЛит
RP
Браславский, Вовк, Маслов (2002)
19.11.2008 Может ли Веб-поиск бытьстильным?
30
Жанры @ HARD TrackHigh Accuracy Retrieval from DocumentsИдея: больше данных о пользователях2004, 2005: GENRE (news-report, opinion-editorial, other, any), FAMILIARITY (little/much)
~жанры в запросеМетоды: ранжирование по разным основаниям споследующим смешением рангов
…many documents judged relevant clearly fall outside the requested metadata. Searchers know a relevant document when they see one, but a priori they do not fully know what metadata is required of a relevant document. [Abdul-Jaleel et al., 2005]
19.11.2008 Может ли Веб-поиск бытьстильным?
31
Genres and SEs: implicit use
Some genres are better than other static (i.e. query-independent)
rankingGenre diversity in SERP (‘let all flowers flourish’) (в отрицательномсмысле: не допускать «засилья» определенных жанров)
Desired genre based on query analysis (!)
19.11.2008 Может ли Веб-поиск бытьстильным?
32
Пионерыданные TRECстилистические признаки для различениярелевантных и нерелевантныхдокументов релевантные болеесложныеклассификатор на основе дереварешенийнет улучшения в среднем нужнатипология запросов
Strzalkowski T. et al., 1995
19.11.2008 Может ли Веб-поиск бытьстильным?
33
Последователи (Braslavski, 2007)
1. -----2. -----3. -----4. -----
1. -----2. -----3. -----4. -----
Original text relevance rankings
Genre-related rankings
1. -----2. -----3. -----4. -----
New rankings: RY + αRG
Can we hope to improve relevance ranking by mixing rankings together?
19.11.2008 Может ли Веб-поиск бытьстильным?
34
ROMIP data
600,000+ Web documents in Russian70 evaluated ad hoc search tasks
Results of the system Y: 6,906 Web documents (5,416 with relevance judgments)
Query arw19003: are we alone in the universe?Description: The page must contain information on extraterrestrial intelligence research, existing hypotheses as well as different opinions on this issue.
19.11.2008 Может ли Веб-поиск бытьстильным?
35
Показатель формальности
feature 1
feature 2
Метод: канонический дискриминантный анализ навыборке функциональных стилей
Признаки:
• average word length;
• smiley count;
• finite verb count;
• adjective count;
• first person pronoun count;
• expressive punctuation count;
• neuter noun count;
• adverb count;
• genitive chain count.
19.11.2008 Может ли Веб-поиск бытьстильным?
36
Результаты
-0,3
-0,2
-0,1
0
0,1
0,2
0,3
0,4
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
alpha
micro-averagedmacro-averaged
0
5
10
15
20
25
30
35
40
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
alpha
positive changesnegative changes
rank displacement
19.11.2008 Может ли Веб-поиск бытьстильным?
37
Результаты - 2
0,35
0,45
0,55
0,65
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
alpha
p1p10MAP
arw13494
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
initial rankingalpha=0,2
average precision
и снова: нет улучшения в среднем нужна типология запросов…
19.11.2008 Может ли Веб-поиск бытьстильным?
38
Как узнать жанр, соответствующий запросу?
определение уровня образованияпо запросу (Liu X. et al., 2004)implicit feedback (клики)персонализация поиска
19.11.2008 Может ли Веб-поиск бытьстильным?
39
Кстати: не только релевантность
Жанры – дополнительнаяинформация для планированияобхода Веба роботом МПОбновляемость страниц зависит отжанраBoese E.S., Howe A.E. (2005)
19.11.2008 Может ли Веб-поиск бытьстильным?
40
Заключение
методы созрели для приложенийсложность применения в Веб-поиске: определение жанров позапросувозможно: специализированный / персонализированный поиск
19.11.2008 Может ли Веб-поиск бытьстильным?
41
Павел Браславский
http://kansas.ru/pb/
19.11.2008 Может ли Веб-поиск бытьстильным?
42
СсылкиAbdul-Jaleel, N., Allan, J., Croft, W.B., Diaz, F., Larkey, L., Li, X., Smucker, M. D., Wade, C. UMass at TREC 2004: Novelty and HARD. In Proceedings of TREC 2004 (2005) Boese E.S., Howe A.E. Effects of Web Document Evolution on Genre Classification. CIKM’05.Braslavski P. Combining Relevance and Genre-Related Rankings: an Exploratory Study. In Proc. of the Workshop"Towards Genre-Enabled Search Engines: The Impact of NLP", 2007. Braslavski P., Tselishchev A. Style-Dependent Document Ranking. RCDL'2005. Collins-Thompson, K., Callan, J.P. A Language Modeling Approach to Predicting Reading Difficulty. HLT/NAACL’2004.Karlgren J., Cutting D. Recognizing Text Genre with Simple Metrics Using Discriminant Analysis. COLING 1994. Kumaran, G., Jones, R., Madani, O. Biasing Web Search Results for Topic Familiarity. CIKM’05 Lim C. S. et al. Multiple sets of features for automatic genre classification of web documents. IPM, 2005.Liu, X., Croft, W. B., Oh, P., Hart, D. Automatic Recognition of Reading Levels from User Queries. SIGIR’2004.Meyer zu Eissen S., Stein B. Genre Classification of Web Pages: User Study and Feasibility Analysis. KI’2004.Rauber A., Mueller-Koegler A. Integrating Automatic Genre Analysis into Digital Libraries. JCDL’2001.Rehm G., Santini M., Mehler A., Braslavski P., Gleim R., Stubbe A., Symonenko S., Tavosanis M., Vidulin V. Towards a Reference Corpus of Web Genres for the Evaluation of Genre Identification Systems. LREC 2008.Rosso, M.A. Using Genre To Improve Web Search. PhD thesis, University of North Carolina, Chapel Hill (2005)Santini M. State-of-the-Art on Automatic Genre Identification. Technical Report ITRI-04-03, Information Technology Research Institute, Univ. of Brighton, UK (2004) Si, L., Callan, J. A Statistical Model for Scientific Readability. In: Proceedings of CIKM’2001, pp. 574--576 (2001) Strzalkowski, T., Guthrie, L., Karlgren, J., Leistensnider, J., Lin, F. Perez-Carballo, J., Straszheim, T., Wang, J., Wilding, J. Natural Language Information Retrieval: TREC-5 Report. In: Proceedings of TREC’1995 (1996) Stubbe, A., Ringlstetter, Ch., Goebel, R. Elements of a Learning Interface for Genre Qualified Search. Proceedings of the Workshop “Towards Genre-Enabled Search Engines: The Impact of NLP”, 2007. WebGenreWiki, http://valian.kgf.uni-frankfurt.de/WebGenreWiki/index.php5/Main_PageWEGA project, http://www.uni-weimar.de/cms/medien/webis/research/projects/wega.htmlБраславский П. Методы повышения эффективности поиска научной информации (на материале Internet), 2000.