Tagger numbers

12
Татьяна Елипашева 12МАГКЛ *

Transcript of Tagger numbers

Page 1: Tagger numbers

Татьяна Елипашева

12МАГКЛ

*

Page 2: Tagger numbers

*

Numbers Tagger Поиск чисел в

документах

(цифровая и

словесная

формулировки) и их

аннотация в виде

числовых значений

gate.creole.numbe

rs.NumbersTagger

Roman Numerals

Tagger

Поиск и аннотация

римских чисел

gate.creole.numbe

rs.RomanNumeralsT

agger

Page 3: Tagger numbers

**Содержит ресурсы, разработанные для аннотирования

чисел, появляющихся в документах.

*Определяет точное числовое значение

*Добавляет значение к аннотации

*Позволяет строить более сложные аннотации на базе

тех, что были обработаны данным плагином (денежные

единицы, измерения)

*Конфигурация описывается в XML файле

*Готовая конфигурация для аннотирования для

английского, французского, немецкого и испанского

языков

Page 4: Tagger numbers

*Все ресурсы в данном плагине производят так

называемые Number annotations (числовые аннотации) в

следующем виде:

*Type(тип): описывается типы токенов, которые могут

образовывать число

*Value(значение): обозначает собой реальное значение

числа , которое было аннотировано

*

Page 5: Tagger numbers

String Value

3^2 9

101 101

3,000 3000

3.3e3 3300

1/4 0.25

9^1/2 3

4x10^3 4000

5.5*4^5 5632

thirty one 31

three hundred 300

four thousand one hundred and two 4102

3 million 3000000

fünfundzwanzig 25

4 score 80

*

Page 6: Tagger numbers

*configURL- путь к конфигурационному файлу.

Значение по умолчанию: resources/languages/all.xml

Конфигурационный файл для английского языка:

resources/languages/english.xml

*Encoding – кодировка. По умолчанию UTF-8

*postProcessURL – путь для JAPE грамматики

*

Page 7: Tagger numbers

*

Page 8: Tagger numbers

* <config> <description>Basic Example</description> <imports>

<url encoding="UTF-8">symbols.xml</url> </imports> <words>

<word value="0">zero</word> <word value="1">one</word> ...

<word value="10">ten</word> </words> <multipliers>

<word value="2">hundred</word> <word value="2">hundreds</word> <word value="3">thousand</word> <word value="3">thousands</word> <word value

</multipliers> <conjunctions>

<word whole="true">and</word> </conjunctions> <decimalSymbol>.</decimalSymbol> <digitGroupingSymbol>,</digitGroupingSymbol>

</config>

*

Page 9: Tagger numbers

*e: обозначает экспоненциальное основание 10

<word value="2">hundred</word>

3 hundred => 3 × 102 или 300

* /: позволяет определять доли или дроби

three halves => 1.5

*^: возведение в степень числа

three squared => 9

*

Page 10: Tagger numbers

<conjunctions>

<word whole="true">and</word>

</conjunctions>

<decimalSymbol>.</decimalSymbol>

<digitGroupingSymbol>,</digitGroupingSymbol>

*

Page 11: Tagger numbers

*

*allowWithinWords

*annotationSetName

*failOnMissingInputAnnotations

*useHintsFromOriginalMarkups

Page 12: Tagger numbers

*

*allowLowerCase – позволяет выполнять

аннотацию для римских цифр нижнего

регистра

*maxTailLength – ограничение количества

символов

*outputASName – имя для множества аннотаций