Слайд 2
Летняя школа по КЛ, 5-11 июля 2011
СОДЕРЖАНИЕ
Особенности задачи
Выделяемые
сущности
Технология решения: шаблоны
Проект ONTOS и система GATE
Задача извлечения
терминологии
Особенности терминов и их употребления
Критерии распознавания
Шаблоны для извлечения
Слайд 3
Летняя школа по КЛ, 5-11 июля 2011
ОСОБЕННОСТИ ЗАДАЧИ
Information
Extraction
Специфика задачи – распознавание и извлечение из текста определенной
значимой информации - объектов и фактов,
структуризация извлеченной информации
Приложения:
текстовая аналитика (экономическая, производственная, правоохранительная и др.)
построение онтологий и тезаурусов, моделей проблемной области
Слайд 4
Летняя школа по КЛ, 5-11 июля 2011
ВЫДЕЛЯЕМЫЕ СУЩНОСТИ
Именованные
сущности:
Имена персоналий
Географические названия
Названия фирм и организаций
Адреса
Даты
Отношения (связи) выделенных сущностей,
например: работать в
Смирнов А. работает в ОА «Альфа» с 1998 г.
связанные с ними события и факты
получение кредита, слияние компаний…
Слайд 5
Летняя школа по КЛ, 5-11 июля 2011
ТЕХНОЛОГИЯ РЕШЕНИЯ
Частичный
синтаксический анализ :
неэфффективность и многовариантность синт.
разбора
Лигвистические шаблоны, содержащие лексическую, морфологическую и синтаксическую информацию
Лингвистич. шаблон – описание языковой конструкции, ее лексического состава и грамматических свойств:
N “работает” в NP (Noun Phrase)
Элементы шаблонов:
Словоформы, лексемы (возможно, с указанием части речи/морфологических характеристик)
Грамматические конструкции: именные и др. группы
Слайд 6
Летняя школа по КЛ, 5-11 июля 2011
АвиКомп, 2000
– 2010 гг.
Извлечение под управлением онтологии
Инструментальная система
GATE
Семейство систем OntosMiner - для разных ЕЯ и ПО
Цели
Построение модели ПО
Семантическая навигация по тексту
Дайджестирование
Реферирование: основа реферата - извлеченная информация
ПРОЕКТ ONTOS
Слайд 7
Летняя школа по КЛ, 5-11 июля 2011
СИСТЕМА GATE
КАК ИНСТРУМЕНТ
Набор стандартных программных компонент (лингвистических процессоров) для обработки
текста
Представление лингвистической информации об обрабатываемом тексте в виде набора аннотаций, которые хранятся отдельно от текста
Графическая среда для сборки приложения из компонент
Слайд 8
GATE: ПРИМЕРЫ АННОТАЦИЙ
Сущность «Angela Merkel»
Слайд 9
Летняя школа по КЛ, 5-11 июля 2011
GATE :
КОМПОНЕНТЫ
Цепочка обработки текста в системе GATE:
Tokeniser - разбиение
текста на отдельные токены (числа, знаки препинания, слова)
Gazetteer - создание аннотаций к словам на основании словарных файлов (названия городов, организаций, дней недели и т.д.)
Sentence Splitter - разбиение текста на предложения
Part of Speech Tagger - определение части речи слов на основании словаря и правил
Semantic Tagger - распознавание языковых конструкций и сущностей на основе аннотаций и JAPE-правил
OrthoMatcher (Orthographic Coreference ) - соотнесение идентичных сущностей с разными названиями
Слайд 10
Летняя школа по КЛ, 5-11 июля 2011
GATE :
ШАБЛОНЫ И ПРАВИЛА
Язык JAPE - запись
правил преобразования аннотаций
Шаблоны для выявляемых конструкций, например:
{Morph.SpeechPart="Adjective", Morph.Case="Nominative"} - шаблон для выявления прилагательных в именит. падеже
Правила для преобразования аннотаций :
левая часть – шаблон, правая – преобразование нужных аннотаций выявленной конструкции
Rule: Second_name
({Token.SemanticType="Name: FName"}):family
{[А-Я]}{Token.Text="."}{[А-Я]}{Token.Text=="."}) →
family.Family={rule="Second_name"} -
правило для выявления имен персоналий вида Иванов И.
и выделение из них фамилий
Слайд 11
Летняя школа по КЛ, 5-11 июля 2011
ИЗВЛЕЧЕНИЕ ТЕРМИНОВ
и СВЯЗЕЙ
Терминологические слова и словосочетания: называют понятия проблемной области:
общий регистр, число с плавающей точкой
технология двойной накачки
Приложения:
индексирование текстов
навигация по тексту
поддержка терминологич. редактирования текстов
построение глоссариев и предметных указателей
создание онтологий и тезаурусов
Часть приложений – обработка отдельного текста, но не коллекции
Слайд 12
Летняя школа по КЛ, 5-11 июля 2011
ОСОБЕННОСТИ ТЕРМИНОВ
Большинство
словосочетаний – несвободные (некомпозиционные), т.е. их смысл не выводится
из смысла компонент:
железная дорога, длина слова
Конвенциональность научно-технических терминов ⇒ необходимость их определения в тексте:
Под прерыванием понимается сигнал…
Грамматическая структура терминов: чаще всего - именные словосочетания, их можно описать структурными грамматическими образцами:
прилагательное-существительное – логический вывод,
существительное- существительное в род. падеже –
период упреждения
Слайд 13
Летняя школа по КЛ, 5-11 июля 2011
МЕТОДЫ РАСПОЗНАВАНИЯ
Применение
статистических и лингвистических критериев:
Статистические критерии
Например, функция упорядочивания по статистике:
⎧log2 |a| * freq (a), если a не вложено, иначе
C-Value(a) = ⎨
⎩ log2 |a| * (freq (a) – P(Ta)-1 * ∑b∈Ta freq (b))
где a – слово (словосочетание), |a| – его длина,
freq(a) – частота встречаемости a в тексте,
Ta – множество словосочетаний текста, содержащих a, P(Ta) – количество словосочетаний, содержащих a.
электрический слой - двойной электрический слой
Слайд 14
Летняя школа по КЛ, 5-11 июля 2011
МЕТОДЫ РАСПОЗНАВАНИЯ:
ЛИНГВИСТИЧЕСКИЕ
КРИТЕРИИ
грамматические (синтаксические) образцы терминов:
A N N - спектральный коэффициент излучения
контексты употребления терминов:
effect of T – effect of drought, effect of cold
(последствие засухи, заморозков)
such T1 as T2 – such crimes as money laundering
(такие преступления, как отмывание денег)
Лингвистическую информацию можно записать в виде шаблонов
необходим язык шаблонов и поддерживающие его средства
Слайд 15
Летняя школа по КЛ, 5-11 июля 2011
РАСПОЗНАВАНИЕ ТЕРМИНОВ:
ТЕКСТОВЫЕ
ВАРИАНТЫ
При использовании терминов в тексте они могут образовывать варианты:
Орфографические варианты: браузер - броузер
Морфоварианты: спецсимвол – спецзнак
Лексико-синтаксические варианты:
механическое напряжение - напряжение
дисковый контроллер – контроллер диска
Варианты сокращений: ЦП, авост
В словаре представлены далеко не все варианты терминов, их необходимо распознвать
Слайд 16
Летняя школа по КЛ, 5-11 июля 2011
ТЕРМИНОЛОГИЧЕСКИЕ ВАРИАНТЫ:
ПРИМЕР
Слайд 17
Летняя школа по КЛ, 5-11 июля 2011
РАСПОЗНАВАНИЕ ТЕРМИНОВ:
СОЕДИНЕНИЯ
ТЕРМИНОВ
Соединения нескольких терминологических словосочетаний:
Бессоюзные соединения, с разрывом и без
разрыва термина:
разрядность внутренних регистров
– разрядность регистра, внутренний регистр
Соединения с союзом:
шинам адреса, данных и управления
– шина адреса, шина данных, шина управления
Средство распознавания - лингвистические шаблоны
Слайд 18
ШАБЛОНЫ: ЯЗЫК LSPL
Лексико-синтаксический шаблон позволяет задать
для
элемента-слова:
часть речи (A, N, V, Pa и т.д.) –
A
индекс – A1 A2 N
лексему – A<важный>
морфологические характеристики (имя=значение) – A<важный; case=nom, gen=fem>
Грамматическое согласование элементов шаблона:
A<тяжелый> N
Прилагательное тяжелый и существительное согласованы в роде, числе и падеже: тяжелым вечером, тяжелых камней, тяжелое тело
Слайд 19
ЯЗЫК LSPL-ШАБЛОНОВ: ВОЗМОЖНОСТИ
AP = A(A) | Pa(Pa)
AN= { AP }
N [“в”] (N)
Элемент-слово
Имя шаблона
Экземпляр шаблона
Условия согласования
Альтернативы |
Повторение
{}
Опциональное вхождение []
Параметры шаблона
Элемент-слово
Имя шаблона
Экземпляр шаблона
Условия согласования
Альтернативы |
Повторение {}
Опциональное вхождение []
Слайд 20
LSPL-ШАБЛОНЫ: ПРИМЕРЫ
Шаблон типичной структуры термина:
A N1 {
N2 } (A=N1)
реактивная сила, немаркированный квантор общности
Шаблон типичной фразы-определения новых терминов:
NP1 ["мы"] "назовем" NP2
Указанную операцию назовем операцией поиска примеров
Шаблон образования терминологических вариантов:
N1 N2 "," N3 {"и"|"или"} N4
#N1 N2 , N1 N3 , N1 N4
шинам адреса, данных и управления –
шина адреса, шина данных, шина управления