Что такое findslide.org?

FindSlide.org - это сайт презентаций, докладов, шаблонов в формате PowerPoint.


Для правообладателей

Обратная связь

Email: Нажмите что бы посмотреть 

Яндекс.Метрика

Презентация на тему Извлечение информации из текстов : портрет направления

Содержание

Летняя школа по КЛ, 5-11 июля 2011СОДЕРЖАНИЕОсобенности задачиВыделяемые сущностиТехнология решения: шаблоныПроект ONTOS и система GATE Задача извлечения терминологии Особенности терминов и их употребления Критерии распознавания Шаблоны для извлечения
Летняя школа по КЛ, 5-11 июля 2011ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ  ИЗ ТЕКСТОВ: ПОРТРЕТ Летняя школа по КЛ, 5-11 июля 2011СОДЕРЖАНИЕОсобенности задачиВыделяемые сущностиТехнология решения: шаблоныПроект ONTOS Летняя школа по КЛ, 5-11 июля 2011ОСОБЕННОСТИ ЗАДАЧИInformation ExtractionСпецифика задачи – распознавание Летняя школа по КЛ, 5-11 июля 2011ВЫДЕЛЯЕМЫЕ СУЩНОСТИИменованные сущности:Имена персоналийГеографические названияНазвания фирм Летняя школа по КЛ, 5-11 июля 2011ТЕХНОЛОГИЯ РЕШЕНИЯЧастичный синтаксический анализ : Летняя школа по КЛ, 5-11 июля 2011АвиКомп, 2000 – 2010 гг. Извлечение Летняя школа по КЛ, 5-11 июля 2011СИСТЕМА GATE КАК ИНСТРУМЕНТНабор стандартных программных GATE: ПРИМЕРЫ АННОТАЦИЙСущность «Angela Merkel» Летняя школа по КЛ, 5-11 июля 2011GATE : КОМПОНЕНТЫ Цепочка обработки текста Летняя школа по КЛ, 5-11 июля 2011GATE : ШАБЛОНЫ И ПРАВИЛА Летняя школа по КЛ, 5-11 июля 2011ИЗВЛЕЧЕНИЕ ТЕРМИНОВ и СВЯЗЕЙТерминологические слова и Летняя школа по КЛ, 5-11 июля 2011ОСОБЕННОСТИ ТЕРМИНОВ Большинство словосочетаний – несвободные Летняя школа по КЛ, 5-11 июля 2011МЕТОДЫ РАСПОЗНАВАНИЯ Применение статистических и лингвистических Летняя школа по КЛ, 5-11 июля 2011МЕТОДЫ РАСПОЗНАВАНИЯ: ЛИНГВИСТИЧЕСКИЕ КРИТЕРИИ грамматические (синтаксические) Летняя школа по КЛ, 5-11 июля 2011РАСПОЗНАВАНИЕ ТЕРМИНОВ: ТЕКСТОВЫЕ ВАРИАНТЫПри использовании терминов Летняя школа по КЛ, 5-11 июля 2011ТЕРМИНОЛОГИЧЕСКИЕ ВАРИАНТЫ:  ПРИМЕР Летняя школа по КЛ, 5-11 июля 2011РАСПОЗНАВАНИЕ ТЕРМИНОВ: СОЕДИНЕНИЯ ТЕРМИНОВСоединения нескольких терминологических ШАБЛОНЫ: ЯЗЫК LSPL Лексико-синтаксический шаблон позволяет задать для элемента-слова:часть речи (A, N, ЯЗЫК LSPL-ШАБЛОНОВ: ВОЗМОЖНОСТИ  AP = A(A) | Pa(Pa)AN= { AP } N [“в”] LSPL-ШАБЛОНЫ: ПРИМЕРЫ Шаблон типичной структуры термина: Летняя школа по КЛ, 5-11 июля 2011ЗАКЛЮЧЕНИЕВ основном – извлечение на основе
Слайды презентации

Слайд 2 Летняя школа по КЛ, 5-11 июля 2011
СОДЕРЖАНИЕ
Особенности задачи
Выделяемые

Летняя школа по КЛ, 5-11 июля 2011СОДЕРЖАНИЕОсобенности задачиВыделяемые сущностиТехнология решения: шаблоныПроект

сущности
Технология решения: шаблоны
Проект ONTOS и система GATE
Задача извлечения

терминологии
Особенности терминов и их употребления
Критерии распознавания
Шаблоны для извлечения


Слайд 3 Летняя школа по КЛ, 5-11 июля 2011
ОСОБЕННОСТИ ЗАДАЧИ
Information

Летняя школа по КЛ, 5-11 июля 2011ОСОБЕННОСТИ ЗАДАЧИInformation ExtractionСпецифика задачи –

Extraction
Специфика задачи – распознавание и извлечение из текста определенной

значимой информации - объектов и фактов,
структуризация извлеченной информации
Приложения:
текстовая аналитика (экономическая, производственная, правоохранительная и др.)
построение онтологий и тезаурусов, моделей проблемной области

Слайд 4 Летняя школа по КЛ, 5-11 июля 2011
ВЫДЕЛЯЕМЫЕ СУЩНОСТИ

Именованные

Летняя школа по КЛ, 5-11 июля 2011ВЫДЕЛЯЕМЫЕ СУЩНОСТИИменованные сущности:Имена персоналийГеографические названияНазвания

сущности:
Имена персоналий
Географические названия
Названия фирм и организаций
Адреса
Даты
Отношения (связи) выделенных сущностей,

например: работать в
Смирнов А. работает в ОА «Альфа» с 1998 г.
связанные с ними события и факты
получение кредита, слияние компаний…

Слайд 5 Летняя школа по КЛ, 5-11 июля 2011
ТЕХНОЛОГИЯ РЕШЕНИЯ
Частичный

Летняя школа по КЛ, 5-11 июля 2011ТЕХНОЛОГИЯ РЕШЕНИЯЧастичный синтаксический анализ :

синтаксический анализ :
неэфффективность и многовариантность синт.

разбора
Лигвистические шаблоны, содержащие лексическую, морфологическую и синтаксическую информацию
Лингвистич. шаблон – описание языковой конструкции, ее лексического состава и грамматических свойств:
N “работает” в NP (Noun Phrase)
Элементы шаблонов:
Словоформы, лексемы (возможно, с указанием части речи/морфологических характеристик)
Грамматические конструкции: именные и др. группы

Слайд 6 Летняя школа по КЛ, 5-11 июля 2011
АвиКомп, 2000

Летняя школа по КЛ, 5-11 июля 2011АвиКомп, 2000 – 2010 гг.

– 2010 гг.
Извлечение под управлением онтологии
Инструментальная система

GATE
Семейство систем OntosMiner - для разных ЕЯ и ПО
Цели
Построение модели ПО
Семантическая навигация по тексту
Дайджестирование
Реферирование: основа реферата - извлеченная информация

ПРОЕКТ ONTOS


Слайд 7 Летняя школа по КЛ, 5-11 июля 2011
СИСТЕМА GATE

Летняя школа по КЛ, 5-11 июля 2011СИСТЕМА GATE КАК ИНСТРУМЕНТНабор стандартных

КАК ИНСТРУМЕНТ

Набор стандартных программных компонент (лингвистических процессоров) для обработки

текста
Представление лингвистической информации об обрабатываемом тексте в виде набора аннотаций, которые хранятся отдельно от текста
Графическая среда для сборки приложения из компонент

Слайд 8 GATE: ПРИМЕРЫ АННОТАЦИЙ
Сущность «Angela Merkel»




GATE: ПРИМЕРЫ АННОТАЦИЙСущность «Angela Merkel»

Слайд 9 Летняя школа по КЛ, 5-11 июля 2011
GATE :

Летняя школа по КЛ, 5-11 июля 2011GATE : КОМПОНЕНТЫ Цепочка обработки

КОМПОНЕНТЫ
Цепочка обработки текста в системе GATE:
Tokeniser - разбиение

текста на отдельные токены (числа, знаки препинания, слова)
Gazetteer - создание аннотаций к словам на основании словарных файлов (названия городов, организаций, дней недели и т.д.)
Sentence Splitter - разбиение текста на предложения
Part of Speech Tagger - определение части речи слов на основании словаря и правил
Semantic Tagger - распознавание языковых конструкций и сущностей на основе аннотаций и JAPE-правил
OrthoMatcher (Orthographic Coreference ) - соотнесение идентичных сущностей с разными названиями


Слайд 10 Летняя школа по КЛ, 5-11 июля 2011
GATE :

Летняя школа по КЛ, 5-11 июля 2011GATE : ШАБЛОНЫ И ПРАВИЛА

ШАБЛОНЫ И ПРАВИЛА
Язык JAPE - запись

правил преобразования аннотаций
Шаблоны для выявляемых конструкций, например:
{Morph.SpeechPart="Adjective", Morph.Case="Nominative"} - шаблон для выявления прилагательных в именит. падеже
Правила для преобразования аннотаций :
левая часть – шаблон, правая – преобразование нужных аннотаций выявленной конструкции
Rule: Second_name
({Token.SemanticType="Name: FName"}):family
{[А-Я]}{Token.Text="."}{[А-Я]}{Token.Text=="."}) →
family.Family={rule="Second_name"} -
правило для выявления имен персоналий вида Иванов И.
и выделение из них фамилий


Слайд 11 Летняя школа по КЛ, 5-11 июля 2011
ИЗВЛЕЧЕНИЕ ТЕРМИНОВ

Летняя школа по КЛ, 5-11 июля 2011ИЗВЛЕЧЕНИЕ ТЕРМИНОВ и СВЯЗЕЙТерминологические слова

и СВЯЗЕЙ

Терминологические слова и словосочетания: называют понятия проблемной области:


общий регистр, число с плавающей точкой
технология двойной накачки
Приложения:
индексирование текстов
навигация по тексту
поддержка терминологич. редактирования текстов
построение глоссариев и предметных указателей
создание онтологий и тезаурусов
Часть приложений – обработка отдельного текста, но не коллекции

Слайд 12 Летняя школа по КЛ, 5-11 июля 2011
ОСОБЕННОСТИ ТЕРМИНОВ

Большинство

Летняя школа по КЛ, 5-11 июля 2011ОСОБЕННОСТИ ТЕРМИНОВ Большинство словосочетаний –

словосочетаний – несвободные (некомпозиционные), т.е. их смысл не выводится

из смысла компонент:
железная дорога, длина слова
Конвенциональность научно-технических терминов ⇒ необходимость их определения в тексте:
Под прерыванием понимается сигнал…
Грамматическая структура терминов: чаще всего - именные словосочетания, их можно описать структурными грамматическими образцами:
прилагательное-существительное – логический вывод,
существительное- существительное в род. падеже –
период упреждения

Слайд 13 Летняя школа по КЛ, 5-11 июля 2011
МЕТОДЫ РАСПОЗНАВАНИЯ

Применение

Летняя школа по КЛ, 5-11 июля 2011МЕТОДЫ РАСПОЗНАВАНИЯ Применение статистических и

статистических и лингвистических критериев:
Статистические критерии

Например, функция упорядочивания по статистике: 
⎧log2 |a| * freq (a), если a не вложено, иначе
C-Value(a) = ⎨
⎩ log2 |a| * (freq (a) – P(Ta)-1 * ∑b∈Ta freq (b))
где a – слово (словосочетание), |a| – его длина,
freq(a) – частота встречаемости a в тексте,
Ta – множество словосочетаний текста, содержащих a, P(Ta) – количество словосочетаний, содержащих a.
электрический слой - двойной электрический слой

Слайд 14 Летняя школа по КЛ, 5-11 июля 2011
МЕТОДЫ РАСПОЗНАВАНИЯ: ЛИНГВИСТИЧЕСКИЕ

Летняя школа по КЛ, 5-11 июля 2011МЕТОДЫ РАСПОЗНАВАНИЯ: ЛИНГВИСТИЧЕСКИЕ КРИТЕРИИ грамматические

КРИТЕРИИ

грамматические (синтаксические) образцы терминов:

A N N - спектральный коэффициент излучения
контексты употребления терминов:
effect of T – effect of drought, effect of cold
(последствие засухи, заморозков)
such T1 as T2 – such crimes as money laundering
(такие преступления, как отмывание денег)
Лингвистическую информацию можно записать в виде шаблонов
необходим язык шаблонов и поддерживающие его средства

Слайд 15 Летняя школа по КЛ, 5-11 июля 2011
РАСПОЗНАВАНИЕ ТЕРМИНОВ: ТЕКСТОВЫЕ

Летняя школа по КЛ, 5-11 июля 2011РАСПОЗНАВАНИЕ ТЕРМИНОВ: ТЕКСТОВЫЕ ВАРИАНТЫПри использовании

ВАРИАНТЫ
При использовании терминов в тексте они могут образовывать варианты:



Орфографические варианты: браузер - броузер
Морфоварианты: спецсимвол – спецзнак
Лексико-синтаксические варианты:
механическое напряжение - напряжение
дисковый контроллер – контроллер диска
Варианты сокращений: ЦП, авост
В словаре представлены далеко не все варианты терминов, их необходимо распознвать


Слайд 16 Летняя школа по КЛ, 5-11 июля 2011
ТЕРМИНОЛОГИЧЕСКИЕ ВАРИАНТЫ:

Летняя школа по КЛ, 5-11 июля 2011ТЕРМИНОЛОГИЧЕСКИЕ ВАРИАНТЫ: ПРИМЕР

ПРИМЕР


Слайд 17 Летняя школа по КЛ, 5-11 июля 2011
РАСПОЗНАВАНИЕ ТЕРМИНОВ: СОЕДИНЕНИЯ

Летняя школа по КЛ, 5-11 июля 2011РАСПОЗНАВАНИЕ ТЕРМИНОВ: СОЕДИНЕНИЯ ТЕРМИНОВСоединения нескольких

ТЕРМИНОВ
Соединения нескольких терминологических словосочетаний:

Бессоюзные соединения, с разрывом и без

разрыва термина:
разрядность внутренних регистров
– разрядность регистра, внутренний регистр
Соединения с союзом:
шинам адреса, данных и управления
– шина адреса, шина данных, шина управления
Средство распознавания - лингвистические шаблоны


Слайд 18 ШАБЛОНЫ: ЯЗЫК LSPL
Лексико-синтаксический шаблон позволяет задать
для

ШАБЛОНЫ: ЯЗЫК LSPL Лексико-синтаксический шаблон позволяет задать для элемента-слова:часть речи (A,

элемента-слова:
часть речи (A, N, V, Pa и т.д.) –

A
индекс – A1 A2 N
лексему – A<важный>
морфологические характеристики (имя=значение) – A<важный; case=nom, gen=fem>
Грамматическое согласование элементов шаблона:
A<тяжелый> N
Прилагательное тяжелый и существительное согласованы в роде, числе и падеже: тяжелым вечером, тяжелых камней, тяжелое тело

Слайд 19

ЯЗЫК LSPL-ШАБЛОНОВ: ВОЗМОЖНОСТИ
AP = A(A) | Pa(Pa)

AN= { AP }

ЯЗЫК LSPL-ШАБЛОНОВ: ВОЗМОЖНОСТИ AP = A(A) | Pa(Pa)AN= { AP } N [“в”]

N [“в”] (N)




Элемент-слово
Имя шаблона
Экземпляр шаблона
Условия согласования

Альтернативы |
Повторение

{}
Опциональное вхождение []
Параметры шаблона


Элемент-слово
Имя шаблона
Экземпляр шаблона
Условия согласования







Альтернативы |
Повторение {}
Опциональное вхождение []




Слайд 20 LSPL-ШАБЛОНЫ: ПРИМЕРЫ
Шаблон типичной структуры термина:

LSPL-ШАБЛОНЫ: ПРИМЕРЫ Шаблон типичной структуры термина:     A

A N1 {

N2 } (A=N1)
реактивная сила, немаркированный квантор общности
Шаблон типичной фразы-определения новых терминов:
NP1 ["мы"] "назовем" NP2
Указанную операцию назовем операцией поиска примеров
Шаблон образования терминологических вариантов:
N1 N2 "," N3 {"и"|"или"} N4
#N1 N2 , N1 N3 , N1 N4
шинам адреса, данных и управления –
шина адреса, шина данных, шина управления


  • Имя файла: izvlechenie-informatsii-iz-tekstov-portret-napravleniya.pptx
  • Количество просмотров: 142
  • Количество скачиваний: 0