Что такое findslide.org?

FindSlide.org - это сайт презентаций, докладов, шаблонов в формате PowerPoint.


Для правообладателей

Обратная связь

Email: Нажмите что бы посмотреть 

Яндекс.Метрика

Презентация на тему Экстралингвистическая разметка. Метаданные

Содержание

Лекция 4Корпусная лингвистикаМетаразметка ? Метаданные – структурированные данные о данных:помогают установить порядок среди хаоса, позволяют осуществить автоматическое обнаружение и обработку данных.
Лекция 4. Экстралингвистическая разметка. Метаданные. В.П. ЗахаровСанкт-Петербургский государственный университет Лекция 4Корпусная лингвистикаМетаразметка ? Метаданные – структурированные данные о данных:помогают установить порядок Лекция 4Корпусная лингвистикаЭкстралингвистическая разметка Лекция 4Корпусная лингвистика Лекция 4Корпусная лингвистика Лекция 4Корпусная лингвистикаНабор метаданных в «Национальном корпусе русского языка»Первый блок:автор текста: имя, Лекция 4Корпусная лингвистикаХудожественные тексты (в НКРЯ):жанр текста 	нежанровая проза, автобиографическая проза, детектив, Лекция 4Корпусная лингвистикаНехудожественные тексты (в НКРЯ):тип текстаавтобиография, акт, дневник, договор, доку­мент, закон, Лекция 4Корпусная лингвистикаСлужебная, или «имплицитная» метаразметка (в НКРЯ)«текст-стиль», при этом выделяются академический, Лекция 4Корпусная лингвистикаПрограмма метаразметки  Systemic Coder 	Systemic Coder - программа, облегчающая Лекция 4Корпусная лингвистикаДеление текста на отдельные сегменты Интерфейс Разметки текста. Текст, представлен Лекция 4Корпусная лингвистикаКлассификационная схема Классификация состоит из 3 частей: имя (system name): Лекция 4Корпусная лингвистикаСоздание и изменение классификационной схемы Управление классификационной схемойДобавить признак (Add Лекция 4Корпусная лингвистикаРежим разметки Лекция 4Корпусная лингвистикаИнтерфейс пользователя для поиска по метаданным:Запросная форма НКРЯ для поиска Лекция 4Корпусная лингвистикаИнтерфейс пользователя для поиска по метаданным:Запросная формы НКРЯ для поиска
Слайды презентации

Слайд 2 Лекция 4
Корпусная лингвистика
Метаразметка
? Метаданные –
структурированные данные

Лекция 4Корпусная лингвистикаМетаразметка ? Метаданные – структурированные данные о данных:помогают установить

о данных:
помогают установить порядок среди хаоса,
позволяют осуществить автоматическое

обнаружение и обработку данных.

Слайд 3 Лекция 4
Корпусная лингвистика
Экстралингвистическая разметка
"внешняя", "интеллектуальная" разметка
библиографические характеристики
типологические

Лекция 4Корпусная лингвистикаЭкстралингвистическая разметка

характеристики
тематические характеристики
социологические характеристики
………………………….
"формальная" структурная разметка
текст, раздел, глава,

часть, абзац, предложение …
технико-технологическая разметка
кодировка
даты обработки
исполнители
источник электронной версии
…………………………

Слайд 4 Лекция 4
Корпусная лингвистика
"Внешняя", "интеллектуальная" разметка
Нужна:
для выявления

Лекция 4Корпусная лингвистика

взаимосвязи языка и условий его существования;
для изучения отдельных подмножеств

языка.

Выделяют два класса факторов, влияющих на язык текстов:
внешние, внеязыковые факторы (E - external);
внутренние факторы (I - internal).
( См. Sinclair (1996). Preliminary recommendations on text typology. EAGLES Document EAG-TCWG-TTYP/P. http://www.ilc.pi.cnr.it/EAGLES96/texttyp/texttyp.html)

Слайд 5 Лекция 4
Корпусная лингвистика
"Внешняя", "интеллектуальная" разметка (продолжение)
Синклер выделяет:
три

Лекция 4Корпусная лингвистика

группы E-факторов:
Е1 (origin) - факторы, относящиеся к созданию текста

автором;
E2 (state) - факторы, относящиеся к внешним признакам текста (включая устную или письменную речь);
Е3 (aims) - факторы, относящиеся к причинам создания текста и его влиянию на аудиторию.
и две группы I-факторов:
I1 (topic) - предметная область текста;
I2 (style) - стилистические особенности (стиль, жанр).

Слайд 6 Лекция 4
Корпусная лингвистика
Набор метаданных в «Национальном корпусе русского

Лекция 4Корпусная лингвистикаНабор метаданных в «Национальном корпусе русского языка»Первый блок:автор текста:

языка»
Первый блок:
автор текста: имя, пол, дата рождения (или примерный

возраст);
название текста;
время и место создания текста (может указываться точно или приблизительно);
объем текста: для художественных произведений принято, что обычная длина рассказа – менее 5 тыс. слов; обычная длина повести – от 5 до 15 тыс. слов; обычная длина романа – более 15 тыс. слов.
Второй блок:
параметры метаописания трех основных массивов текстов корпуса:
художественных текстов;
нехудожественных текстов;
драматургии.

Слайд 7 Лекция 4
Корпусная лингвистика
Художественные тексты (в НКРЯ):
жанр текста
нежанровая

Лекция 4Корпусная лингвистикаХудожественные тексты (в НКРЯ):жанр текста 	нежанровая проза, автобиографическая проза,

проза, автобиографическая проза, детектив, детская литература, историческая проза, криминальная

литература, приключения, фантастика, юмор и сатира
тип текста
автобиографическая проза, анекдот, ассоциа­тивная проза, боевик, детектив, очерк, литературное письмо, повесть, притча, пьеса, рассказ, роман, сказка, триллер, эпопея, эссе и др.;
хронотоп текста
приблизительное указание на место и время описываемых в тексте событий
Реально предлагается следующее: древний Восток; Россия XVII в.; Россия XIX в.; Россия/СССР: советский период в целом; Россия, советский период – Германия 1920–1940-е годы; Россия/СССР – Европа 1960-1980-е годы; Россия/СССР: перестройка; Россия/СССР: советский и постсоветский период; Америка: современная жизнь; Израиль: современная жизнь; Средняя Азия: современная жизнь; ирреальный мир и др.
Также может быть «хронотоп не определен».

Слайд 8 Лекция 4
Корпусная лингвистика
Нехудожественные тексты (в НКРЯ):
тип текста
автобиография, акт, дневник,

Лекция 4Корпусная лингвистикаНехудожественные тексты (в НКРЯ):тип текстаавтобиография, акт, дневник, договор, доку­мент,

договор, доку­мент, закон, заметка, заявление, инструкция, информационное сообщение, кодекс,

комментарий, листовка, обзор, объявление, отзыв, отчет, очерк, письмо, постановление, проповедь, путево­дитель, резюме, реклама, рекомендация, рецензия, рецепт, сочи­нение, справочник, статья, учебник, характеристика, хроника, эссе, юридический документ (включается также помета «тип не определен») и пр. (всего 62 параметра);

тематика текста
открытый список в 5 подмножествах: бизнес, коммерция, экономика, финансы; война и вооруженные конфликты; дом и домашнее хозяйство; здоровье и медицина; зрелища и развлечения; искусство; криминал; наука (по разделам и отраслям); политика и общественная жизнь; право; производ­ство; сельское хозяйство; спорт; природа; частная жизнь и т.п.

Слайд 9 Лекция 4
Корпусная лингвистика
Служебная, или «имплицитная» метаразметка (в НКРЯ)
«текст-стиль»,

Лекция 4Корпусная лингвистикаСлужебная, или «имплицитная» метаразметка (в НКРЯ)«текст-стиль», при этом выделяются

при этом выделяются академический, научно-популярный, официально-деловой, нейтральный, сниженный, сниженный

с элементами грубого просторечия и жаргона, архаизованный, индивидуально-авторский, диалектный и пр. (всего 21);
аудитория-возраст;
аудитория-уровень образования;
аудитория-размер.

Слайд 10 Лекция 4
Корпусная лингвистика
Программа метаразметки Systemic Coder

Systemic Coder

Лекция 4Корпусная лингвистикаПрограмма метаразметки Systemic Coder 	Systemic Coder - программа, облегчающая

- программа, облегчающая процесс метаописания корпуса текстов. Метаданные задаются

на основе классификационной схемы.

Программа состоит из 5 интерфейсов.
Text Segmentation: разметка границ между сегментами текста;
Scheme Management: настройка классификационной схемы;
Coding: разметка текста;
Review: просмотр размеченного текста;
Statistics: интерфейс, позволяющий получить описательную статистику о тексте, или разделить его на две или более совокупности и статистически их сравнить.

Слайд 11 Лекция 4
Корпусная лингвистика
Деление текста на отдельные сегменты

Интерфейс

Лекция 4Корпусная лингвистикаДеление текста на отдельные сегменты Интерфейс Разметки текста. Текст,

Разметки текста. Текст, представлен в основном диалоговом окне -

текстовое окно, слева расположен набор кнопок (панель инструментов).
Интерфейс метаразметки текста позволяет разделить загруженный текстовый файл на сегменты.



Слайд 12 Лекция 4
Корпусная лингвистика
Классификационная схема
Классификация состоит из 3

Лекция 4Корпусная лингвистикаКлассификационная схема Классификация состоит из 3 частей: имя (system

частей:
имя (system name): идентификатор схемы;
признаки (features): варианты выбора;
условия

ввода (entry-condition).
Расширенная классификационная схема:






Слайд 13 Лекция 4
Корпусная лингвистика
Создание и изменение классификационной схемы
Управление

Лекция 4Корпусная лингвистикаСоздание и изменение классификационной схемы Управление классификационной схемойДобавить признак

классификационной схемой
Добавить признак (Add Feature): добавление нового признака в

схему.
Переименование классификационной схемы (Rename System): изменение имени схемы.
Удаление классификации (Delete System): удаление классификации из схемы. Примечание: все признаки принадлежащие схеме и любая классификация, зависящая от нее будут также удалены. В настоящее время функция “Отменить” отсутствует.
Изменение условия ввода (Change Entry Condition): изменение условия ввода классификации с одного признака на другой.
Игнорировать/Не игнорировать подсхему (Ignore/Unignore Subnet): [New] Отключение классификации. Отключенная классификация выделена серым цветом. Она будет проигнорирована в кодировке и статистическом анализе.
Управление признаками
Добавить классификацию (Add System): создание макета классификации
Переименовать признак (Rename Feature): изменение имени признака
Удалить признак (Delete Feature): удаление признака. Примечание: все признаки, принадлежащие классификации и любая классификация, зависящая от нее будут также удалены. В настоящее время функция “Отменить” отсутствует
Редактирование примеров (Edit Realisations): [New] Вы можете добавить примеров, прикрепленных за признаками
Показать примеры (Show Examples): [New] Выбрав эту опцию вы перемещаетесь в интерфейс Просмотра.

Слайд 14 Лекция 4
Корпусная лингвистика
Режим разметки


Лекция 4Корпусная лингвистикаРежим разметки

Слайд 15 Лекция 4
Корпусная лингвистика
Интерфейс пользователя для поиска по метаданным:
Запросная

Лекция 4Корпусная лингвистикаИнтерфейс пользователя для поиска по метаданным:Запросная форма НКРЯ для

форма НКРЯ для поиска по жанру текста:
нежанровая проза
автобиографическая проза
детектив
детская

литература
историческая проза
криминальная литература
приключения
фантастика
юмор и сатира

  • Имя файла: ekstralingvisticheskaya-razmetka-metadannye.pptx
  • Количество просмотров: 117
  • Количество скачиваний: 0