Слайд 2
Интерфейс это…
В области информационных технологий (ИТ)
средства взаимодействия пользователя с технической системой принято называть интерфейсом.
Слайд 3
Одной из важнейших задач разработки современных технических
систем является обеспечение наиболее интуитивного и естественного интерфейса с
пользователем, то есть современные компьютерные приложения ориентированные на пользователя.
Слайд 4
По наличию тех или иных средств
ввода, интерфейсы разделяются на типы:
голосовой,
2. жестовый ,
возможны
смешанные варианты.
Типы интерфейсов
Слайд 5
Одной из естественных форм взаимодействия для
человека является речь. Голосовой интерфейс может улучшить существующий пользовательский
интерфейс - он обеспечивает более удобный и менее ограниченный способ взаимодействия человека с компьютером.
Слайд 6
Разработка голосового интерфейса является достаточно сложной и
комплексной, и требует от разработчика знаний в различных предметных
областях, таких как компьютерные науки, лингвистика и психология поведения человека.
Слайд 7
Преимущества голосового интерфейса:
оперативность и естественность;
минимум специальной подготовки пользователя;
возможность
управления объектом в темноте, за пределами его визуальной видимости
(в частности, с использованием существующей телефонной сети);
возможность использования одновременно ручного (с помощью клавиатуры) и голосового ввода информации;
обеспечение мобильности оператора при управлении.
Слайд 8
Распознавание речи
Распознавание речи - технология, позволяющая
использовать естественный для человека речевой интерфейс для взаимодействия с
электронной техникой.
Сложность распознавание речи состоит в том, что совокупность таких характеристик голоса и речи как тембр, громкость, высота, темп, интонация, качество дикции делают речь каждого человека по-своему неповторимой и уникальной как отпечатки пальцев.
или
Слайд 9
Системы распознавания речи
Системы распознавания
речи - это системы, анализирующие акустический сигнал алгоритмами, основанными
на разнообразных теориях, предполагающих, какие характеристики речевого сигнала создают ощущения звуков данного языка, и математических методах, с той или иной точностью выделяющих значащие параметры акустического сигнала и преобразующие его в различной полноте в необходимую форму.
Слайд 10
Рис.1 Классификация систем распознавания речи
Слайд 11
Структура стандартной системы распознавания речи
Слайд 12
Необработанная речь
Обычно, поток звуковых данных, записанный
с высокой дискретизацией (20 КГц при записи с микрофона
либо 8 КГц при записи с телефонной линии).
Слайд 13
Анализ сигнала
Поступающий сигнал должен быть изначально трансформирован и
сжат, для облегчения последующей обработки. Есть различные методы для
извлечения полезных параметров и сжатия исходных данных в десятки раз без потери полезной информации. Наиболее используемые методы:
анализ Фурье;
линейное предсказание
речи;
кепстральный анализ.
Слайд 14
Речевые кадры
Результатом анализа сигнала является последовательность
речевых кадров. Обычно, каждый речевой кадр – это результат
анализа сигнала на небольшом отрезке времени (порядка 10 мс.), содержащий информацию об этом участке (порядка 20 коэффициентов).
Слайд 15
Акустические модели
Для анализа состава речевых кадров требуется набор
акустических моделей. Рассмотрим две наиболее распространенные из них.
Шаблонная модель.
В качестве акустической модели выступает каким-либо образом сохраненный пример распознаваемой структурной единицы (слова, команды).
Модель состояний. Каждое слово моделируется как последовательность состояний указывающих набор звуков, которые возможно услышать в данном участке слова, основываясь на вероятностных правилах.
Слайд 16
Акустический анализ
Состоит в сопоставлении различных акустических
моделей к каждому кадру речи и выдает матрицу сопоставления
последовательности кадров и множества акустических моделей.
Слайд 17
Корректировка времени
Используется для обработки временной вариативности,
возникающей при произношении слов (например, “растягивание” или “съедание” звуков).
Слайд 18
Последовательность слов
В результате работы, система распознавания
речи выдает последовательность (или несколько возможных последовательностей) слов, которая,
наиболее вероятно, соответствует входному потоку речи.
Слайд 19
Программная реализация голосового интерфейса
Используем:
1 ) JDK 6 ( J2SE )
2 ) Eclipse
SDK
3 ) Sphinx 4.0
4 ) JSAPI ( Included in
Sphinx 4.0 )
Слайд 20
Sphinx-4
Sphinx-4 – самый известное и наиболее работоспособное из
открытых программных продуктов для распознавания речи на сегодняшний день.
Структура Sphinx-4 была разработана с высокой степенью гибкости и модульности. На рисунке показана общая архитектура системы. Каждый помеченный элемент на рисунке представляет собой модуль, который может быть легко заменен.
Слайд 21
Структура Sphinx-4
Главными блоками являются:
предварительный анализ,
декодер,
лингвистический модуль.
Слайд 22
Все три составляющие обезательные,
но вместо языковой модели возможно просто описать порядок слов
в jsgf словаре примерно так:
camera.jsgf
#JSGF V1.0;
grammar camera;
public
= ( | );
= ( включить | выключить | отключить );
= ( камеру | видео-камеру );
= [ номер ]
= ( один | два | три | четыре | пять | шесть | семь | восемь | девять );
= ( первую | вторую | третью | четвертую | пятую | шестую | седьмую | восьмую | девятую );
Акустическая модель преобразует звук в фонемы
Словарь пребразует фонемы в слова
Языковая модель помогает построить предложения исходя из порядка слов
Слайд 23
Голосовой калькулятор
Min количество информации:
Поле «А» – 1 символ;
Поле
«В» – 1 символ;
Кнопка «+» или «-».
Вводить информацию можно
с помощью:
Мышки и клавиатуры;
Только клавиатуры, используя клавишу «Tab» для перехода между полями;
Голосовые команды.
Слайд 24
Оценка эффективности
Оценку эффективности и продуктивности интерфейса человека с
системой, который реализован в виде компьютерной программы можно сделать
с помощью оценки времени выполнения операций для достижения целей пользователя.
Математическая модель для оценки временных параметров интерфейсов позволяет прогнозировать время выполнения какой-либо задачи пользователем.
В методике GOMS (the model of goals, objects, methods, and selection rules) расчёт эффективности основывается на понятии ментальных операций и их последовательной расстановке.
Использованы следующие обозначения:
Н(перемещение)=0,4(с),
М (ментальная подготовка)=1,35(с),
К(нажатие клавиши )=0,28(с),
Р(указание)=1,1(с).
Слайд 25
Пример расчет эффективности по методике GOMS
Используем
мышку и клавиатуру, введенные данные без ошибок, значения «А»
и «В» по 1 символу:
НКНРКНКНРК => НМКНМРКНМКНМРМК
4*0,4+5*1,35+4*0,28+2*1,1=11,67(с).
С увеличением количества символов, скорость интерфейса будет снижатся на количество дополнительных n кликов, то есть на n*0,28с.
Слайд 26
Эффективность интерфейсов,
если нет ошибок
Методика GOMS
Экспериментальный метод
Слайд 27
1
Эффективность интерфейсов по методике GOMS,если есть 1-4 ошибки
2
3
4
Слайд 28
Эффективность интерфейсов (экспериментальный метод),
если есть 1-4 ошибки
1
2
3
4
Слайд 29
Вывод
Смешанный тип интерфейса наиболее эффективный для
использования в программных приложениях.