Что такое findslide.org?

FindSlide.org - это сайт презентаций, докладов, шаблонов в формате PowerPoint.

Обратная связь

Презентация на тему Введение в мультимедийные базы данных 12

Содержание

2. Представление аудиоданныхНаступление «цифровой» эпохи: появление CD-дисков в
3. Представление аудиоданныхИллюстрация:
4. Представление аудиоданных б) Квантование (quantization): дискретная
5. Сжатие аудиоВ аналоговом сигнале как правило нет
6. Сжатие аудиоВ) Многополосное кодирование:Частотное разделение сигнала на
7. Сжатие аудиоMPEG-аудио:Частоты дискретизации – 32, 44.1, 48кГц
8. Сжатие аудиоЕ) Психоакустическое кодирование:Возможное дополнение методов В)
9. Извлечение аудиоданных а) На основе метаданных:К речевой
10. Извлечение аудиоданных в) Распознавание говорящего:Сложнее чем распознавание
11. Извлечение аудиоданных г) Индексация аудиоданных:Индексация метаданных (внешних
12. Скачать презентацию
13. Похожие презентации

Представление аудиоданныхНаступление «цифровой» эпохи: появление CD-дисков в 1982 годуЗначительное улучшение в общем качестве звука и отношении «сигнал-шум» относительно лучших аналоговых системДля передачи по сетям данных необходима широкая полоса пропускания Преобразование аналогового сигнала в цифровую

Главная
Информатика
Введение в мультимедийные базы данных 12

Представление аудиоданныхНаступление «цифровой» эпохи: появление CD-дисков в 1982 годуЗначительное улучшение в общем

Представление аудиоданных б) Квантование (quantization): дискретная шкала значений для наблюдаемых амплитудЛинейное

Сжатие аудиоВ аналоговом сигнале как правило нет резких скачков интенсивности; поэтому если

Сжатие аудиоВ) Многополосное кодирование:Частотное разделение сигнала на поддиапозоны (полосы) частотКаждый поддиапазон частот

Сжатие аудиоMPEG-аудио:Частоты дискретизации – 32, 44.1, 48кГц (или половины от них); значения

Сжатие аудиоЕ) Психоакустическое кодирование:Возможное дополнение методов В) и Г)Психоакустика - изучение обработки

Извлечение аудиоданных а) На основе метаданных:К речевой информации могут быть добавлены дополнительные

Извлечение аудиоданных в) Распознавание говорящего:Сложнее чем распознавание речиПриложения: системы безопасностиЧувствительны к физическому

Извлечение аудиоданных г) Индексация аудиоданных:Индексация метаданных (внешних атрибутов):Аналогично индексации текстовых документов: инвертированный

Стандарт MIDIЭкономичный способ кодирования информации о том как воспроизвести музыкуСтандарт с 1983

Слайды презентации

Слайд 2 Представление аудиоданных
Наступление «цифровой» эпохи: появление CD-дисков в 1982

Представление аудиоданныхНаступление «цифровой» эпохи: появление CD-дисков в 1982 годуЗначительное улучшение в

году
Значительное улучшение в общем качестве звука и отношении «сигнал-шум»

относительно лучших аналоговых систем
Для передачи по сетям данных необходима широкая полоса пропускания

Преобразование аналогового сигнала в цифровую форму (аналого-цифровое преобразование):
Линейная импульсно-кодовая модуляция (ИКМ) (PCM)
Двухэтапный процесс:
а) Дискретизация (sampling): замер амплитуды сигнала через равные промежутки времени; типичные частоты дискретизации – 32, 44.1, 48кГц (или половины от них)
Теорема Уиттакера-Найквиста-Котельникова-Шеннона (или просто теорема Котельникова :): аналоговый сигнал со спектром, ограниченным частотой Fmax, может быть однозначно и без потерь восстановлен по своим дискретным отсчётам, взятым с частотой fдискр = 2* Fmax; человеческое ухо ≈ 20...20 000Гц

Слайд 3 Представление аудиоданных
Иллюстрация:

Слайд 4 Представление аудиоданных
б) Квантование (quantization): дискретная шкала

значений для наблюдаемых амплитуд
Линейное квантование: одинаковые шаги квантования
Адаптивное квантование:

величина шага зависит от свойств сигнала
Неравномерное квантование: неодинаковые величины шагов в зависимости от диапазона амплитуд на различных участках сигнала
Типичное квантование: 16 бит на значение, что дает 65536 различных значений
Вместе с частотой дискретизации 44.1кГц и двумя (стерео) каналами получим: 2 x 16 x 44 100 ≈ 1.4 Мбит/с

Цифро-аналоговое преобразование:
Погрешность дискретизации значений амплитуд ведет к искажению восстанавливаемого сигнала (шум дискретизации по амплитуде)
В целом, достаточно точное приближение к изначальному сигналу

Слайд 5 Сжатие аудио
В аналоговом сигнале как правило нет резких

Сжатие аудиоВ аналоговом сигнале как правило нет резких скачков интенсивности; поэтому

скачков интенсивности; поэтому если кодировать не саму амплитуду сигнала,

а ее изменение по сравнению с предыдущим значением, то можно обойтись меньшим числом разрядов

А) Дельта-модуляция:
Крайне простой подход, иногда используется для кодирования речи
Одноразрядное квантование
Следующее значение апроксимируется предыдущим значением ± Δ (Δ может быть фиксированной или адаптивно-настраиваемой)

Б) Адаптивная дифференциальная импульсно-кодовая модуляция (ADPCM):
Используется преимущественно для сжатия речи
Следующее значение предсказывается на основе предшествующих значений
Шаг квантования может адаптивно-настраиваться
Рекомендация ITU-T G.726 (кодирование речи):
8000 значений в секунду; 5, 4, 3, или 2 бита на значение
40, 32, 24 или 16 Кбит/с соответственно (PCM-сигнал (речь) – 8бит на 8000 значений в секунда, что дает 64 Кбит/с)

Слайд 6 Сжатие аудио
В) Многополосное кодирование:
Частотное разделение сигнала на поддиапозоны

Сжатие аудиоВ) Многополосное кодирование:Частотное разделение сигнала на поддиапозоны (полосы) частотКаждый поддиапазон

(полосы) частот
Каждый поддиапазон частот кодируется независимо
Рекомендация ITU-T G.722:
Речь с

высоким качеством со скоростью передачи 64Кбит/с: может разделяться на два канала – основной и вспомогательный: 56 + 8 или 48 + 16 Кбит/с
Диапазон исходного сигнала – от 50 до 7000 Гц
16000 значений в секунду
14-битный квантизатор
Два поддиапазона: 0-4 кГц и 4-7 кГц
Окончательное кодирование с помощью ADPCM

Слайд 7 Сжатие аудио
MPEG-аудио:
Частоты дискретизации – 32, 44.1, 48кГц (или

Сжатие аудиоMPEG-аудио:Частоты дискретизации – 32, 44.1, 48кГц (или половины от них);

половины от них); значения помещаются во фреймы (384/576/1152 значения

на фрейм) и далее обрабатываются фреймы
32 фильтра, каждый с шириной полосы в 1/64 от частоты дискретизации
Изменяемые шаги квантования (переменная скорость потока): каждый фрейм может кодироваться разным числом бит
Скорости сжатого потока (MPEG-1 Layer 3) – от 32 до 320 Кбит/с (вспомним: скорость для CD - 1.4 Мбит/с)
Достаточно хорошее качество звука при скоростях от 128 Кбит/с
MPEG Layer I: устарел
MPEG Layer II (MP2): аудиовещание (цифровые радио и телевидение)
MPEG Layer III (MP3): компьютерные/интернет-приложения
Г) Кодирование с преобразованием:
Одномерное дискретное косинус-преобразование (DCT)
MPEG Layer III: модифицированное DCT к поддиапазонам частот

Слайд 8 Сжатие аудио
Е) Психоакустическое кодирование:
Возможное дополнение методов В) и

Сжатие аудиоЕ) Психоакустическое кодирование:Возможное дополнение методов В) и Г)Психоакустика - изучение

Г)
Психоакустика - изучение обработки звуков мозгом человека
Используются знания о

том какие свойства не имеют большого значения для человеческого уха
Большие амплитудные значения (громкий звук) на одной частоте влияют на воспринимаемость соседних частот
Определенные диапазоны частот более важны
Акустически-маловажные части аудиосигнала могут не рассматриваться: использовать меньшее число бит (больший шаг квантования) для менее значимых поддиапазонов
MPEG: психоакустические модели 1 и 2
Работают с Layer I-III
Обработка по 512/1024 значений
Более сложная модель 2 специально разработана для Layer III; используется Фурье-преобразование
С точки зрения человеческого восприятия - сжатие без потерь

Слайд 9 Извлечение аудиоданных
а) На основе метаданных:
К речевой информации

Извлечение аудиоданных а) На основе метаданных:К речевой информации могут быть добавлены

могут быть добавлены дополнительные атрибуты (как к изображениям или

видео), например: источник речи (диктор), дата, продолжительность, композитор, оркестр, инструмента и т.д.
Атрибуты могут быть приписаны ко всей аудиопоследовательности или только к ее определенным частям
Можно использовать стандартные методы извлечения документов
б) Распознавание речи:
Пример приложения: распознавание голосовых команд пользовательским интерфейсом; «цифровой дом» - расдвинуть шторы, включить свет; распознавание путем нахождения ближайших волновых форм (нечёткая определённость)
Более сложные приложения: грамматический разбор произнесенного и преобразование, например, в запрос к бд; может дополняться методами обработки естественного языка; обычно используется предопределенный набор образцов-шаблонов
Продвинутые приложения: преобразование практически произвольной речи в текст, на основе образцов и фонетических правил

Слайд 10 Извлечение аудиоданных
в) Распознавание говорящего:
Сложнее чем распознавание речи
Приложения:

Извлечение аудиоданных в) Распознавание говорящего:Сложнее чем распознавание речиПриложения: системы безопасностиЧувствительны к

системы безопасности
Чувствительны к физическому состоянию говорящего (например, при гриппе

может искажаться тембр голоса)
Вариации:
Текстозависимое распознавание (простейшее):
Ограниченный набор возможных слов/предложений
Сравнение волновых форм
Текстозависимое распознавание (более сложное):
Может основываться, например, на распознавании основного
тона голоса
Должны храниться более сложные речевые образцы
пользователей
Сложные верификационные алгоритмы сверяют
произнесенное с хранящимися образцами

Слайд 11 Извлечение аудиоданных
г) Индексация аудиоданных:
Индексация метаданных (внешних атрибутов):
Аналогично

Извлечение аудиоданных г) Индексация аудиоданных:Индексация метаданных (внешних атрибутов):Аналогично индексации текстовых документов:

индексации текстовых документов: инвертированный индекс, сигнатурные файлы и т.д.
Индексация

аудиосигнала:
Сначала, разбить на сегменты (фреймы)
Преобразование (например, DCT)
Индекс (возможно многомерный) по группам наиболее важных коэффициентов; запросы по близости (ближайший сосед, k ближайших соседей)
Затруднение: выравнивание сегментов

- Предыдущая Наше место под Солнцем. Что на Земле зависит от Солнца и как

Следующая - Санкт – Петербург

WI - FI 195

Принтеры 220

Презентация по информатике на тему Построение таблиц истинности 204

Бэкап 262

Формирование понятия отрицания презентация к уроку по информатике (старшая, подготовительная группа) 224

Данные 203

Глобальные информационные сети 167

Исторические шифры 179

Понятие и и сущность информационной безопасности 192

Розробка системи для виявлення та доповнення вподобань користувача 148

Компьютерная зависимость. Ее причины и последствия 134

Телесюжет 230

Word и Таблицы 175

Презентация по информатике на тему Программное обеспечение персонального компьютера 153

ТИПЫ СЕТЕВЫХ АДРЕСОВ 190

WEB 2.0 211

Основные ошибки при создании продающего сайта 165

Документированная информация и её свойства 224

Системы счисления 189

Средства связи 155

Управление целостностью данных. (Лекция 5) 167

Правила безопасности в Интернете 196

Операционные системы, среды и оболочки. Ввод-вывод. Файловая система. (Лекция 4) 199

Компьютерные вирусы и антивирусные программы 156

Что такое findslide.org?

Обратная связь

Презентация на тему Введение в мультимедийные базы данных 12

Содержание

Слайд 2 Представление аудиоданныхНаступление «цифровой» эпохи: появление CD-дисков в 1982

годуЗначительное улучшение в общем качестве звука и отношении «сигнал-шум»

Слайд 3 Представление аудиоданныхИллюстрация:

Слайд 4 Представление аудиоданных б) Квантование (quantization): дискретная шкала

значений для наблюдаемых амплитудЛинейное квантование: одинаковые шаги квантованияАдаптивное квантование:

Слайд 5 Сжатие аудиоВ аналоговом сигнале как правило нет резких

скачков интенсивности; поэтому если кодировать не саму амплитуду сигнала,

Слайд 6 Сжатие аудиоВ) Многополосное кодирование:Частотное разделение сигнала на поддиапозоны

(полосы) частотКаждый поддиапазон частот кодируется независимоРекомендация ITU-T G.722:Речь с

Слайд 7 Сжатие аудиоMPEG-аудио:Частоты дискретизации – 32, 44.1, 48кГц (или