Слайд 2
Optical Character Recognition — OCR-системы предназначены для автоматического
ввода печатных документов в компьютер.
Системы оптического распознавания текста (OCR)
Слайд 3
Современные программы распознавания текста обеспечивают проверку орфографии, автоматическое
форматирование текста и массу других дополнительных удобств.
Слайд 4
ВОЗМОЖНОСТИ ПРОГРАММЫ FINEREADER
Слайд 5
FineReader
Омнифонтовая система оптического распознавания текстов.
Позволяет распознавать тексты,
набранные практически любыми шрифтами.
Слайд 6
Особенности программы FineReader
Высокая точность распознавания и малая
чувствительность к дефектам печати, что достигается благодаря применению технологии
«целостного целенаправленного адаптивного распознавания».
Слайд 7
Программа позволяет
распознавать с высокой точностью тексты более
чем на 175 языках,
выводить на печать исходное изображение
и распознанный текст,
сохранять отсканированное изображение в различных форматах,
настраивать панели инструментов программы.
Слайд 8
Программные продукты ABBYY FineReader
FineReader Sprint,
FineReader 6.0
Professional,
FineReader 6.0 Corporate Edition,
ABBYY FineReader 5.0 Pro for
Mac.
Слайд 10
Сложность машинного распознавания текстов заключается в том, что
его невозможно построить по жесткому алгоритму хотя бы потому,
что для написания одной и той же буквы существует множество вариантов написания.
Слайд 11
Принцип целостности
Распознаваемое изображение рассматривается как единый объект, состоящий
из частей, связанных между собой пространственными соотношениями.
Слайд 12
Принцип целенаправленности
Распознавание строится как процесс выдвижения и целенаправленной
проверки гипотез об объекте, а принцип адаптивности подразумевает способность
системы к самообучению.
Слайд 13
Для выдвижения гипотез о том, что может представлять
собой изображение, применяются так называемые признаковые классификаторы.
Слайд 14
Признаковые классификаторы
Используют ряд признаков, на основе которых программа
вычисляет степень близости распознаваемого изображения и известных ей классов
изображений, после чего выдает список подходящих классов, т. е. гипотезу о принадлежности объекта к тому или иному классу.
Слайд 15
Признаковые классификаторы применяются также и для повышения точности
распознавания изображений с дефектами.
Слайд 16
Полученный набор классов последовательно проверяется структурным классификатором, анализирующим
каждый символ.
Слайд 17
Структурный эталон
Описывает символ как комбинацию структурных элементов (отрезок,
дуга, кольцо, точка), находящихся в определенных отношениях между собой.
Слайд 18
Процесс распознавания
Делится на этапы выделения структурных элементов в
изображении и сопоставлении их с эталоном.
Слайд 19
Если в окончательный список попало более одной гипотезы,
они попарно сравниваются с помощью дифференциальных классификаторов.
Слайд 20
Если структурный классификатор при распознавании символов не может
однозначно выбрать одну из двух букв с похожим написанием,
то между этими конкурирующими гипотезами делается дифференциальный выбор.
Слайд 21
С завершением работы дифференциального классификатора заканчивается распознавание и
начинается этап проверки итогового списка гипотез.
Слайд 22
Окончательная стадия распознавания
Осуществляется системой контекста — при наличии
некоторого количества распознанных букв из слова программа, используя словарь,
может «догадаться», что это за слово.
Слайд 23
ОРГАНИЗАЦИЯ РАБОТЫ В FINEREADER
Слайд 24
Пакет
Является основой работы FineReader.
Содержит всю информацию о
распознаваемом документе.
Представляет собой набор страниц документа и может
содержать около тысячи страниц.
Слайд 25
В один пакет для удобства работы рекомендуется объединять
изображения, логически связанные между собой, например страницы одной книги.
Слайд 26
В окне Пакет виден список страниц, входящих в
открытый пакет.
Для просмотра страницы нужно щелкнуть мышью по
ее изображению или номеру, при этом откроются файлы, которыми данная страница представлена в пакете.
Слайд 27
Страницы в окне Пакет могут быть представлены пиктограммами
или уменьшенным изображением страницы.
Слайд 28
Если исходное изображение представляет собой негатив, оно может
быть инвертировано, далее производится очистка от «мусора» — мелких
дефектов изображения.
Слайд 29
Если не нужна цветность, то цветные изображения сводятся
к черно-белым, что экономит место на диске и ускоряет
процесс распознавания.
Слайд 30
Анализ макета страниц пакета
FineReader анализирует ориентацию страницы и
переворачивает изображение, если это необходимо, а также выделяет блоки
- области, которые при дальнейшем анализе будут интерпретироваться как текст, таблицы или рисунки.
Слайд 31
Распознавание текста и таблиц
Является «сердцем» FineReader и обеспечивает
ее уникальность, однако этот процесс совершенно незаметен пользователю.
Слайд 32
Проверка правописания
«На суд» пользователя выносятся слова, которых нет
в словаре системы, а также символы, в точности распознавания
которых программа не уверена.
Слайд 33
Сохранение и экспорт результатов распознавания
Вся информация, включая распознанный
текст и его форматирование, автоматически сохраняются в пакете вместе
с исходным изображением и сведениями о макете страниц.
Слайд 35
Для сканирования изображения документа кладем на стекло сканера
страницу с текстом или книгу и нажимаем кнопку Сканировать
(Scan) или в меню Файл выберем пункт Сканировать.
Слайд 36
Качество распознавания
Зависит от того, насколько хорошее изображение получено
при сканировании, что достигается установкой основных параметров сканирования —
типа изображения, разрешения и яркости.
Слайд 37
Черно-белый тип изображения обеспечивает более высокую скорость сканирования,
но при этом теряется часть информации о буквах, что
может привести к ухудшению качества распознавания на документах среднего и низкого качества печати.
Слайд 38
Настройки
инвертирование изображения,
очистку от «мусора»,
автоматическое определение ориентации
текста на изображении.
Слайд 39
При распознавании изображение должно иметь стандартную ориентацию, т.
е. текст должен читаться сверху вниз и строки должны
быть горизонтальными.
Слайд 40
После завершения сканирования изображение окажется включенным в конец
пакета, если не активна опция Запрашивать номер страницы перед
добавлением в пакет, а его пиктограмма отобразится на панели пакета.
Слайд 42
Определение ориентации текста при установке соответствующей опции производится
автоматически, хотя можно сделать это и вручную путем поворота
исходного изображения.
Слайд 43
отдельными блоками выделяются таблицы и рисунки, которые не
подлежат распознаванию;
четкое выделение блоков позволяет максимально корректно сохранить
макет исходной страницы при передаче распознанного документа во внешние приложения.
Слайд 44
Блоки
Заключенные в рамки участки изображения.
Блоки выделяют для
того, чтобы указать программе, какие участки отсканированной страницы надо
распознавать и в каком порядке.
Также по ним воспроизводится исходное оформление страницы.
Слайд 45
Типы блоков
зона распознавания,
текст,
таблица,
картинка,
штрих-код.
Слайд 46
Графики с подписями осей
FineReader отдает предпочтение тексту
и выделяет подписи как текстовый блок, оставляя сам график
без внимания или же выделяя как рисунок какую-либо его часть.
Слайд 47
Сложные математические или химические формулы
При работе с
документами, содержащими формулы, их приходится выделять как рисунки.
Слайд 48
Плохой оригинал
Подобные ошибки могут быть исправлены на
этапе работы с макетом, поскольку сделать это проще, чем
впоследствии редактировать готовый текст.
Слайд 49
Изменять размеры или форму существующих блоков можно, потянув
мышью за их границы.
Слайд 50
Изменить тип блока позволяет «всплывающее» меню, появляющееся после
щелчка мышью по пиктограмме в углу блока, обозначающего его
тип.
Слайд 52
Задача распознавания
Преобразовать отсканированное изображение в текст, сохранив при
этом оформление страницы.
Слайд 53
Язык, на котором будет проводиться распознавание, выбирается на
основной панели инструментов.
Слайд 54
Помимо языка оригинала, модуль распознавания учитывает и тип
печати, который по умолчанию определяется автоматически, но при необходимости
может быть установлен и вручную.
Слайд 55
ПРОВЕРКА ПРАВОПИСАНИЯ
И СОХРАНЕНИЕ РЕЗУЛЬТАТОВ РАБОТЫ
Слайд 56
Модуль распознавания анализирует не только отдельные символы, но
и целые слова, используя при этом встроенный словарь.
Слайд 57
Работа со словами, неизвестными системе, и с неуверенно
распознанными символами осуществляется в модуле проверки правописания.
Слайд 58
После окончания проверки правописания следует определить, в каком
формате сохранять полученные результаты.
Слайд 60
Предварительное сканирование позволяет
выделить мышью область сканирования;
выбрать режим сканирования;
выставить
параметры яркости, контраста или выбрать автоматическое определение этих параметров;
запустить
основное сканирование.
Слайд 61
Подбор настроек сканера уменьшает количество неверно распознанных букв
до вполне приемлемого качества сканирования и распознавания.