Главная / linux ubuntu / Распознание текста

Распознание текста

Для распознания текста я использую прогрумму OCRFeeder

ocrfeeder tesseract-ocr-rus

Запускаю я приложение через терминал, командой: ocrfeeder.

Работа с приложением

Загружаете или импортируете изображение, выделяете необходимые для текста области, указываете и изображения и в дальнейшем распознаёте по блокам. Таблицу я распознавал так-же по блокам.

Если вы будете распознавать по страницам или документам в блоках могут возникнуть ошибки. Контролируйте этот процесс.

По умолчанию за основу для распознания берётся язык системы, если вам необходимо его изменить, проходите по адресу: Правка - Настройки - Распознание - Default language.

Если на одной и той-же странице вам необходимо распознать 2 блока с разными языками, можно в параметрах блока изменить язык. При выделении справа появляется блок Misc. Там можно настроить язык.

Конечный файл я экспортирую в ODT.