Распознание текста
Для распознания текста я использую прогрумму OCRFeeder
ocrfeeder tesseract-ocr-rus
Запускаю я приложение через терминал, командой: ocrfeeder.
Работа с приложением
Загружаете или импортируете изображение, выделяете необходимые для текста области, указываете и изображения и в дальнейшем распознаёте по блокам. Таблицу я распознавал так-же по блокам.
Если вы будете распознавать по страницам или документам в блоках могут возникнуть ошибки. Контролируйте этот процесс.
По умолчанию за основу для распознания берётся язык системы, если вам необходимо его изменить, проходите по адресу: Правка - Настройки - Распознание - Default language.
Если на одной и той-же странице вам необходимо распознать 2 блока с разными языками, можно в параметрах блока изменить язык. При выделении справа появляется блок Misc. Там можно настроить язык.
Конечный файл я экспортирую в ODT.