бесплатные DNS, почта, Private Person

Распознавание текста в Ubuntu

Tesseract и русский текст

Пакет tesseract входит в поставку Ubuntu. Инструкция рассчитана на версию пакета 3.00 и выше.

  1. Откроем консоль (Ctrl+Alt+T).
  2. Убедимся, что установлена версия Tesseract 3.00 или выше:
    1
    tesseract -v
  3. Выберем произвольный каталог, доступный для записи, например:
    1
    cd ~/Загрузки
  4. Скачаем архив с файлом, который «обучит» Tesseract русскому языку:
    1
    wget https://tesseract-ocr.googlecode.com/files/rus.traineddata.gz
  5. Распакуем архив:
    1
    gunzip rus.traineddata.gz
  6. Переместим файл в каталог tessdata внутри каталога Tesseract (согласно инструкции):
    1
    sudo mv rus.traineddata /usr/share/tesseract-ocr/tessdata/

Используем Tesseract!

Единственный графический формат, воспринимаемый Tesseract,—?это TIFF. Если у вас изображение в другом формате и под рукой нет GIMP, то воспользуйтесь возможностями консоли:

1
convert -separate example.png example.tif

Осталось вызвать Tesseract, передав ему пути ко входному (example.tif) и выходному (output) файлам и идентификатор языка документа:

1
tesseract example.tif output -l rus

Распознанный текст будет сохранён в файле output.txt.