OCR CuneiForm. Проект Бесплатные советы: скачайте бесплатно программы, обзоры, описания, рекомендации

Итак, установка. В Убунте кстати доступна версия 0.7 из репозитариев. Версия 0.9 является последней на данный момент.
wget http://launchpad.net/cuneiform-linux/0.9/cuneiform-linux-0.9/+download/cuneiform-linux-0.9.0.tar.bz2
tar xvjf cuneiform-linux-0.9.0.tar.bz2
cd cuneiform-linux-0.9.0
mkdir builddir
cd builddir
cmake -DCMAKE_BUILD_TYPE=debug ..
make
make install
Дополнительный аргумент "-DCMAKE_INSTALL_PREFIX=/your/dir" установит cuneiform в нужную директорию.
Запускать можно со следующими аргрументами:

L
Указывает язык документа. Из возможных: eng(по умолчанию) ger fra rus swe spa ita ruseng ukr srp hrv pol dan por dut cze rum hun bul slo lav lit est tur.

O
Сохраняет в файл.

F
Формат полученного текста. Из поддерживаемых: text(по умолчанию), html, rtf, smarttext(plain text with TeX paragraphs), hocr(hOCR HTML format), native(Cuneiform 2000 format)

Dotmatrix
Оптимизация работы скрипта под изображение, распечатанное с помощью матричного принтера.

Fax
Оптимизация работы скрипта под изображение, распечатанное с помощью факса.

Singlecolumn
Отключает анализ страницы и подразумевает, что у нас изображение состоит из одной колонки текста.

Пример использования:
cuneiform -l ruseng -o /our/dir/text.txt /our/dir/book_1.tif

GUI

Далее захотелось уже графический интерфейс под бытовые нужды. Есть 2 штуки на выбор - это YAGF и :

Было решено пользовать YAGF. Он тоже написан на qt и требует еще пакет проверки орфографии aspell . Скачиваем, устанавливаем.

CuneiForm – бесплатная утилита, предназначенная для быстрого преобразования изображения в текстовый формат. Программа находит свое применение во многих сферах: в школах, в университетах, офисной работе, при оцифровке старых архивов, книг и прочих документов.

CuneiForm OpenOCR – лучшая альтернатива Abbyy Finereader

Чем же данный инструмент лучше Finereader для обычного пользователя? Прежде всего, бесплатностью. Стоимость вышеупомянутого софта составляет 5776 рублей, в то время, как за CuneiForm OpenOCR вы не платите ровным счетом ничего. Просто устанавливаем и пользуемся. Кстати, скачать CuneiForm вы сможете прямо на данной странице (внизу мы разместили ссылку на официальную версию программы). Сразу после установки открываем наш распознаватель и читаем небольшую инструкцию к нему:

Итак, как происходит преобразование картинки в текст? В данной программе будет очень просто работать и новичку, и профессионалу, ведь для распознавания нужно сделать всего пару действий. Во-первых, вам необходимо какое-то изображение (любого формата – PNG, BMP, JPEG и т.п.), поэтому открываем нужный объект.

Во-вторых, необходимо нажать на кнопку «Распознать». Далее, в CuneiForm запускается процесс распознавания текста. Это, как правило, происходит очень быстро, только в редких случаях нужно ждать больше 5-10 секунд.

После того, как инструмент распознал текст, открывается ваш стандартный текстовый редактор — Word, WordPad и т.п. Кстати, здесь же можно отредактировать полученный текст, ибо далеко не всегда утилита выдает точный результат, особенно при обработки испорченных, старых страниц.

Также далеко не всегда CuneiForm OpenOCR может выделить области текста, т.е. таблицы, абзацы, заголовки и прочие разделы. В такой ситуации вам необходимо вручную выполнить разметку страницы, для этого создан отдельный, удобный инструмент.

Для большего удобства разработчики добавили функцию сканирования. Ты просто кладешь в МФУ или сканер какой-то документ или книгу, сканируешь нужный участок, а после Кьюниформ автоматически преобразовывает текст в изображение — очень полезный инструмент.

Общих параметров здесь не так много, можно настроить всего 3 – разметка, сканирование и форматирование, но это компенсируется тем, что можно настраивать каждый модуль отдельно, так что пользователь все может настроить под себя. Кстати, сама утилита достаточно простая и совместима с любой ОС:

  • Windows XP;
  • Windows Vista, 7;
  • Windows 8, 8.1 и 10;
  • Mac OS;
  • Linux и другие.

Чтобы скачать CuneiForm бесплатно на русском, посетите официальный сайт разработчиков, там вы получите полную информацию о программе. Если вы уже поняли, как с ней работать, то просто нажмите на зеленую кнопку, и тогда вы получите отличный распознаватель текста, скачав его с официального сайта без вирусов и СМС-подписок.

Сегодня я расскажу и научу вас распознавать текст с картинок. Также для тех, кому нужна была программа для распознавания текста , ниже я предлагаю скачать русскую версию программы CuneiForm 12. А сейчас я более подробно расскажу, как с ней работать.

Зачем нужно распознавать тексты?

Например, вам задали написать доклад или реферат, полазив в интернете, вы нечего путного не нашли. Потом сходили в библиотеку и взяли книгу по теме доклада, но нужного текста в книге много и перепечатывания такого объема может занять у вас всё свободное время. Вот в таких случаях приходит на помощь программа CuneiForm 12 , от вас требуется от сканировать нужные страницы книги, а потом с помощью программы извлечь из картинок текст. Хочу заметить, что всё происходит очень быстро.

Программа для распознавания текста

Как я писал выше, мы будем работать с программой CuneiForm 12. Чем же она лучше других?

  • CuneiForm бесплатная , например программа ABBYY FineReader стоит 3990 рублей.
  • Высокая скорость работы и качество распознавания.
  • Распознавание текстов на 20 языках, в том числе смешанном русско-английском.
  • Работа с рисунками и таблицами.
  • Простота использования и интуитивно понятный интерфейс.
  • А также множество технических усовершенствований.

Но недостатки также имеются, так как это программа русских разработчиков, то красивым дизайном она не выделяется, но для меня главное, то что она правильно распознает текст.

Как работать с программой CuneiForm 12

После загрузки и установки программы, запустите CuneiForm 12. Вы должны увидеть вот такое окошко:

  1. Выбор картинки, с которой будет распознаваться текст.
  2. Выбор принтера.
  3. Кнопка «Распознавания».
  4. Кнопка «Сохранить».

Нажимаем на первую кнопку и выбираете нужную картинку или от сканированную страницу. В следующем окне выбираете язык текста, который находиться у вас на картинке. Следующие настройки не так важны, можете их пролистать.

После распознавания у вас должно появиться вот такое окошко:

В верхней части будет распознанный текст с выделенными ошибками, а ниже исходное изображение. Как вы видите, моя картинка была плохого качества, неровная, но программа распознала всё отлично. Кстати как видно на рисунке выше программа предлагает три варианта развития событий.

  • Оставить для редактирования.
  • Сохранить на диск.
  • Экспортировать в Word или в Excel.

Готово, теперь вы знаете, как это делается и у вас появилась программа распознавания текста со сканера.

Название программы : OCR CuneiForm

Версия : 12

Размер : 33,4 Мб

Язык : несколько языков в т.ч. русский

Тип программы : распознавание текста

Лицензия : свободная с открытым кодом

Описание программы

OCR CuneiForm может распознавать любые полиграфические, машинописные гарнитуры всех начертаний и шрифты, получаемые с принтеров за исключением декоративных и рукописных. В систему встроены специальные алгоритмы для распознавания текста с матричного принтера, плохих ксерокопий факсов и машинописи.

OCR CuneiForm это:

  • высокое качество распознавания;
  • высокая скорость работы;
  • распознавание текстов на русском, английском, смешанном русско-английском, украинском, немецком, французском, испанском, итальянском, шведском и других (всего более 20);
  • работа в режиме автофрагментации для поиска текстовых блоков, таблиц и изображений, а также мощное средство ручной и полуавтоматической фрагментации;
  • распознавание таблиц любой структуры и сложности, в том числе и без отображения линий табличной сетки;
  • автоматическое сохранение иллюстраций (черно-белых и цветных) и таблиц в получаемом на выходе документе;
  • полное сохранение топологии страницы;
  • поддержка пакетного режима сканирования и распознавания;
  • простота использования и интуитивный интерфейс, встроенные помощники по работе с программой;
  • встроенный текстовый редактор для работы с распознанным текстом;
  • совмещенный показ изображений и результатов распознавания.

В системе используется целый ряд уникальных технологий, среди которых адаптивное распознавание, нейронные сети, когнитивный анализ альтернатив распознавания и другие.

Вопросы и ответы по программе

Что такое CuneiForm? CuneiForm - это система оптического распознавания крупнейшего российского разработчика программного обеспечения Cognitive Technologies, которая обеспечивает быстрое и высококачественное преобразование бумажных документов и электронных графических файлов, получаемых, например, со сканера или факса, в редактируемый текст для последующей работы с ним в текстовых редакторах.

Для кого предназначена OCR CuneiForm? Система распознавания текстов CuneiForm предназначена для всех, кому приходится вводить в компьютер факсы, книги, газеты, машинописные страницы, тексты договоров и т.д. Для работы с системой достаточно положить страницу с текстом в сканер, нажать кнопку, и через несколько секунд Вы получите готовый результат в многофункциональном текстовом редакторе.

Какие шрифты распознает OCR CuneiForm, требуется ли обучение? CuneiForm - шрифтонезависимая (OmniFont) система. Алгоритмы, заложенные в CuneiForm, исходят из правил написания букв, из их топологии, и не требуют задания каких-либо эталонов, или обучения.

В системе используется технология интеллектуального самообучения на базе адаптивного распознавания символов.

Распознаются любые печатные шрифты - книги, газеты, журналы, распечатки с лазерных и матричных принтеров, тексты с пишущих машинок и т.п.

Не распознается рукописный текст и декоративные шрифты (готический, стилизованный под рукописный).

В CuneiForm существуют специальные настройки для распознавания текстов с матричного принтера и факсов 200x100 dpi.

Чем OCR CuneiForm отличается от других подобных программ?

  • качеством распознавания;
  • высокой скоростью работы;
  • использованием уникальных технологий, таких как адаптивное распознавание, нейронные сети, когнитивный анализ альтернатив распознавания и других;
  • простой использования и интуитивным интерфейсом;
  • функциональным наполнением, наличием многих дополнительных возможностей.

Поддерживает ли OCR CuneiForm работу с таблицами? Да. Программа автоматически находит в тексте таблицы различной структуры, в том числе без линий разграфки. Встроенный редактор поддерживает редактирование таблиц (можно уменьшать/увеличивать, удалять/создавать колонки и т.д.)

Как OCR CuneiForm отнесется к картинкам в тексте? Как пожелаете. Может просто проигнорировать их присутствие, а может сохранить в выходном документе в черно-белом, сером или цветном виде, в зависимости от вашего желания.

Ссылки для загрузки

  • Скачать установочную версию с depositfiles.

Информация взята с официального сайта программы

Дата добавления обзора: 05.07.2009 г.

Информация об OCR CuneiForm:

OCR CuneiForm может распознавать любые полиграфические, машинописные гарнитуры всех начертаний и шрифты, получаемые с принтеров за исключением декоративных и рукописных. В систему встроены специальные алгоритмы для распознавания текста с матричного принтера, плохих ксерокопий факсов и машинописи.

OCR CuneiForm это:

  • высокое качество распознавания;
  • высокая скорость работы;
  • распознавание текстов на русском, английском, смешанном русско-английском, украинском, немецком, французском, испанском, итальянском, шведском и других (всего более 20);
  • работа в режиме автофрагментации для поиска текстовых блоков, таблиц и изображений, а также мощное средство ручной и полуавтоматической фрагментации;
  • распознавание таблиц любой структуры и сложности, в том числе и без отображения линий табличной сетки;
  • автоматическое сохранение иллюстраций (черно-белых и цветных) и таблиц в получаемом на выходе документе;
  • полное сохранение топологии страницы;
  • поддержка пакетного режима сканирования и распознавания;
  • простота использования и интуитивный интерфейс, встроенные помощники по работе с программой;
  • встроенный текстовый редактор для работы с распознанным текстом;
  • совмещенный показ изображений и результатов распознавания.

Основные возможности OCR CuneiForm

1. ИНТЕРФЕЙС

Интерфейс программы содержит выпадающие контекстные меню, панели быстрого доступа, контекстную помощь.

2. СКАНИРОВАНИЕ

  • Автоматический подбор оптимальных параметров сканирования.
  • Возможность импортирования отсканированных или полученных через факс-модем графических файлов во многих форматах.
  • Обработка изображений: печать образа, инвертирование, поворот.

3. ФРАГМЕНТАЦИЯ

  • Автоматический и полуавтоматический режимы поиска блоков текста, таблиц и графики, который обеспечивает большую гибкость при работе с многоколоночными текстами и текстами сложной структуры и с графическими элементами.
  • Режим ручной фрагментации для работы с текстами особо сложной структуры.

4. РАСПОЗНАВАНИЕ

  • CuneiForm распознает любые полиграфические, машинописные гарнитуры всех начертаний и шрифты, получаемые с принтеров за исключением декоративных и рукописных. В систему встроены специальные алгоритмы для распознавания текста с матричного принтера, печатной машинки, плохих ксерокопий и факсов.
  • Самообучающиеся адаптивные алгоритмы распознавания повышают вероятность распознавания низкокачественных документов.

5. ЯЗЫКОВАЯ ПОДДЕРЖКА

Система распознает русский, английский, смешанный русско-английский, украинский, немецкий, французский, испанский, португальский, итальянский, голландский, датский, шведский, финский, сербский, хорватский, польский, казахский, узбекский и другие языки.

6. СЛОВАРНЫЙ КОНТРОЛЬ

  • Словарь общеупотребительной лексики каждого поддерживаемого языка для контекстной проверки и повышения качества результатов распознавания.
  • Возможность создания и пополнения пользовательского словаря, а также возможность экспорта/импорта словаря в/из текстовых файлов.

7. РЕАЛИЗАЦИЯ ПРИНЦИПА "What You Scan Is What You Get" ("Что Вы сканируете, то и получаете").

CuneiForm позволяет получить полную копию вводимого документа, включая:

  • Шрифтовое оформление и форматирование.
  • Расположение текста, иллюстраций и таблиц.
  • Колонки, абзацы, отступы, стили и размеры шрифтов.
  • Черно-белые, 256-градационные серые и цветные 24-битные иллюстрации в выходном RTF-файле.

8. РАБОТА С ТАБЛИЦАМИ

  • Распознавание таблиц различной структуры, в том числе и без линий разграфки.
  • Редактирование таблиц (уменьшение/увеличение, удаление/создание колонок и т.д.)
  • Сохранение результатов в распространенных табличных форматах.

9. РЕДАКТИРОВАНИЕ

В программу встроен многофункциональный редактор, не уступающий по своим возможностям популярным текстовым процессорам.

  • Одновременная подсветка распознанного текста и исходного изображения, снабженная функцией "следующий/предыдущий сомнительно распознанный".
  • Поддержка иллюстраций, таблиц, колонок, колонтитулов, сложного форматирования и различных шрифтов.
  • Возможность редактирования текстовых документов популярных форматов.

10. ИНТЕГРАЦИЯ С ДРУГИМИ ПРИЛОЖЕНИЯМИ

Опции командной строки и поддержка Drag&Drop для вызова из внешних приложений, сканирования, распознавания и сохранения результатов в автоматическом режиме.

Скачать программу OCR CuneiForm (.zip-файл, 33,3 Мб.) Обратите внимание на вес файла!!!