谷歌的tesseract开源OCR引擎,支持各国语言,包括中文简体,中文繁体。衍生出了大量基于tesseract的项目。
Tesseract支持各种输出格式:纯文本,hocr(html),pdf。
该项目位于:外链网址已屏蔽github.com/tesseract-ocr/tesseract
本文为原创文章:外链网址已屏蔽www.okbase.net/doc/details/484641
关于训练样本,这里有篇文章讲得非常详细:外链网址已屏蔽blog.csdn.net/firehood_/article/details/8433077
tesseract是不包含GUI的,一些使用Tesseract OCR的项目可以在这里找到:
外链网址已屏蔽github.com/tesseract-ocr/tesseract/wiki/User-Projects-%E2%80%93-3rdParty
包括了Android,iOS,Linux, macOS,Windows 下的项目,下面列举了一些Github中人气比较旺的项目:
Python
外链网址已屏蔽github.com/tmbdev/ocropy (基于Python的文档分析和OCR工具)
外链网址已屏蔽github.com/madmaze/pytesseract
外链网址已屏蔽github.com/jflesch/pyocr
外链网址已屏蔽github.com/sirfz/tesserocr
C# .NET
外链网址已屏蔽github.com/charlesw/tesseract
Go
外链网址已屏蔽github.com/tleyden/open-ocr
外链网址已屏蔽github.com/otiai10/gosseract
iOS
外链网址已屏蔽github.com/gali8/Tesseract-OCR-iOS
外链网址已屏蔽github.com/ldiqual/tesseract-ios
外链网址已屏蔽github.com/nolanbrown/Tesseract-iPhone-Demo
外链网址已屏蔽github.com/pablosproject/iPhone-OCR-Tesseract-and-OpenCV
Android
外链网址已屏蔽github.com/rmtheis/tess-two
外链网址已屏蔽github.com/rmtheis/android-ocr
外链网址已屏蔽github.com/yushulx/android-tesseract-ocr
Java
外链网址已屏蔽github.com/nguyenq/tess4j
Javascript
外链网址已屏蔽github.com/naptha/tesseract.js
外链网址已屏蔽github.com/desmondmorris/node-tesseract
Tesseract.js是流行的Tesseract OCR引擎的一个纯Javascript端口。
该库支持超过60种语言(包括中文),自动文本定向和脚本检测,一个用于阅读段落,单词和字符边界框的简单界面。 Tesseract.js可以在浏览器和带有NodeJS的服务器上运行。
Demo请看这里:
PHP
Tesseract OCR 的PHP封装:
外链网址已屏蔽github.com/thiagoalessio/tesseract-ocr-for-php
PHP扩展
外链网址已屏蔽github.com/simplicitylab/php-ocr-extension
Ruby
外链网址已屏蔽github.com/meh/ruby-tesseract-ocr
外链网址已屏蔽github.com/dannnylo/rtesseract
车牌识别
对于车牌识别,这里推荐一个针对车牌识别的基于openCV的开源库EasyPR
外链网址已屏蔽github.com/liuruoze/EasyPR
免责声明:好库网所展示的信息由买卖双方自行提供,其真实性、准确性和合法性由信息发布人负责。好库网不提供任何保证,并不承担任何法律责任。