最近在想没有一个图片文字识别的工具呢?我想到了ocr,国内比较牛逼的汉王ocr。那借助python能否实现呢?于是我找啊找查啊查有关python在这方面探讨的资料,发现pytesser 这样一个好玩的程序!拿出来分享讨论一下:
pytesser 是python的一个光学字符识别模块,它结合tesseract ocr引擎来使用 ,能从一个图片或图像文件取出的字符串并输出。
使用pytesser ,你无须安装tesseract ocr引擎,但就必须要先安装pil模块(python image library, python的图形库)
官方介绍说明:
pytesser is an optical character recognition module for python. it takes as input an image or image file and outputs a string.
pytesser uses the tesseract ocr engine, converting images to an accepted format and calling the tesseract executable as an external script. a windows executable is provided along with the python scripts. the scripts should work in other operating systems as well.
pytesser 官方下载地址:http://code.google.com/p/pytesser/downloads/list
pil库资源地址: http://www.pythonware.com/products/pil/
不过,在测试使用过程中,发觉只对英文内容识别较理想,而对中文无法处理识别!
有兴趣的同学可以试验一下