您当前的位置:首页 > 计算机 > 编程开发 > Python

linux开发环境Python调用Tesseract-OCR 3.0.4

时间:07-17来源:作者:点击数:

注意事项:一.确认本地python版本,最好2.7以上。确认ctypes和os包在python中

方法:命令行输入python进入python环境

输入import ctypes

help(ctypes)

os同理

二.注意3.0.4和3.0.2的api不同。官网上是3.0.2的版本,使用会报错。

三.找到/etc/ld.so.conf打开后添加一行:/usr/local/lib然后执行/sbin/ldconfig -v

四.注意图片不要放在根目录下,要写绝对路径

代码如下:

#coding=utf-8
import os
import ctypes

lang = "eng+chi_sim"                        #语言包名称
filename ="/usr/local/6.jpg"                 #图片文件位置
libname ="/usr/local/lib/libtesseract.so.3"       #类库的位置,tesseract默认将libtesseract.so.3安装在左侧路径,若不然则使用locate定位这个文件,输入正确的路径位置

TESSDATA_PREFIX ="/usr/local/share"           #指定traindata的位置,默认为左侧路径
tesseract =ctypes.cdll.LoadLibrary(libname)       #实例化对象
api = tesseract.TessBaseAPICreate()
rc = tesseract.TessBaseAPIInit3(api,TESSDATA_PREFIX, lang)
if (rc):
   tesseract.TessBaseAPIDelete(api)
   print("Could not initialize tesseract.\n")
   exit(3)

tesseract.TessBaseAPIProcessPages(api,filename, None, 0, None)
text_out =tesseract.TessBaseAPIGetUTF8Text(api)
result_text = ctypes.string_at(text_out)     
print(result_text)                              #输出结果

 

方便获取更多学习、工作、生活信息请关注本站微信公众号城东书院 微信服务号城东书院 微信订阅号
推荐内容
相关内容
栏目更新
栏目热门