注意事项:一.确认本地python版本,最好2.7以上。确认ctypes和os包在python中
方法:命令行输入python进入python环境
输入import ctypes
help(ctypes)
os同理
二.注意3.0.4和3.0.2的api不同。官网上是3.0.2的版本,使用会报错。
三.找到/etc/ld.so.conf打开后添加一行:/usr/local/lib然后执行/sbin/ldconfig -v
四.注意图片不要放在根目录下,要写绝对路径
代码如下:
- #coding=utf-8
- import os
- import ctypes
-
- lang = "eng+chi_sim" #语言包名称
- filename ="/usr/local/6.jpg" #图片文件位置
- libname ="/usr/local/lib/libtesseract.so.3" #类库的位置,tesseract默认将libtesseract.so.3安装在左侧路径,若不然则使用locate定位这个文件,输入正确的路径位置
-
- TESSDATA_PREFIX ="/usr/local/share" #指定traindata的位置,默认为左侧路径
- tesseract =ctypes.cdll.LoadLibrary(libname) #实例化对象
- api = tesseract.TessBaseAPICreate()
- rc = tesseract.TessBaseAPIInit3(api,TESSDATA_PREFIX, lang)
- if (rc):
- tesseract.TessBaseAPIDelete(api)
- print("Could not initialize tesseract.\n")
- exit(3)
-
- tesseract.TessBaseAPIProcessPages(api,filename, None, 0, None)
- text_out =tesseract.TessBaseAPIGetUTF8Text(api)
- result_text = ctypes.string_at(text_out)
- print(result_text) #输出结果