博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
ubuntu 12.04 下安装 PyTesser 进行OCR识别 - 从波 - 博客园
阅读量:5858 次
发布时间:2019-06-19

本文共 1009 字,大约阅读时间需要 3 分钟。

安装所需的库

sudo apt-get install libpng12-devsudo apt-get install libjpeg62-devsudo apt-get install libtiff4-devsudo apt-get install gccsudo apt-get install g++sudo apt-get install automake

 

pytesser 调用了 tesseract,因此需要安装 tesseract,安装 tesseract 需要安装 leptonica,否则编译tesseract 的时候出现 "configure: error: leptonica not found"。

 

以下都是解压编译安装的老步骤:

./configuremake -j4sudo make install

 

下载安装leptonica

 或者

最新的是

 

下载安装tesseract

最新的是 

 

下载安装 tesseract 的语言数据包

最新的是 

解压tessdata目录下的文件(9个)到 "/usr/local/share/tessdata"目录下

注意:这个网址下载到的只有一个,不能用,使用中会报错,

 

下载安装 pytesser

最新的是  

 

测试pytesser

到pytesser的安装目录,创建一个test.py,python test.py 查看结果。

from pytesser import *#im = Image.open('fnord.tif')#im = Image.open('phototest.tif')#im = Image.open('eurotext.tif')im = Image.open('fonts_test.png')text = image_to_string(im)print text

tesseract 目录还有其他tif文件,也可以复制过来测试,上面测试的tif,png文件正确识别出文字。

 

pytesser的验证码识别能力较低,只能对规规矩矩不歪不斜数字和字母验证码进行识别。测试了几个网站的验证码,显示 Empty page,看来用它来识别验证码是无望了。

测试发现提高对比度后再识别有助于提高识别准确率。

enhancer = ImageEnhance.Contrast(im)im = enhancer.enhance(4)

 

参考:

转载地址:http://izljx.baihongyu.com/

你可能感兴趣的文章
10步让你成为更优秀的程序员
查看>>
Getting Your Feet Wet with the SWT StyledText W...
查看>>
linux coredump配置及其调试出core文件
查看>>
EOF在linux和window系统中
查看>>
我的友情链接
查看>>
log4j日志输出配置
查看>>
Java代码格式规范个人推荐(带范例)
查看>>
说一说那些我也不太懂的 Raft 协议
查看>>
IPTV技术介绍
查看>>
19、OSPF配置实验之注入默认路由
查看>>
使用Windows Live Writer 发布51CTO博客
查看>>
我的友情链接
查看>>
dreamweaver CS5安装
查看>>
Java Timer的使用(timer.schedule定时执行)(转)
查看>>
The Sniffer's Guide to Raw Traffic
查看>>
域名301的一些解决办法
查看>>
EasyPM 功能发布:「看板定义」上线
查看>>
keepalived 配置网站集群 nginx
查看>>
maven用途、核心概念、用法、常用参数和命令、扩展
查看>>
myeclipse 上安装 Maven3
查看>>