Comments on: 开源的命令行OCR软件──tesseract

By: 用 Tesseract OCR 系统扫描中文 : 自娱者

用 Tesseract OCR 系统扫描中文 : 自娱者 — Thu, 16 Dec 2010 11:47:03 +0000

[…] 总得来说，tesseract 对中文的支持还有待加强，特别是对繁体而言（当然也可能是我测试的图片质量问题影响，不过相比简体而言确实有待提高）。tesseract 当然不只有应用于文字扫描，还有一些更好玩的应用，比如，图片识别码的扫描。这里有一篇介绍图片识别码的文章：开源的命令行OCR软件–tesseract 。 […]

By: bones7456

bones7456 — Mon, 17 May 2010 04:50:17 +0000

In reply to 黑传说. 这就很难说了，估计一般吧~

By: 黑传说

黑传说 — Mon, 17 May 2010 04:35:58 +0000

这个识别大文件如何？我想把大批的扫描版pdf转化为文字版。

By: python验证码识别之Discuz(二) | Observer专栏杂记

python验证码识别之Discuz(二) | Observer专栏杂记 — Sat, 06 Mar 2010 23:17:08 +0000

[…] 承接上文，上文写道去噪，本文应该接着从切块开始写，然后到比对的。然则上文写完之后开始收集训练样本，把样本用去噪算法一做，惨不忍睹；再加上上文之后有很多人留言提了不少意见，所以有了新的方向。 ` 首先骨头兄提议说可以用tesseract来做OCR，这个确实是一个很好的建议。很多验证码其实很简单，根本用不到高级的东东，直接用tesseract就可以摆平。 ` 然而经过实验，效果不尽如人意，如图： ` 还有关于选取多角度多采样的建议，后来发现会导致样本容量太大，性能受到影响，所以也作出了一定的调整，目前来说验证码识别的部分算是写完了，绝对识别率在10%左右，如果可接受其他候选结果的话，识别率在50%左右，不能识别的主要因素是去噪效果不理想和没有成功切块。 ` 最后还有关于Discuz验证码使用反色阴影的建议，虽然可能可以大幅提高去噪成功率，但是因为不够通用被我舍弃了。 ` 我不喜欢直接写结论，我会把我的探索过程和绕圈子过程一起写出来，因为这样看了才有收获，否则也就是”又一个注册码破解器”这种东东而已，能写出来多少就写多少吧。 […]

By: bones7456

bones7456 — Mon, 01 Mar 2010 08:41:38 +0000

In reply to sam. 其他的几个图片也都不能识别吗？多试几个好了。另外，deu的是什么语言的数据包？删了好了。。。