<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
		>
<channel>
	<title>《开源的命令行OCR软件──tesseract》的评论</title>
	<atom:link href="http://luy.li/2009/12/29/tesseract-ocr/feed/" rel="self" type="application/rss+xml" />
	<link>http://luy.li/2009/12/29/tesseract-ocr/</link>
	<description>all linux</description>
	<lastBuildDate>Tue, 15 May 2012 06:02:28 +0000</lastBuildDate>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3</generator>
	<item>
		<title>作者：用 Tesseract OCR 系统扫描中文 : 自娱者</title>
		<link>http://luy.li/2009/12/29/tesseract-ocr/#comment-12767</link>
		<dc:creator>用 Tesseract OCR 系统扫描中文 : 自娱者</dc:creator>
		<pubDate>Thu, 16 Dec 2010 11:47:03 +0000</pubDate>
		<guid isPermaLink="false">http://li2z.cn/?p=1294#comment-12767</guid>
		<description>[...] 总得来说，tesseract 对中文的支持还有待加强，特别是对繁体而言（当然也可能是我测试的图片质量问题影响，不过相比简体而言确实有待提高）。tesseract 当然不只有应用于文字扫描，还有一些更好玩的应用，比如，图片识别码的扫描。这里有一篇介绍图片识别码的文章：开源的命令行OCR软件&#8211;tesseract 。 [...]</description>
		<content:encoded><![CDATA[<p>[...] 总得来说，tesseract 对中文的支持还有待加强，特别是对繁体而言（当然也可能是我测试的图片质量问题影响，不过相比简体而言确实有待提高）。tesseract 当然不只有应用于文字扫描，还有一些更好玩的应用，比如，图片识别码的扫描。这里有一篇介绍图片识别码的文章：开源的命令行OCR软件&#8211;tesseract 。 [...]</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：bones7456</title>
		<link>http://luy.li/2009/12/29/tesseract-ocr/#comment-10250</link>
		<dc:creator>bones7456</dc:creator>
		<pubDate>Mon, 17 May 2010 04:50:17 +0000</pubDate>
		<guid isPermaLink="false">http://li2z.cn/?p=1294#comment-10250</guid>
		<description>这就很难说了，估计一般吧~</description>
		<content:encoded><![CDATA[<p>这就很难说了，估计一般吧~</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：黑传说</title>
		<link>http://luy.li/2009/12/29/tesseract-ocr/#comment-10249</link>
		<dc:creator>黑传说</dc:creator>
		<pubDate>Mon, 17 May 2010 04:35:58 +0000</pubDate>
		<guid isPermaLink="false">http://li2z.cn/?p=1294#comment-10249</guid>
		<description>这个识别大文件如何？我想把大批的扫描版pdf转化为文字版。</description>
		<content:encoded><![CDATA[<p>这个识别大文件如何？我想把大批的扫描版pdf转化为文字版。</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：python验证码识别之Discuz(二) &#124; Observer专栏杂记</title>
		<link>http://luy.li/2009/12/29/tesseract-ocr/#comment-9478</link>
		<dc:creator>python验证码识别之Discuz(二) &#124; Observer专栏杂记</dc:creator>
		<pubDate>Sat, 06 Mar 2010 23:17:08 +0000</pubDate>
		<guid isPermaLink="false">http://li2z.cn/?p=1294#comment-9478</guid>
		<description>[...] 承接上文，上文写道去噪，本文应该接着从切块开始写，然后到比对的。然则上文写完之后开始收集训练样本，把样本用去噪算法一做，惨不忍睹；再加上上文之后有很多人留言提了不少意见，所以有了新的方向。 ` 首先骨头兄提议说可以用tesseract来做OCR，这个确实是一个很好的建议。很多验证码其实很简单，根本用不到高级的东东，直接用tesseract就可以摆平。 ` 然而经过实验，效果不尽如人意，如图： ` 还有关于选取多角度多采样的建议，后来发现会导致样本容量太大，性能受到影响，所以也作出了一定的调整，目前来说验证码识别的部分算是写完了，绝对识别率在10%左右，如果可接受其他候选结果的话，识别率在50%左右，不能识别的主要因素是去噪效果不理想和没有成功切块。 ` 最后还有关于Discuz验证码使用反色阴影的建议，虽然可能可以大幅提高去噪成功率，但是因为不够通用被我舍弃了。 ` 我不喜欢直接写结论，我会把我的探索过程和绕圈子过程一起写出来，因为这样看了才有收获，否则也就是&#8221;又一个注册码破解器&#8221;这种东东而已，能写出来多少就写多少吧。 [...]</description>
		<content:encoded><![CDATA[<p>[...] 承接上文，上文写道去噪，本文应该接着从切块开始写，然后到比对的。然则上文写完之后开始收集训练样本，把样本用去噪算法一做，惨不忍睹；再加上上文之后有很多人留言提了不少意见，所以有了新的方向。 ` 首先骨头兄提议说可以用tesseract来做OCR，这个确实是一个很好的建议。很多验证码其实很简单，根本用不到高级的东东，直接用tesseract就可以摆平。 ` 然而经过实验，效果不尽如人意，如图： ` 还有关于选取多角度多采样的建议，后来发现会导致样本容量太大，性能受到影响，所以也作出了一定的调整，目前来说验证码识别的部分算是写完了，绝对识别率在10%左右，如果可接受其他候选结果的话，识别率在50%左右，不能识别的主要因素是去噪效果不理想和没有成功切块。 ` 最后还有关于Discuz验证码使用反色阴影的建议，虽然可能可以大幅提高去噪成功率，但是因为不够通用被我舍弃了。 ` 我不喜欢直接写结论，我会把我的探索过程和绕圈子过程一起写出来，因为这样看了才有收获，否则也就是&#8221;又一个注册码破解器&#8221;这种东东而已，能写出来多少就写多少吧。 [...]</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：bones7456</title>
		<link>http://luy.li/2009/12/29/tesseract-ocr/#comment-9452</link>
		<dc:creator>bones7456</dc:creator>
		<pubDate>Mon, 01 Mar 2010 08:41:38 +0000</pubDate>
		<guid isPermaLink="false">http://li2z.cn/?p=1294#comment-9452</guid>
		<description>其他的几个图片也都不能识别吗？多试几个好了。
另外，deu的是什么语言的数据包？删了好了。。。</description>
		<content:encoded><![CDATA[<p>其他的几个图片也都不能识别吗？多试几个好了。<br />
另外，deu的是什么语言的数据包？删了好了。。。</p>
]]></content:encoded>
	</item>
</channel>
</rss>

