<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
		>
<channel>
	<title>评论：开源的命令行OCR软件──tesseract</title>
	<atom:link href="http://luy.li/2009/12/29/tesseract-ocr/feed/" rel="self" type="application/rss+xml" />
	<link>http://luy.li/2009/12/29/tesseract-ocr/</link>
	<description>all linux</description>
	<lastBuildDate>Tue, 31 Aug 2010 07:33:23 +0000</lastBuildDate>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0.1</generator>
	<item>
		<title>由：bones7456</title>
		<link>http://luy.li/2009/12/29/tesseract-ocr/#comment-10250</link>
		<dc:creator>bones7456</dc:creator>
		<pubDate>Mon, 17 May 2010 04:50:17 +0000</pubDate>
		<guid isPermaLink="false">http://li2z.cn/?p=1294#comment-10250</guid>
		<description>这就很难说了，估计一般吧~</description>
		<content:encoded><![CDATA[<p>这就很难说了，估计一般吧~</p>
]]></content:encoded>
	</item>
	<item>
		<title>由：黑传说</title>
		<link>http://luy.li/2009/12/29/tesseract-ocr/#comment-10249</link>
		<dc:creator>黑传说</dc:creator>
		<pubDate>Mon, 17 May 2010 04:35:58 +0000</pubDate>
		<guid isPermaLink="false">http://li2z.cn/?p=1294#comment-10249</guid>
		<description>这个识别大文件如何？我想把大批的扫描版pdf转化为文字版。</description>
		<content:encoded><![CDATA[<p>这个识别大文件如何？我想把大批的扫描版pdf转化为文字版。</p>
]]></content:encoded>
	</item>
	<item>
		<title>由：python验证码识别之Discuz(二) &#124; Observer专栏杂记</title>
		<link>http://luy.li/2009/12/29/tesseract-ocr/#comment-9478</link>
		<dc:creator>python验证码识别之Discuz(二) &#124; Observer专栏杂记</dc:creator>
		<pubDate>Sat, 06 Mar 2010 23:17:08 +0000</pubDate>
		<guid isPermaLink="false">http://li2z.cn/?p=1294#comment-9478</guid>
		<description>[...] 承接上文，上文写道去噪，本文应该接着从切块开始写，然后到比对的。然则上文写完之后开始收集训练样本，把样本用去噪算法一做，惨不忍睹；再加上上文之后有很多人留言提了不少意见，所以有了新的方向。 ` 首先骨头兄提议说可以用tesseract来做OCR，这个确实是一个很好的建议。很多验证码其实很简单，根本用不到高级的东东，直接用tesseract就可以摆平。 ` 然而经过实验，效果不尽如人意，如图： ` 还有关于选取多角度多采样的建议，后来发现会导致样本容量太大，性能受到影响，所以也作出了一定的调整，目前来说验证码识别的部分算是写完了，绝对识别率在10%左右，如果可接受其他候选结果的话，识别率在50%左右，不能识别的主要因素是去噪效果不理想和没有成功切块。 ` 最后还有关于Discuz验证码使用反色阴影的建议，虽然可能可以大幅提高去噪成功率，但是因为不够通用被我舍弃了。 ` 我不喜欢直接写结论，我会把我的探索过程和绕圈子过程一起写出来，因为这样看了才有收获，否则也就是&#8221;又一个注册码破解器&#8221;这种东东而已，能写出来多少就写多少吧。 [...]</description>
		<content:encoded><![CDATA[<p>[...] 承接上文，上文写道去噪，本文应该接着从切块开始写，然后到比对的。然则上文写完之后开始收集训练样本，把样本用去噪算法一做，惨不忍睹；再加上上文之后有很多人留言提了不少意见，所以有了新的方向。 ` 首先骨头兄提议说可以用tesseract来做OCR，这个确实是一个很好的建议。很多验证码其实很简单，根本用不到高级的东东，直接用tesseract就可以摆平。 ` 然而经过实验，效果不尽如人意，如图： ` 还有关于选取多角度多采样的建议，后来发现会导致样本容量太大，性能受到影响，所以也作出了一定的调整，目前来说验证码识别的部分算是写完了，绝对识别率在10%左右，如果可接受其他候选结果的话，识别率在50%左右，不能识别的主要因素是去噪效果不理想和没有成功切块。 ` 最后还有关于Discuz验证码使用反色阴影的建议，虽然可能可以大幅提高去噪成功率，但是因为不够通用被我舍弃了。 ` 我不喜欢直接写结论，我会把我的探索过程和绕圈子过程一起写出来，因为这样看了才有收获，否则也就是&#8221;又一个注册码破解器&#8221;这种东东而已，能写出来多少就写多少吧。 [...]</p>
]]></content:encoded>
	</item>
	<item>
		<title>由：bones7456</title>
		<link>http://luy.li/2009/12/29/tesseract-ocr/#comment-9452</link>
		<dc:creator>bones7456</dc:creator>
		<pubDate>Mon, 01 Mar 2010 08:41:38 +0000</pubDate>
		<guid isPermaLink="false">http://li2z.cn/?p=1294#comment-9452</guid>
		<description>其他的几个图片也都不能识别吗？多试几个好了。
另外，deu的是什么语言的数据包？删了好了。。。</description>
		<content:encoded><![CDATA[<p>其他的几个图片也都不能识别吗？多试几个好了。<br />
另外，deu的是什么语言的数据包？删了好了。。。</p>
]]></content:encoded>
	</item>
	<item>
		<title>由：sam</title>
		<link>http://luy.li/2009/12/29/tesseract-ocr/#comment-9450</link>
		<dc:creator>sam</dc:creator>
		<pubDate>Mon, 01 Mar 2010 08:36:30 +0000</pubDate>
		<guid isPermaLink="false">http://li2z.cn/?p=1294#comment-9450</guid>
		<description>你好，我在debian 5.0下试了很奇怪，无法识别出来。

$ wget http://li2z.cn/data/yzm/cnblogs.com.jpe
$ convert cnblogs.com.jpe ppm:- &#124; ppm2tiff yzm.tif
$ tesseract yzm.tif out
Tesseract Open Source OCR Engine
$ cat out.txt 
;;:g;;gg:搂;;;gg:搂:g;;;g:搂:i;;g

我看了一下软件包的版本是：
$ ls -l /var/cache/apt/archives/tesseract-ocr*
-rw-r--r-- 1 root root  837710 2008-06-13 05:32 /var/cache/apt/archives/tesseract-ocr_2.03-2_i386.deb
-rw-r--r-- 1 root root 1374982 2007-11-12 13:26 /var/cache/apt/archives/tesseract-ocr-deu_2.00-1_all.deb
-rw-r--r-- 1 root root 1014242 2007-11-12 13:26 /var/cache/apt/archives/tesseract-ocr-eng_2.00-1_all.deb

请问是哪儿设置有问题？</description>
		<content:encoded><![CDATA[<p>你好，我在debian 5.0下试了很奇怪，无法识别出来。</p>
<p>$ wget <a href="http://li2z.cn/data/yzm/cnblogs.com.jpe" rel="nofollow">http://li2z.cn/data/yzm/cnblogs.com.jpe</a><br />
$ convert cnblogs.com.jpe ppm:- | ppm2tiff yzm.tif<br />
$ tesseract yzm.tif out<br />
Tesseract Open Source OCR Engine<br />
$ cat out.txt<br />
;;:g;;gg:搂;;;gg:搂:g;;;g:搂:i;;g</p>
<p>我看了一下软件包的版本是：<br />
$ ls -l /var/cache/apt/archives/tesseract-ocr*<br />
-rw-r&#8211;r&#8211; 1 root root  837710 2008-06-13 05:32 /var/cache/apt/archives/tesseract-ocr_2.03-2_i386.deb<br />
-rw-r&#8211;r&#8211; 1 root root 1374982 2007-11-12 13:26 /var/cache/apt/archives/tesseract-ocr-deu_2.00-1_all.deb<br />
-rw-r&#8211;r&#8211; 1 root root 1014242 2007-11-12 13:26 /var/cache/apt/archives/tesseract-ocr-eng_2.00-1_all.deb</p>
<p>请问是哪儿设置有问题？</p>
]]></content:encoded>
	</item>
</channel>
</rss>
