起因是这样的,我想买一个定焦镜头,但也不是必需品,可以长期观望购买。最初的想法是,写个程序,每天爬一下各大电商网站的价格,或者直接爬etao把该镜头的价格记录下来,突然有一个惊爆的低价,就发邮件通知。这个idea并不难实现,只是懒得做。。。之前我的一些程序也干过类似的事情,比如春节爬打折机票价格什么的。

昨天下午看到一个网站,上面记录了某东的历史数据,我就想把别人的历史数据采集过来看看,自己也练手一下图片识别,我还没用过大名鼎鼎的PIL模块呢。写这系列博客的时候,我还没有完全把图片上的数字识别出来,只是把探索的过程记录一下。

要识别的示例图片如下:


要采集数据的特征:

1、数据是用图片显示的,做成折线图的形式。

2、数据由图片的横坐标和纵坐标组成,横坐标是时间,在坐标轴下,数字的纵坐标是固定的,横坐标不定。另外一个是价格,在折现上方,横坐标和纵坐标位置飘忽不定。

3、数字长度不固定,多少位的都有可能,有的有小数点,有的没有。

4、数据的个数是不定的,有可能是4组,也有可能是七八组。

5、数字还算是干净,不像很多验证码都加早点、扭曲、干扰线什么的。

我也没弄过验证码识别和图片识别,就边搜索边凭着感觉摸着来了:

步骤一:安装PIL

用Python干这活应该是要用PIL对图片进行预处理的,先下载安装一下:http://www.pythonware.com/products/pil/

特别说明一下:如果是Win7 64位操作系统的话,由于Python的安装路径不太一样,需要自行编译源码或者在网上搜一个其他人编译过的给Win7 64位用的PIL才能安装。

步骤二:化繁为简,化整为零

咱先找最简单的练手吧,先把横坐标识别出来。

那么就先用PIL切割图片,示例代码如下(坐标需要调整):

def cutimg(filename):
im = Image.open(filename)
x = 0
y = 209
w = 1000
h = 8
box = (x, y, x+w, y+h)
region = im.crop(box)
outfile = 'tmp1.bmp'
region.save(outfile)

return运行之后,就生成下面的图片了


步骤三:计算有多少组数字

思路:图片中取一条水平线,连续判断这条水平线上像素的颜色。由于每组数字之间有很大的空白作为间距,就判断像素是否是连续有比如50个白像素,如果有超过的话,就认为是有间距了。示例代码如下:

def get_price_num(im):
white = (255, 255, 255)
w, h = im.size
data = list(im.getdata())
char_width = 25
y = h/2
num = 0
whitenum = 0
for x in xrange(w):
if data[ y*w + x ] != white:
if whitenum > 50:
num += 1
whitenum = 0
else:
whitenum += 1
return num+1步骤四:图片分割,并二值化

一口也吃不成胖子,继续简化问题。上面知道了有多少组数字,那么接下来应该就是将这些数字切割下来,以便各个击破。在之前的代码修改了一下,预估每组数字的最大宽度是25,

二值化,就是把值变为0或者255两种。为什么要二值化?这样好识别吧。

用PIL很简单,调用newim.convert("1")就可以二值化了。

def get_price_num(im):
white = (255, 255, 255)
start_point = (0,0)
w, h = im.size
data = list(im.getdata())
char_width = 25
y = 1#h/2
num = 0
whitenum = 0
for x in xrange(w):
if data[ y*w + x ] != white:
if num == 0 or whitenum > 50:
box = (x,0,x+char_width,8)
newim = im.crop(box)
outfile = 'tmp_%d.bmp' % (num)
newim.convert("1").save(outfile)
num += 1
whitenum = 0
else:
whitenum += 1

return num步骤五:把图片中的数字的data打印出来,记录一下,看用什么特征来记录,这部分我昨天是勉强做好了,样本弄得有点少,识别率可能也就70%,我不是很满意。

主要原因:似乎就算是同一个数字,不同位置上特征也不太一样。

我想起了矩阵还有什么行列式什么的,又想到了用一些开源的OCR软件了。

今天继续研究一下该怎么处理好,后面继续博客补充。