当时看到两篇关于这个验证码的文章,看起来比较靠谱的分别是:



大致分析一下,第一篇作者kerlomz的思路很巧妙,也提供了各种测试,看起来可信度很高,联系作者要了文本接口实测了几千个请求,识别率真的一点没有掺水97.5+。至少在这个层面上我相信这个作者提供的思路是可行的,不过需要的样本量毕竟太大了,看文章描述,想要高质量的样本几乎是无计可施,找到了作者之前写的一份JAVA版的生成源码,直接训练发现只有25%识别率,软磨硬泡问作者修改思路,经过指点进行了一波魔改,用作者的框架和思路训练识别率已经能达到70%了。作者光凭自己的生成器就能生成出达到97的高质量样本真让人佩服。这是什么神仙眼力。作者说只要买了模型就能提供相应的指导,不过我最终还是选择了白嫖,托朋友的关系,搞到了BJ财税内部用的模型,测了一下识别率87,连续错五次的概率不是很大,也算够用了。

第二篇作者okfu看起来给了完整的思路和源码甚至还有模型,可是免费的才是最贵的,果然都是智商税,其实核心的样本也是没给,所谓的生成器生成出来跟实际一点不像,实际拿来训练最后的识别率5%都不到,就是看着很厉害的样子,但是过程都是在浪费时间,不仅在样本生成上做了手脚,提供的模型字符集也是阉割过的,模型基本上也是不可用,其实本质上也是诱导购买的广告软文,还不如像第一篇作者一样直接了当的说出来。本身技术付费就是意见很正常的事。

第一篇的作者偷偷告诉我一个小秘密,他说训练的时候虽然是开源框架,但是具体的网络他进行了一个微调,改了几个地方,用来优化粘连部分的特征提取,不过可惜公司不愿意花钱买,不然就能偷师学艺了。