回复 9楼 chen123free
不了解一些图像处理和模式识别的方法,没有头绪是正常的。在做识别的时候关键还是在滤波。
本来对于开发网络上的验证码来说,成本远低于机器识别的成本,除非它是长时间不变,否则就变一下字体就可能造成机器识别无效。
不知道你是如何收集样本的,如果有3种字体,对应10个数字就有30个样本。这些样本都用10楼的方法进行滤波得到数字样本。
4张图片中,每张都是6个字符并且字符的水平位置固定,最简单的情况需要6条字符水平中心的列描扫线,与样本数据进行匹配。
数字样本到底选用哪一列做为特征要注意,一定和列描线对应。这些就要做大量的工作。至于匹配,可以采用knn算法,容易理解。
大开眼界