中国知网(CNKI)是最重要的中文学术资源数据库,收录绝大多数中文学术刊物.我们可以检索论文,也可以导出检索结果前6000条论文的题录数据. 在CNKI检索结果翻页10次以上,用户需要手动输入验证码才能继续.为了实现自动化题录数据导出,我们就需要通过程序识别验证码.最终,基于Eugu.CV实现验证码识别,正确率在70%以上,能保证自动化导出过程的连贯. CNKI验证码识别主要分为四个步骤: 1 去掉灰色干扰线 2 去掉干扰点 3 二值化 4 基于Tesseract识别 CNKI验证码是长这个样子…