今天学完爬虫之后想的爬一下我们学校的教务系统,可是发现登录的时候有验证码.因此研究了Jsoup爬取带验证码的网站: 大体的思路是:(需要注意的是__VIEWSTATE一直变化,所以我们每个页面都需要重新获取并带着爬取下一个页面) 1.先爬取网站的主页,由于我们学校的网站是ASP.net,所以需要爬到每个网页的__VIEWSTATE.同时爬取主页也可以获得一个cookie(ASP.sessionId) 2.带着__VIEWSTATE和ASP.sessionId爬取验证码.(网上说有专门识别验证码的…