前几天看到一个.NET Core写成的爬虫,有些莫名的小兴奋,之前一直用集搜客去爬拉勾网的招聘信息,这个傻瓜化工具相当于用HTML模板页去标记DOM节点,然后在浏览器窗口上模拟人的浏览行为同时跟踪节点信息.它有很多好处,但缺点也明显:抓取速度慢:数据清洗和转储麻烦:只知其过程,不知其原理,网站改了模板或者要爬取别的网站,重现效率反而不如自己写个程序.那么就自己实现一个?说干就干!首先了解需要拉勾网的网页结构.对于搜索结果需要点击控件才能展示分页,不用这么麻烦,查看网络,发现每次点击下一页会向一个…