今天就聊聊爬虫的清洗,下载网页只是最简单的一个步骤,最让人头疼的是数据的清洗. 为什么要这样说呢,因为爬虫首先是获得数据,清洗是把非结构化的数据转换成结果化的数据,这个时候是最考验人的时候. 如果是国内的网站,清洗工作相对比较简单,因为国内的数据不是那么的凌乱,有一定的规则,我们清洗的时候需要写的规则比较少,对于国外的网站,由于老外崇尚自由, 在他们的网站中最直接的体现就是一个网站可能需要写多套模板,清洗的时候比较麻烦.有什么好的方法去做好清洗的工作吗? 第一:足够的耐心.清洗的时候我们会遇到各…