在爬虫的学习中,我们爬取网页信息之后就是对信息项匹配,这个时候一般是使用正则.但是在使用中发现正则写的不好的时候不能精确匹配(这其实是自己的问题!)所以就找啊找.想到了可以通过标签来进行精确匹配岂不是比正则要快.所以找到了lxml. 因为lxml是对xml格式的解析,支持html格式,而对于xml格式的解析有一门专用的语言,XPath.XPath用于在xml文档中通过元素和属性进行导航.lxml库也是解析xml文件,所以也应用了XPath语法.我们先学习一下XPath 的标准语法,然后将这些语法…