之前说过,使用urllib和urllib2,只是为了获取指定URL的html内容,而对内容进行解析和筛选,则需要借助python中的正则表达式来完成. 一.预备知识: 1.正则表达式简述: 什么是正则表达式?正则表达式就是可以匹配文本片段的模式,最简单的正则表达式就是一个字符串,用于在文本中匹配到此字符串自身. 2.常用正则表达式: 设计正则表达式的时候有几个注意点如下: a.特殊符号需要加转移符:如要匹配'china.com',则正则表达式格式应为'china\\.com': b.字符集(使用