1.正则表达式:目的是为了爬虫,是爬虫利器. 正则表达式是用来做字符串匹配的,比如检测是不是电话.是不是email.是不是ip地址之类的 2.JSON:外部数据交流的主流格式. 3.正则表达式的使用 re python 内置的模块,可以进行正则匹配 re.findall(pattern,source)pattern:正则匹配规则-也叫郑泽表达式source:需要查找的目标源 import re a = "C0C++7Java8C#Python6JavaScript" res = re.…
最短匹配应用于:假如有一段文本,你只想匹配最短的可能,而不是最长. 例子 比如有一段html片段,'\this is first label\\the second label\',如何匹配出每个a标签中的内容,下面来看下最短与最长的区别. 代码 >>> import re >>> str = '<a>this is first label</a><a>the second label</a>' >>>…