贪婪模式也就是我们使用 .* 匹配任意字符时会尽可能长地向后匹配,如果我们想阻止这种贪婪模式,需要加个问号,尽可能少地匹配,如下例子: In []: import re In []: html = '<h1> hello world </h1>' In []: re.findall(r'<.*>', html) # 贪婪模式默认匹配到所有内容 Out[]: ['<h1> hello world </h1>'] In []: re.findall(…
1.正则表达式:目的是为了爬虫,是爬虫利器. 正则表达式是用来做字符串匹配的,比如检测是不是电话.是不是email.是不是ip地址之类的 2.JSON:外部数据交流的主流格式. 3.正则表达式的使用 re python 内置的模块,可以进行正则匹配 re.findall(pattern,source)pattern:正则匹配规则-也叫郑泽表达式source:需要查找的目标源 import re a = "C0C++7Java8C#Python6JavaScript" res = re.…