python--(爬虫-re模块)

re模块四大核心功能:

    1.findall 查找所有,返回list

import re

lst = re.findall("m", "mai le fo len, mai ni mei!")

print(lst) # ['m', 'm', 'm']

lst = re.findall(r"\d+", "5点之前. 你要给我5000")

print(lst) # ['5' '5000']

    2.search 会进行匹配,但如果匹配到了第一个结果,就会返回这个结果,
如果匹配不上search返回的则是None

import re

ret = re.search(r'\d', '5点之前. 你要给我5000万').group()

print(ret) #


    3. match 只能从字符串的开头进⾏匹配

import re

ret = re.match('a', 'abc').group()

print(ret) # a


    4. finditer 和findall差不多. 只不过这时返回的是迭代器

import re

it = re.finditer("m", "mai le fo len, mai ni mei!")

for el in it:

 print(el.group()) # 依然需要分组

　　　　5.re模块相关操作

import re

#   split  切割. 按照正则切割.

# lst = re.split(r"[ab]", "abcdefghahahehedebade")

# print(lst)

#   sub 替换.

# result = re.sub("250", "__sb__", "alex250taibai250taihei250ritian250liuwei")

# print(result)

# result = re.subn("250", "__sb__", "alex250taibai250taihei250ritian250liuwei")

# print(result)

# obj = re.compile(r"\d+")

# lst = obj.findall("大阳哥昨天赚了5000块")

# lst2 = obj.findall("银行流水5000， 花了6000")

# print(lst)

# print(lst2)

# obj = re.compile(r"(?P<id>\d+)(?P<zimu>e{3})")

# ret = obj.search("abcdefg123456eeeee") # ((123456)(eee))

# print(ret.group())

# print(ret.group("id"))

# print(ret.group("zimu"))

# ret = re.findall('www.(baidu|oldboy).com', 'www.oldboy.com')

# print(ret) # 这是因为findall会优先把匹配结果组⾥内容返回,如果想要匹配结果,取消权限即可

# ret = re.findall('www.(?:baidu|oldboy).com', 'www.oldboy.com') # ?: 当前的（）不分组

# print(ret) # ['www.oldboy.com']

# ret=re.split("sb","alexsbwusirsbtaibaisbliuwei")

# print(ret)

爬虫重点:爬取豆瓣网站相关信息===>

import re

from urllib.request import urlopen  # 打开一个链接. 读取源代码

import ssl

# 干掉数字签名证书

ssl._create_default_https_context = ssl._create_unverified_context

def getPage(url):

    response = urlopen(url) # 和网页链接

    return response.read().decode('utf-8') # 返回正常的页面源代码. 一大堆HTML

def parsePage(s): # s 是页面源代码

    ret = re.findall('<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?'+

        '<span class="title">(?P<title>.*?)</span>'+

        '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>'+

        '(?P<comment_num>.*?)评价</span>', s, re.S)

    return ret # id,title, rating_num, comment_num

def main(num):

    url = 'https://movie.douban.com/top250?start=%s&filter=' % num

    response_html = getPage(url) # response_html是页面源代码

    ret = parsePage(response_html)

    print(ret) # id,title, rating_num, comment_num

count = 0

for i in range(10): #

    main(count)

    count += 25

方法一

import re

from urllib.request import urlopen  # 打开一个链接. 读取源代码

import ssl

# 干掉数字签名证书

ssl._create_default_https_context = ssl._create_unverified_context

def getPage(url):

    response = urlopen(url) # 和网页链接

    return response.read().decode('utf-8') # 返回正常的页面源代码. 一大堆HTML

def parsePage(s):

    com = re.compile(

        '<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?' +

        '<span class="title">(?P<title>.*?)</span>' +

        '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>' +

        '(?P<comment_num>.*?)评价</span>', re.S)

    ret = com.finditer(s)

    for i in ret:

        yield {

            "id": i.group("id"),

            "title": i.group("title"),

            "rating_num": i.group("rating_num"),

            "comment_num": i.group("comment_num"),

        }

def main(num):

    url = 'https://movie.douban.com/top250?start=%s&filter='

    response_html = getPage(url)

    print(response_html)

    ret = parsePage(response_html)

    # print(ret)

    f = open("move_info7", "a", encoding="utf8")

    for obj in ret:

        print(obj)

        data = str(obj)

        f.write(data + "\n")

count = 0

for i in range(10): #

    main(count)

    count += 25

爬取并写入文件

python--(爬虫-re模块)的更多相关文章

python爬虫 urllib模块url编码处理
案例:爬取使用搜狗根据指定词条搜索到的页面数据(例如爬取词条为‘周杰伦'的页面数据) import urllib.request # 1.指定url url = 'https://www.sogou. ...
python 爬虫 urllib模块目录
python 爬虫 urllib模块介绍 python 爬虫 urllib模块 url编码处理 python 爬虫 urllib模块反爬虫机制UA python 爬虫 urllib模块发起post ...
Python爬虫urllib模块
Python爬虫练习(urllib模块) 关注公众号"轻松学编程"了解更多. 1.获取百度首页数据流程:a.设置请求地址 b.设置请求时间 c.获取响应(对响应进行解码) ''' ...
python爬虫-urllib模块
urllib 模块是一个高级的 web 交流库,其核心功能就是模仿web浏览器等客户端,去请求相应的资源,并返回一个类文件对象.urllib 支持各种 web 协议,例如:HTTP.FTP.Gophe ...
Python爬虫——selenium模块
selenium模块介绍 selenium最初是一个测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览 ...
python 爬虫 urllib模块介绍
一.urllib库概念:urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urll ...
python爬虫--selenium模块.上来自己动!
selenium 基本操作 from selenium import webdriver from time import sleep #实例化一个浏览器对象 bro = webdriver.Chro ...
python 爬虫 urllib模块反爬虫机制UA
方法: 使用urlencode函数 urllib.request.urlopen() import urllib.request import urllib.parse url = 'https:// ...
python爬虫-smtplib模块发送邮件
1.代码如下: import smtplib from email.message from EmailMessage # smtplib模块负责发送邮件服务 # email.message模块负责构 ...
Python爬虫常用模块，BeautifulSoup笔记
import urllib import urllib.request as request import re from bs4 import * #url = 'http://zh.house.q ...

随机推荐

php 安装mysql扩展注意事项
1.yum search php-mysql (Linux环境) 这一点,根据具体的情况会遇到不同的搜索结果.我搜索到的结果是:php-mysql.i386 : A module for PHP ap ...
Elasticsearch 入门 - Exploring Your Cluster
The REST API Cluster Health ( http://localhost:9200/ ) curl -X GET "localhost:9200/_cat/health? ...
2019-04-03 SQL Group By某列，预先对该列进行一个预处理，提炼出共有的信息，即关键字case when 列名什么条件 then 赋值 else 赋值 end as 新列名
select sum(发行金额) from( select PoolNameFormat,count(cast(ItemValue as decimal(19,4))) as 发行笔数,sum(cas ...
Dict字典的操作
字典的操作 1.字典新增键值对已存在内容的字典新增 alient_0 = {"color":"green",position:10} alient_0[&qu ...
00072_System类
1.概念 (1)System中代表程序所在系统,提供了对应的一些系统属性信息,和系统操作: (2)System类不能手动创建对象,因为构造方法被private修饰,阻止外界创建对象: (3)Syste ...
统制Highcharts中x轴和y轴坐标值的密度
统制Highcharts中x轴和y轴坐标值的密度 www.MyException.Cn 发布于:2012-06-26 10:04:13 浏览:688次 1 控制Highcharts中x轴和y轴坐标值的 ...
（转）关于使用iText导出pdf
一.iText简介 iText是著名的开放源码的站点sourceforge一个项目,是用于生成PDF文档的一个java类库.通过iText不仅可以生成PDF或rtf的文档,而且可以将XML.Html文 ...
JavaScript替换字符串中最后一个字符
1.问题背景在一个输入框中,限制字符串长度为12位.利用键盘输入一个数字,会将字符串中最后一位替换,比方:111111111111.再输入一个3,会显示111111111113 2.详细实现 < ...
上机题目（0基础）- Java网络操作-Socket实现client和server端通信（Java）
非常多刚開始学习的人对于java网络通信不太熟悉.对相关概念也不太明确,这里我们主要实现一下socket通信,socket通信在java中应用十分广泛.比如QQ和MSN等都是基于socket通信的,什 ...
剑指Offer面试题33（java版）：把数组排成最小的数
题目:输入一个正整数数组.把数组里面全部的数字拼接排成一个数,打印能拼接出的全部数字中的一个.比如输入数组{3,32.321}.则打印出这3个数字能排成的最小数字321323. 这个题目最直接的做法应 ...

python--(爬虫-re模块)

python--(爬虫-re模块)的更多相关文章

随机推荐

热门专题