利用Python3的requests和re库爬取猫眼电影笔记

以下笔记，作为参考借鉴，如有疑问可以联系我进行交流探讨！

代码思路很简单，简单概括为：
首先利用requests的get方法获取页面的html文件，之后对得到的html文件进行相对应的正则处理，然后把爬取到的数据保存到本地。

# -*- coding: utf-8 -*-

"""

爬取的相关信息有：电影名次、电影名称、主演、上映时间、评分

 

"""

 

import re

import time

import requests

from multiprocessing import Pool

from http.cookiejar import CookieJar

from requests.exceptions import RequestException

 

#创建requests回话

s = requests.Session()

#对需要登录或者需要利用cookie登录的，可以使用CookieJar( )这个方法。

s.cookies = CookieJar()

 

#创建个头文件，里面的用户我习惯使用这个"Baiduspider+"。

header = {

    'user-agent': 'Baiduspider+',

}

 

#根据url获取HTML文件

def getHTML(url, code='utf-8'):

    try:

        response = s.get(url, headers=header)

        response.raise_for_status()

        response.encoding = code

        return response.text

    except RequestException:

        print('getHTML Error')

 

#对HTML进行正则表达式处理

def parseHTML(html):

    pattern = re.compile('.*?board-index-.*?">(.*?)</i>.*?class="name">.*?'

                         + '"boarditem-click".*?"{movieId:.*?}">+(.*?)</a>.*?class="star">'

                         + '(.*?)</p>.*?class="releasetime">(.*?)</p>.*?<p class="score">'

                         + '<i class="integer">(.*?)</i><i class="fraction">(.*?)</i></p>', re.S)

 

 #需要把html字符串化，否则报错：TypeError: expected string or bytes-like object

    items = re.findall(pattern, str(html))

 

    for item in items:

        yield {

            '序号': item[0],

            '电影名': item[1],

            '主演': item[2].strip(),

            '上映时间': item[3],

            '评分': item[4] + item[5],

        }

 

#把数据保存到本地

def writePAGE(content):

    with open('result.txt', 'a' ) as f:

        f.write(str(content) + '\n')

        f.close()

 

#编写主函数

def main(page):

    url = 'https://maoyan.com/board/4?offset=' + str(page)

    html = getHTML(url)

    items = parseHTML(html)

 

    for item in items:

        print(item)

        writePAGE(item)

 

 

if __name__ == '__main__':

    start = time.time()

 

#多进程爬取

    pool = Pool()

    pool.map(main, [page * 10 for page in range(10)])

    pool.close()  # 关闭进程池，不接受新的进程

    pool.join()  # 主进程阻塞等待子进程的退出

 

    end = time.time()

#打印出最后运行的时间

    print('It spends %s s' % (end - start))

利用Python3的requests和re库爬取猫眼电影笔记的更多相关文章

用requests库爬取猫眼电影Top100
这里需要注意一下,在爬取猫眼电影Top100时,网站设置了反爬虫机制,因此需要在requests库的get方法中添加headers,伪装成浏览器进行爬取 import requests from re ...
一起学爬虫——使用xpath库爬取猫眼电影国内票房榜
之前分享了一篇使用requests库爬取豆瓣电影250的文章,今天继续分享使用xpath爬取猫眼电影热播口碑榜 XPATH语法 XPATH(XML Path Language)是一门用于从XML文件中 ...
python学习(23)requests库爬取猫眼电影排行信息
本文介绍如何结合前面讲解的基本知识,采用requests,正则表达式,cookies结合起来,做一次实战,抓取猫眼电影排名信息. 用requests写一个基本的爬虫排行信息大致如下图网址链接为ht ...
利用python的requests和BeautifulSoup库爬取小说网站内容
1. 什么是Requests? Requests是用Python语言编写的,基于urllib3来改写的,采用Apache2 Licensed 来源协议的HTTP库. 它比urllib更加方便,可以节约 ...
requests库爬取猫眼电影“最受期待榜”榜单 --网络爬虫
目标站点:https://maoyan.com/board/6 # coding:utf8 import requests, re, json from requests.exceptions imp ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
爬虫基本库request使用—爬取猫眼电影信息
使用request库和正则表达式爬取猫眼电影信息. 1.爬取目标猫眼电影TOP100的电影名称,时间,评分,等信息,将结果以文件存储. 2.准备工作安装request库. 3.代码实现 impor ...
Python3爬取猫眼电影信息
Python3爬取猫眼电影信息 import json import requests from requests.exceptions import RequestException import ...
爬虫--requests爬取猫眼电影排行榜
'''目标:使用requests分页爬取猫眼电影中榜单栏目中TOP100榜的所有电影信息,并将信息写入文件URL地址:http://maoyan.com/board/4 其中参数offset表示其实条 ...

随机推荐

acme自动证书申请
安装acme.sh curl https://get.acme.sh | sh acme.sh默认安装到了当前家目录. [root@iZbp17hycbhnayg00ohec9Z ~]# ~/.acm ...
webpack打包时候去掉console.log配置
new UglifyJsPlugin({ uglifyOptions: { compress: { warnings: false, drop_console: true,//console pure ...
leetcode309 买卖股票
一.穷举框架首先,还是一样的思路:如何穷举?这里的穷举思路和上篇文章递归的思想不太一样. 递归其实是符合我们思考的逻辑的,一步步推进,遇到无法解决的就丢给递归,一不小心就做出来了,可读性还很好.缺点 ...
mysql系统信息函数
1.VERSION() 返回数据库的版本号 SELECT VERSION() -- 5.0.67-community-nt2.CONNECTION_ID() 返回服务器的连接数SELECT CONNE ...
高性能Java代码的规范
代码优化的目标是减小代码的体积提高代码运行的效率代码优化细节 1.尽量指定类.方法的final修饰符带有final修饰符的类是不可派生的.在Java核心API中,有许多应用final的例子,例 ...
Java开发笔记（一百二十三）AWT图像视图
前面介绍了AWT的几种基础控件,从按钮到文本标签,从输入框到选择框,无一例外都能显示文字,唯独无法显示某张图片文件.本以为AWT会提供专门的控件来显示图片,然而偏偏没有意料之中的图像控件,这可真是弱爆 ...
LeetCode | 142. 环形链表 II
原题(Medium): 给定一个链表,返回链表开始入环的第一个节点. 如果链表无环,则返回 null. 为了表示给定链表中的环,我们使用整数 pos 来表示链表尾连接到链表中的位置(索引从 0 开始) ...
python技巧 — 整合 User-Agent 大全汇总
一.IE 浏览器而IE各个版本典型的userAgent如下:Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0)Mozilla/4.0 (compat ...
go 疑难杂症
func Test_doSeond(t *testing.T) { msg := make([]Msg, 0) for i := 0; i < 5; i++ { m := Msg{ data: ...
git 学习笔记 ---撤销修改
自然,你是不会犯错的.不过现在是凌晨两点,你正在赶一份工作报告,你在readme.txt中添加了一行: $ cat readme.txt Git is a distributed version co ...

利用Python3的requests和re库爬取猫眼电影笔记

利用Python3的requests和re库爬取猫眼电影笔记的更多相关文章

随机推荐

热门专题