爬虫基础以及一个简单的实例（requests，re）

最近在看爬虫方面的知识，看到崔庆才所著的《Python3网络爬虫开发实战》一书讲的比较系统，果断入手学习。下面根据书中的内容，简单总结一下爬虫的基础知识，并且实际练习一下。详细内容请见：https://cuiqingcai.com/5465.html（作者已把书的前几章内容对外公开）。

在写爬虫程序之前需要了解的一些知识：

爬虫基础：我们平时访问网页就是对服务器发送请求（Request），然后得到响应（Response）的一个过程。爬虫通过模仿浏览器，对网页进行自动访问。需要知道请求包含哪些内容，请求的方式有哪些，响应包含哪些内容。

网页结构：网页由HTML，CSS，JaveScript组成。需要知道其各自的作用是什么，还需要知道到哪个节点去获取自己想要的信息。

其他：了解会话（Session），Cookie，代理（Proxy）的作用。

爬虫流程：

爬取网页（获取网页源代码）：可使用的库有urllib，requests等；当然，现在很多网页都是动态加载的，对于这些网页，还需使用Selenium等库
解析网页（提取网页中我们需要的信息）：定位信息的方式有：正则表达式，XPath选择器，CSS选择器；可使用的库有re，lxml，Beautiful Soup等
保存结果（将结果保存至文件或数据库）：文件有txt，json, csv等格式；数据库可选择MySQL，MongoDB等

在python中爬取网页，我们一般用requests库。下面是经常用到的一些语法：

导入requests库： import requests

获取响应： response=requests.get(url, headers)

获取响应体： response.text

下面让我们来实际操练一下：

实例目标：用requests库爬取猫眼电影网上top100的电影（排名，图片，电影名称，上映时间，评分），用正则表达式进行解析，然后将结果保存至txt文件

实例网址：https://maoyan.com/board/4

首先，导入requests库和re，json模块：

import requests

import re

import json

其次，先定义一个爬取一个网页的方法：

def get_one_page(url):

    headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) \

             AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'}

    response=requests.get(url,headers=headers)

    if response.status_code==200:

        return response.text

    return None

这样，在main()方法里，我们设定好url，就可以把该网页源代码打印出来：

def main():

    url="https://maoyan.com/board/4"

    html=get_one_page(url)

    print(html)

接下来，我们来仔细查看这个源代码，看看怎样用正则表达式把我们需要的信息提取出来。首先用浏览器打开这个网页，然后在浏览器里面选择开发者工具，在Network里查看网页源代码。下面截取一部分：

<div class="content">

    <div class="wrapper">

        <div class="main">

            <p class="update-time">2018-12-30<span class="has-fresh-text">已更新</span></p>

            <p class="board-content">榜单规则：将猫眼电影库中的经典影片，按照评分和评分人数从高到低综合排序取前100名，每天上午10点更新。相关数据来源于“猫眼电影库”。</p>

            <dl class="board-wrapper">

                <dd>

                        <i class="board-index board-index-1">1</i>

    <a href="/films/1203" title="霸王别姬" class="image-link" data-act="boarditem-click" data-val="{movieId:1203}">

      <img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" />

      <img data-src="https://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c" alt="霸王别姬" class="board-img" />

    </a>

    <div class="board-item-main">

      <div class="board-item-content">

              <div class="movie-item-info">

        <p class="name"><a href="/films/1203" title="霸王别姬" data-act="boarditem-click" data-val="{movieId:1203}">霸王别姬</a></p>

        <p class="star">

                主演：张国荣,张丰毅,巩俐

        </p>

<p class="releasetime">上映时间：1993-01-01</p>    </div>

    <div class="movie-item-number score-num">

<p class="score"><i class="integer">9.</i><i class="fraction">6</i></p>

可以看到，电影的排名在一个dd节点下面：

 <dd>

                        <i class="board-index board-index-1">1</i>

因此，相应的正则表达式可以写为：<dd>.*?board-index.*?>(.*?)</i>

接下来，我们发现图片在一个a节点下面，但是有两张图片。经过检查，第二个img节点下的data-src属性是图片的链接：

 <img data-src="https://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c" alt="霸王别姬" class="board-img" />

因此，相应的正则表达式可以写为：.*?data-src="(.*?)" （注：因为这个会接在之前的正则表达式之后，因此最前面写上.*?即可。下同。）

再接下来，电影的名称，在一个p节点下面，class为"name"：

<p class="name"><a href="/films/1203" title="霸王别姬" data-act="boarditem-click" data-val="{movieId:1203}">霸王别姬</a></p>

相应的正则表达式可以写为：.*?name.*?a.*?>(.*?)</a>

上映时间，在一个p节点下面，class为"releasetime"：

<p class="releasetime">上映时间：1993-01-01</p>

相应的正则表达式可以写为：.*?releasetime.*?>(.*?)</p>

评分，在一个p节点下面，class为"score"：

<p class="score"><i class="integer">9.</i><i class="fraction">6</i></p>

相应的正则表达式可以写为：.*?score.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd> （注：最后用dd节点收尾）

把这些正则表达式连接起来，然后就可以用findall()方法查找出所有符合条件的内容。完整的正则表达式如下：

<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?name.*?a.*?>(.*?)</a>.*?releasetime.*?>(.*?)</p>.*?score.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>

下面，我们再定义一个解析网页的方法：

def parse_one_page(html):

    pattern=re.compile('<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?name.*?a.*?>(.*?)</a>.*?releasetime.*?>(.*?)</p>.*?score.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)

    result=re.findall(pattern, html)

    return result

这里需要注意，在定义正则表达式的pattern时，必须加上re.S修饰符（匹配包括换行符在内的所有字符），否则碰到换行就无法进行匹配。

输出的匹配结果如下：

[('', 'https://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c', '霸王别姬', '上映时间：1993-01-01', '9.', ''), ('', 'https://p0.meituan.net/movie/283292171619cdfd5b240c8fd093f1eb255670.jpg@160w_220h_1e_1c', '肖申克的救赎', '上映时间：1994-10-14(美国)', '9.', ''), ('', 'https://p0.meituan.net/movie/54617769d96807e4d81804284ffe2a27239007.jpg@160w_220h_1e_1c', '罗马假日', '上映时间：1953-09-02(美国)', '9.', ''), ('', 'https://p0.meituan.net/movie/e55ec5d18ccc83ba7db68caae54f165f95924.jpg@160w_220h_1e_1c', '这个杀手不太冷', '上映时间：1994-09-14(法国)', '9.', ''), ('', 'https://p1.meituan.net/movie/f5a924f362f050881f2b8f82e852747c118515.jpg@160w_220h_1e_1c', '教父', '上映时间：1972-03-24(美国)', '9.', ''), ('', 'https://p1.meituan.net/movie/0699ac97c82cf01638aa5023562d6134351277.jpg@160w_220h_1e_1c', '泰坦尼克号', '上映时间：1998-04-03', '9.', ''), ('', 'https://p0.meituan.net/movie/da64660f82b98cdc1b8a3804e69609e041108.jpg@160w_220h_1e_1c', '唐伯虎点秋香', '上映时间：1993-07-01(中国香港)', '9.', ''), ('', 'https://p0.meituan.net/movie/b076ce63e9860ecf1ee9839badee5228329384.jpg@160w_220h_1e_1c', '千与千寻', '上映时间：2001-07-20(日本)', '9.', ''), ('', 'https://p0.meituan.net/movie/46c29a8b8d8424bdda7715e6fd779c66235684.jpg@160w_220h_1e_1c', '魂断蓝桥', '上映时间：1940-05-17(美国)', '9.', ''), ('', 'https://p0.meituan.net/movie/230e71d398e0c54730d58dc4bb6e4cca51662.jpg@160w_220h_1e_1c', '乱世佳人', '上映时间：1939-12-15(美国)', '9.', '')]

可以看出，上述的格式还是有些杂乱，让我们修改一下解析网页的方法，使其变为整齐的结构化数据：

def parse_one_page(html):

    pattern=re.compile('<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?name.*?a.*?>(.*?)</a>.*?releasetime.*?>(.*?)</p>.*?score.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)

    result=re.findall(pattern, html)

    for item in result:

        yield {"index": item[0], "movie_name": item[2],\

                "pic": item[1], "release": item[3],\

                "score": item[4]+item[5]}

现在匹配结果变成了字典格式：

{'index': '', 'movie_name': '霸王别姬', 'pic': 'https://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c', 'release': '上映时间：1993-01-01', 'score': '9.6'}

{'index': '', 'movie_name': '肖申克的救赎', 'pic': 'https://p0.meituan.net/movie/283292171619cdfd5b240c8fd093f1eb255670.jpg@160w_220h_1e_1c', 'release': '上映时间：1994-10-14(美国)', 'score': '9.5'}

{'index': '', 'movie_name': '罗马假日', 'pic': 'https://p0.meituan.net/movie/54617769d96807e4d81804284ffe2a27239007.jpg@160w_220h_1e_1c', 'release': '上映时间：1953-09-02(美国)', 'score': '9.1'}

{'index': '', 'movie_name': '这个杀手不太冷', 'pic': 'https://p0.meituan.net/movie/e55ec5d18ccc83ba7db68caae54f165f95924.jpg@160w_220h_1e_1c', 'release': '上映时间：1994-09-14(法国)', 'score': '9.5'}

{'index': '', 'movie_name': '教父', 'pic': 'https://p1.meituan.net/movie/f5a924f362f050881f2b8f82e852747c118515.jpg@160w_220h_1e_1c', 'release': '上映时间：1972-03-24(美国)', 'score': '9.3'}

{'index': '', 'movie_name': '泰坦尼克号', 'pic': 'https://p1.meituan.net/movie/0699ac97c82cf01638aa5023562d6134351277.jpg@160w_220h_1e_1c', 'release': '上映时间：1998-04-03', 'score': '9.5'}

{'index': '', 'movie_name': '唐伯虎点秋香', 'pic': 'https://p0.meituan.net/movie/da64660f82b98cdc1b8a3804e69609e041108.jpg@160w_220h_1e_1c', 'release': '上映时间：1993-07-01(中国香港)', 'score': '9.2'}

{'index': '', 'movie_name': '千与千寻', 'pic': 'https://p0.meituan.net/movie/b076ce63e9860ecf1ee9839badee5228329384.jpg@160w_220h_1e_1c', 'release': '上映时间：2001-07-20(日本)', 'score': '9.3'}

{'index': '', 'movie_name': '魂断蓝桥', 'pic': 'https://p0.meituan.net/movie/46c29a8b8d8424bdda7715e6fd779c66235684.jpg@160w_220h_1e_1c', 'release': '上映时间：1940-05-17(美国)', 'score': '9.2'}

{'index': '', 'movie_name': '乱世佳人', 'pic': 'https://p0.meituan.net/movie/230e71d398e0c54730d58dc4bb6e4cca51662.jpg@160w_220h_1e_1c', 'release': '上映时间：1939-12-15(美国)', 'score': '9.1'}

接下来要将结果写入txt文件，这里定义一个写入文件的方法：

def write_to_file(result):

    with open ("result.txt","a") as f:

        f.write(json.dumps(result, ensure_ascii=False)+'\n')

然后在main方法里将结果逐行写入文件：

def main():

    url="https://maoyan.com/board/4"

    html=get_one_page(url)

    result=parse_one_page(html)

    for i in result:

        write_to_file(i)

这里有几个需要注意的地方：1，由于需要将结果逐行写入，因此文件用"a"方式打开，a也就是append。

2，由于需要将结果逐行写入，因此将结果写入文件时最后加上换行符"\n"。

3，由于结果是字典格式，无法直接写入文件，需要先用json.dumps方法把字典转为字符串，但是这样会导致中文乱码。根据json.dumps方法的注释，如果将ensure_ascii设为false，那么写入的字符串可以包含非ASCII字符，否则，所有这些字符都会在JSON字符串中转义。也就是说将参数ensure_ascii设为False可以使中文（UTF-8编码）不经过转义，也就不会乱码。

至此，第一页网页就已经全部爬取成功了。但是一共有10页这样的网页，我们打开第二个网页和第三个网页看一下。可以发现，第二个网页的url变为：https://maoyan.com/board/4?offset=10，第三页网页的url则是：https://maoyan.com/board/4?offset=20。可以发现规律就是多了一个offset参数，那么我们把1~10页的网页爬取url设置从offset为0，一直到offset为90，就可以爬取所有网页了。

由于我们在main方法里设定了爬取url，因此我们给main方法增加一个输入参数，也就是offset偏移值，这样，我们就能爬取我们想要的网页了。最后，再增添一个循环语句，用于爬取各种offset的网页，这样，一个简单的爬虫程序就完成了。

我们再把代码重新整合一下，并且由于现在猫眼多了反爬虫，如果爬取速度过快，会没有响应，因此，需要加上一个延时。

完整代码如下：

import requests

import re

import json

import time

def get_one_page(url):

    try:

        headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) \

                 AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'}

        response=requests.get(url, headers=headers)

        if response.status_code==200:

            return response.text

        return None

    except requests.RequestException:

        print("Fail")

def parse_one_page(html):

    pattern=re.compile('<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?name.*?a.*?>(.*?)</a>.*?releasetime.*?>(.*?)</p>.*?score.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)

    result=re.findall(pattern, html)

    for item in result:

        yield {"index": item[0], "movie_name": item[2],\

                "pic": item[1], "release": item[3],\

                "score": item[4]+item[5]}

def write_to_file(result):

    with open ("result.txt","a") as f:

        f.write(json.dumps(result, ensure_ascii=False)+'\n')

def main(offset):

    url="https://maoyan.com/board/4?offset={}".format(offset)

    html=get_one_page(url)

    result=parse_one_page(html)

    for i in result:

        write_to_file(i)

if __name__=='__main__':

    for i in range(10):

        main(offset=i*10)

        time.sleep(1)

爬虫基础以及一个简单的实例（requests，re）的更多相关文章

JMeter基础之一一个简单的性能测试
JMeter基础之一一个简单的性能测试上一节中,我们了解了jmeter的一此主要元件,那么这些元件如何使用到性能测试中呢.这一节创建一个简单的测试计划来使用这些元件.该计划对应的测试需求. 1)测 ...
C语言入门教程: 一个简单的实例
对于学习要保持敬畏! 语言不只是一种工具,还是一种资源,因此,善待它,掌握它! 我们知道,对于未知通常都会充满好奇和畏惧,既想了解它,又害怕神秘面纱隐藏的不确定性.对于一门编程语言同样如此,我将以 ...
大话JS面向对象之扩展篇面向对象与面向过程之间的博弈论（OO Vs 过程）------（一个简单的实例引发的沉思）
一,总体概要 1,笔者浅谈我是从学习Java编程开始接触OOP(面向对象编程),刚开始使用Java编写程序的时候感觉很别扭(面向对象式编程因为引入了类.对象.实例等概念,非常贴合人类对于世间万物的认 ...
原生Ajax用法——一个简单的实例
Ajax全名(Asynchronous(异步) JavaScript and XML )是可以实现局部刷新的在讲AJax之前我们先用简单的实例说一下同步和异步这个概念 /*异步的概念(就是当领导有一 ...
【转】JMeter基础之——一个简单的性能测试
上一节中,我们了解了jmeter的一此主要元件,那么这些元件如何使用到性能测试中呢.这一节创建一个简单的测试计划来使用这些元件.该计划对应的测试需求. 1)测试目标网站是fnng.cnblogs.co ...
Django学习之 Django安装与一个简单的实例认识
一．Django简介 1.MVC与MTV模型 (1)MVC模型 Web服务器开发领域里著名的MVC模式,所谓MVC就是把Web应用分为模型(M),控制器(C)和视图(V)三层,他们之间以一种插件式的. ...
从urllib和urllib2基础到一个简单抓取网页图片的小爬虫
urllib最常用的两大功能(个人理解urllib用于辅助urllib2) 1.urllib.urlopen() 2. urllib.urlencode() #适当的编码,可用于后面的post提交 ...
【基础】一个简单的MVC实例及故障排除
Controller: public ActionResult Index() { string setting = "ApplicationServices"; var conn ...
python --爬虫基础 --爬取今日头条使用 requests 库的基本操作, Ajax
'''思路一: 由于是Ajax的网页,需要先往下划几下看看XHR的内容变化二:分析js中的代码内容三:获取一页中的内容四:获取图片五:保存在本地使用的库1. requests 网页获取库 2.fro ...

随机推荐

从Harbor仓库拉起镜像，创建容器并更新shell脚本
注意: 此shell脚本仅供基本使用,还有好多待完善的地方大致流程使用Jenkins从Gogs拉取仓库代码,根据选择的参数和输入的标签,确定要编译打包jar的模块,以及要制作的docker镜像信息 ...
MVC-09安全
部分8:添加安全. MVC应用程序安全性 Models文件夹包含表示应用程序模型的类. Visual Web Developer自动创建AccountModels.cs文件,该文件包含用于应用程序认证 ...
netcore 版本升级导致的cookie验证失败
排查了两天的问题,本来都是运行正常的cookie验证,突然不好用了,服务器获取不到cookie信息. 我确实是升级了.netcore sdk,之前是2.2.102,后来升级成了2.2.107,一开始并 ...
ABP 基于DDD的.NET开发框架学习（六）创建新动态Api
我们想要这个服务暴露成一个Web API控制器,以方便客户端调用.ASP.NET Boilerplate能够自动且动态地为这个应用服务创建Web API 控制器,只需要一行配置代码即可完成. Dyna ...
String 字符串的==和eqauls区别
1.对于基本类型来说,==比较的是数据的值,equals方法也是数据的值: 对于引用类型来说,==比较的是引用的地址,equals方法比较的是对象的内容. 2.String是引用类型,用“=”创建字符 ...
Centos6.10编译安装php-7.1.12并安装redis模块
1.服务器初始化 yum update -yyum install epel-release -yyum install gcc gcc-c++ wget lsof lrzsz telnet -y 2 ...
docker 安装及使用介绍
docker 安装及使用用介绍安装docker所依赖的基础环境 1 64 bits CPU 2 Linux Kernel 3.10+ //如果低于则需要手动给内核打补丁.因为分层构建联合挂载系统得在 ...
TP5框架模块绑定二级域名
application\config.php 修改 url_domain_deploy 为 true 'url_domain_deploy' => true application\route. ...
【转】高性能网络编程1----accept建立连接
最近在部门内做了个高性能网络编程的培训,近日整理了下PPT,欲写成一系列文章从应用角度谈谈它. 编写服务器时,许多程序员习惯于使用高层次的组件.中间件(例如OO(面向对象)层层封装过的开源组件),相比 ...
C实现栈与队列
C实现栈与队列做了个栈和队列的基础demo,写得比较快,就没有什么注释,其实看各个函数的名字就可以知道函数的作用了. 栈的实现 #include <stdio.h> #include & ...

爬虫基础以及一个简单的实例（requests，re）

爬虫基础以及一个简单的实例（requests，re）的更多相关文章

随机推荐

热门专题