Python爬虫之解析网页

常用的类库为lxml, BeautifulSoup, re(正则)

以获取豆瓣电影正在热映的电影名为例,url='https://movie.douban.com/cinema/nowplaying/beijing/'

网页分析

部分网页源码

<ul class="lists">

                    <li

                        id="3878007"

                        class="list-item"

                        data-title="海王"

                        data-score="8.2"

                        data-star="40"

                        data-release="2018"

                        data-duration="143分钟"

                        data-region="美国 澳大利亚"

                        data-director="温子仁"

                        data-actors="杰森·莫玛 / 艾梅柏·希尔德 / 威廉·达福"

                        data-category="nowplaying"

                        data-enough="True"

                        data-showed="True"

                        data-votecount="105013"

                        data-subject="3878007"

                    >

分析可知我们要的电影名称信息在li标签的data-title属性里

下面开始写代码

爬虫源码展示

import requests

from lxml import etree              # 导入库

from bs4 import BeautifulSoup

import re

import time

# 定义爬虫类

class Spider():

    def __init__(self):

        self.url = 'https://movie.douban.com/cinema/nowplaying/beijing/'

        self.headers = {

            'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'

        }

        r = requests.get(self.url,headers=self.headers)

        r.encoding = r.apparent_encoding

        self.html = r.text

    def lxml_find(self):

        '''用lxml解析'''

        start = time.time()						# 三种方式速度对比

        selector = etree.HTML(self.html)        # 转换为lxml解析的对象

        titles = selector.xpath('//li[@class="list-item"]/@data-title')    # 这里返回的是一个列表

        for each in titles:

            title = each.strip()        # 去掉字符左右的空格

            print(title)

        end = time.time()

        print('lxml耗时', end-start)

    def BeautifulSoup_find(self):

        '''用BeautifulSoup解析'''

        start = time.time()

        soup = BeautifulSoup(self.html, 'lxml')   # 转换为BeautifulSoup的解析对象()里第二个参数为解析方式

        titles = soup.find_all('li', class_='list-item')

        for each in titles:

            title = each['data-title']

            print(title)

        end = time.time()

        print('BeautifulSoup耗时', end-start)

    def re_find(self):

        '''用re解析'''

        start = time.time()

        titles = re.findall('data-title="(.+)"',self.html)

        for each in titles:

            print(each)

        end = time.time()

        print('re耗时', end-start)

if __name__ == '__main__':

    spider = Spider()

    spider.lxml_find()

    spider.BeautifulSoup_find()

    spider.re_find()

输出结果

海王

无名之辈

无敌破坏王2：大闹互联网

狗十三

惊涛飓浪

毒液：致命守护者

憨豆特工3

神奇动物：格林德沃之罪

恐龙王

老爸102岁

生活万岁

进击的男孩

摘金奇缘

亡命救赎

一百年很长吗

云上日出

谁是坏孩子

照相师

缘·梦

网络谜踪

龙猫

印度合伙人

绿毛怪格林奇

最萌警探

春天的马拉松

lxml耗时 0.007623910903930664

海王

无名之辈

无敌破坏王2：大闹互联网

狗十三

惊涛飓浪

毒液：致命守护者

憨豆特工3

神奇动物：格林德沃之罪

恐龙王

老爸102岁

生活万岁

进击的男孩

摘金奇缘

亡命救赎

一百年很长吗

超时空大冒险

天渠

爱不可及

二十岁

你好，之华

冒牌搭档

铁甲战神

克隆人

恐怖快递

中国蓝盔

阿凡提之奇缘历险

名侦探柯南：零的执行人

为迈克尔·杰克逊铸造雕像

再见仍是朋友

心迷宫

淡蓝琥珀

阿拉姜色

两个俏公主

云上日出

谁是坏孩子

照相师

缘·梦

网络谜踪

龙猫

印度合伙人

绿毛怪格林奇

最萌警探

春天的马拉松

BeautifulSoup耗时 0.061043500900268555

海王

无名之辈

无敌破坏王2：大闹互联网

狗十三

惊涛飓浪

毒液：致命守护者

憨豆特工3

神奇动物：格林德沃之罪

恐龙王

老爸102岁

生活万岁

进击的男孩

摘金奇缘

亡命救赎

一百年很长吗

超时空大冒险

天渠

爱不可及

二十岁

你好，之华

冒牌搭档

铁甲战神

克隆人

恐怖快递

中国蓝盔

阿凡提之奇缘历险

名侦探柯南：零的执行人

为迈克尔·杰克逊铸造雕像

再见仍是朋友

心迷宫

淡蓝琥珀

阿拉姜色

两个俏公主

云上日出

谁是坏孩子

照相师

缘·梦

网络谜踪

龙猫

印度合伙人

绿毛怪格林奇

最萌警探

春天的马拉松

re耗时 0.0004856586456298828

代码说明

1. lxml

lxml是通过xpath来查找

使用前需使用调用ertee.HTML()方法('()'内填HTML代码)生成一个可查找的对象

常用xpath语法如下

// 两个斜杠为向下查找孙子标签

/ 一个斜杠为查找直接儿子标签

[] 方括号内填标签属性,如查找class属性为name的a标签,格式为a[@class="name"]

/text() 取出标签的内容,如查找网页中的 <a class="name">KAINHUCK</a> 中的KAINHUCK,格式为//a[@class="name"]/text()

/@attr 取出标签的属性,如查找网页中的 <a class="name">KAINHUCK</a> 中的class属性值name,格式为//a[@class="name"]/@class

2. BeautifulSoup
使用前需先将HTML转换为课查找对象,格式为

BeautifulSoup(html, 'lxml')

html 为HTML代码, 后面的参数为转换方法(其他方法有'html.parser' , 'html5lib', 推荐使用'lxml')

查找方法

info = find('a', id='kain') 查找第一个id属性为kain的a标签,并存进info变量中(其他标签同理)

find_all('a', class_='name') 查找所有class属性为name的a标签(注:class属性需写成'class_')

info.p.text 获取第一个id属性为kain的a标签下的p标签的内容(info为上面例子里的info,其他同理)

info.p['name'] 获取第一个id属性为kain的a标签下的p标签的name属性值(info为上面例子里的info,其他同理)

当代码中有很多同级标签时
<p class='info-list'>

       <a class='name'>text1</a>

       <a class='name'>text2</a>

       <a class='name'>text3</a>

       <a class='name'>text4</a>

   </p>
示例代码如下
from bs4 import BeautifulSoup

html = '''

   <p class='info-list'>

       <a class='name'>text1</a>

       <a class='name'>text2</a>

       <a class='name'>text3</a>

       <a class='name'>text4</a>

   </p>

'''

soup = BeautifulSoup(html, 'lxml')

texts = soup.find('p', class_='info-list')

print(texts.contents[1].text)	# 输出text1

print(texts.contents[2].text)	# 输出text2

print(texts.contents[3].text)	# 输出text3

print(texts.contents[4].text)	# 输出text4
注意:不是从0开始
3. re(正则表达式)

正则表达式内容较多,大家可以参考这里

总结

使用lxml查找时可以在目标网页按F12调出开发者窗口然后再在按Ctrl+f查找,在查找栏里输入你的xpath语法可以检查是否能找到对应内容

可以从看例子的输出中看出三种方法的速度

lxml耗时 0.007623910903930664

BeautifulSoup耗时 0.061043500900268555

re耗时 0.0004856586456298828

对以上三种最常用的解析网页的方法做个对比

	lxml	BeautifulSoup	re
语法难易度	简单	简单	复杂
查找速度	较快	慢	快

综上,对于网页内容的解析,这里推荐新手使用lxml方法,而对速度有要求就使用正则表达式(入门有点困难)

Python爬虫之解析网页的更多相关文章

python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三]
目录前言一.BeautifulSoup的基本语法二.爬取网页图片扩展学习后记前言本章同样是解析一个网页的结构信息在上章内容中(python网络爬虫之解析网页的正则表达式(爬取4k动漫图 ...
python爬虫数据解析之BeautifulSoup
BeautifulSoup是一个可以从HTML或者XML文件中提取数据的python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. BeautfulSoup是python爬虫三 ...
python爬虫——爬取网页数据和解析数据
1.网络爬虫的基本概念网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序.只要浏览器能够做的事情,原则上,爬虫都能够做到. 2 ...
python网络爬虫之解析网页的XPath(爬取Path职位信息)[三]
目录前言 XPath的使用方法 XPath爬取数据后言 @(目录) 前言本章同样是解析网页,不过使用的解析技术为XPath. 相对于之前的BeautifulSoup,我感觉还行,也是一个比较常用 ...
Python爬虫之三种网页抓取方法性能比较
下面我们将介绍三种抓取网页数据的方法,首先是正则表达式,然后是流行的 BeautifulSoup 模块,最后是强大的 lxml 模块. 1. 正则表达式如果你对正则表达式还不熟悉,或是需要一些提 ...
使用notepad++学习python爬虫，print网页中文乱码问题
今天学习使用python爬虫的时候发现爬到的网页中文会乱码,一直网上搜索解决办法,一个一个试验过去,发现还是乱码,然后我就开始使用其它方法测试,用python自带的编辑器打开是正常的,发现是notep ...
python爬虫数据解析之正则表达式
爬虫的一般分为四步,第二个步骤就是对爬取的数据进行解析. python爬虫一般使用三种解析方式,一正则表达式,二xpath,三BeautifulSoup. 这篇博客主要记录下正则表达式的使用. 正则表 ...
python爬虫--数据解析
数据解析什么是数据解析及作用概念:就是将一组数据中的局部数据进行提取作用:来实现聚焦爬虫数据解析的通用原理标签定位取文本或者属性正则解析正则回顾单字符: . : 除换行以外所有字符 ...
python爬虫三大解析库之XPath解析库通俗易懂详讲
目录使用XPath解析库 @(这里写自定义目录标题) 使用XPath解析库 1.简介 XPath(全称XML Path Languang),即XML路径语言,是一种在XML文档中查找信息的语言. ...

随机推荐

Windows编程常用api
转载网络黑客常用WIN API函数整理一.进程创建进程: CreateProcess (,,,,,,,&si,&pi); WinExec("notepad", ...
NCSC敦促开发者淘汰Python 2
导读 Python 2.x即将结束生命,英国国家网络安全中心(NCSC)敦促开发人员尽快从Python 2.x迁移到Python 3.x.越快越好.Python 2.x将于2020年1月1日停止使用, ...
endnote的使用
下载网址: https://support.clarivate.com/Endnote/s/article/EndNote-Installer-download?language=en_US 关联of ...
Day8 - D - Multiplication Table CodeForces - 448D
Bizon the Champion isn't just charming, he also is very smart. While some of us were learning the mu ...
pytesseract 识别率低提升方法
pytesseract 识别率低提升方法一.跟换识别语言包下载地址https://github.com/tesseract-ocr/tessdata 二.修改图片的灰度 from PIL impo ...
BInder机制总结
BInder机制 Linux内核的基础知识进程隔离/虚拟地址空间操作系统当中为了保证进程间互不干扰,设计了进程隔离的技术,避免了一个进程去操作另一个进程的数据.进程隔离用到了虚拟地址空间,不同进程 ...
c# 外挂操作（内存操作）（内存读写取窗口句柄移动窗口取模块地址）工具类
来源于网上参考 https://www.cnblogs.com/fuhua/p/5877781.html 等众多文章详情取看我第二个例子封装功能较多 https://www.cnblogs.co ...
吴裕雄 Bootstrap 前端框架开发——Bootstrap 字体图标(Glyphicons)：glyphicon glyphicon-plus
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <meta name ...
Problem B: Bulbs
Problem B: Bulbs Greg has an m×n grid of Sweet Lightbulbs of Pure Coolness he would like to turn on. ...
c++输出哈夫曼编码
#include<iostream> #include<string> using namespace std; struct huffTree { int parent; i ...

Python爬虫之解析网页

常用的类库为lxml, BeautifulSoup, re(正则)

网页分析

部分网页源码

爬虫源码展示

代码说明

1. lxml

2. BeautifulSoup

3. re(正则表达式)

总结

对以上三种最常用的解析网页的方法做个对比

Python爬虫之解析网页的更多相关文章

随机推荐

热门专题