Xpath lxml库的安装和使用

Xpath lxml库的安装和使用

提取的内容

随意选取的一段

节点包含的影片信息，如下所示：

<dd>

	<i class="board-index board-index-1">1</i>

	<a href="/films/1200486" title="我不是药神" class="image-link" data-act="boarditem-click" data-val="{movieId:1200486}">

		<img src="//s3plus.meituan.net/v1/mss_e2821d7f0cfe4ac1bf9202ecf9590e67/cdn-prod/file:5788b470/image/loading_2.e3d934bf.png" alt="" class="poster-default">

		<img alt="我不是药神" class="board-img" src="https://p0.pipi.cn/mmdb/d2dad59253751bd236338fa5bd5a27c710413.jpg?imageView2/1/w/160/h/220">

	</a>

	<div class="board-item-main">

		<div class="board-item-content">

			<div class="movie-item-info">

				<p class="name">

					<a href="/films/1200486" title="我不是药神" data-act="boarditem-click" data-val="{movieId:1200486}">我不是药神</a>

				</p>

				<p class="star">

					主演：徐峥,周一围,王传君

				</p>

				<p class="releasetime">上映时间：2018-07-05</p>

			</div>

			<div class="movie-item-number score-num">

				<p class="score">

					<i class="integer">9.</i>

					<i class="fraction">6</i>

				</p>

			</div>

		</div>

	</div>

</dd>

代码

# coding=utf-8

import requests

import random

import csv

from lxml import etree

class MaoyanSpider(object):

    def user_agent(self):

        """

        return an User-Agent at random

        :return:

        """

        ua_list = [

            'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.101',

            'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122',

            'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71',

            'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95',

            'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71',

            'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)',

            'Mozilla/5.0 (Windows NT 5.1; U; en; rv:1.8.1) Gecko/20061208 Firefox/2.0.0 Opera 9.50',

            'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0',

        ]

        return random.choice(ua_list)

    def __init__(self):

        self.url = 'https://www.maoyan.com/board/4?offset=0'

        # self.headers = {'User-Agent': self.user_agent()}

        self.headers = {

            'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/113.0",

            "Referer": "https://www.maoyan.com/"

        }

    def do_requests(self, url):

        print(self.headers)

        r = requests.get(url=url, headers=self.headers)

        r.encoding = 'utf-8'

        res = r.text

        return res

    # 下载图片 、 mp4 、 zip 都可以这样下载

    def save_data_b(self, url, img_name):

        r = requests.get(url)

        with open('img/' + img_name, mode='wb') as f:

            f.write(r.content)

    # 存为CSV

    def save_data_csv(self, data_list):

        headers = data_list[0].keys()  # 获取标题

        with open('movice.csv', 'w', newline='', encoding='utf-8') as f:

            f_csv = csv.DictWriter(f, headers)

            f_csv.writeheader()

            f_csv.writerows(data_list)

    # 解析主页面

    def parser_main_text(self, html_str):

        # 创建解析对象

        parse_html = etree.HTML(html_str)

        # 获取 class="board-wrapper" 的 dl 下的dd , 匹配 10 个<dd>节点

        dd_list = parse_html.xpath('//dl[@class="board-wrapper"]/dd')

        print(dd_list)

        # .// 表示dd节点的所有子节点后代节点

        data_list = list()

        for dd in dd_list:

            # 获取信息

            dataKV = {}

            dataKV['title'] = dd.xpath('.//p[@class="name"]/a/text()')[0].strip()

            dataKV['star'] = dd.xpath('.//p[@class="star"]/text()')[0].strip()

            dataKV['release_time'] = dd.xpath('.//p[@class="releasetime"]/text()')[0].strip()

            dataKV['img'] = dd.xpath('.//a/img[@class="board-img"]/@data-src')[0].strip()

			# https://p0.pipi.cn/mmdb/d2dad59253751bd236338fa5bd5a27c710413.jpg?imageView2/1/w/160/h/220

            img_name = (dataKV['img'].split('?')[0]).split('/')[-1]

            # 下载图片

            self.save_data_b(dataKV['img'], img_name)

            data_list.append(dataKV)

        # 存为csv数据

        # print(dataKV)

        self.save_data_csv(data_list)

    def run(self):

        # 请求页面

        res_main_content = self.do_requests(self.url)

        # 解析页面

        self.parser_main_text(res_main_content)

if __name__ == '__main__':

    # 步骤

	# 1. 请求主页面的内容

    # 2. 爬取主页面中的文章列表标题、作者、时间

    # 3. 下载图片

	# 4. 存为csv

    spider = MaoyanSpider()

    spider.run()

生成的csv

title,star,release_time,img

我不是药神,"主演：徐峥,周一围,王传君",上映时间：2018-07-05,https://p0.pipi.cn/mmdb/d2dad59253751bd236338fa5bd5a27c710413.jpg?imageView2/1/w/160/h/220

肖申克的救赎,"主演：蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿",上映时间：1994-09-10(加拿大),https://p0.pipi.cn/mmdb/fb7386020fa51b0fafcf3e2e3a0bbe694d17d.jpg?imageView2/1/w/160/h/220

海上钢琴师,"主演：蒂姆·罗斯,比尔·努恩 ,克兰伦斯·威廉姆斯三世",上映时间：2019-11-15,https://p0.pipi.cn/mmdb/d2dad592c7e7e1d2365bf1b63cd25951b722b.jpg?imageView2/1/w/160/h/220

绿皮书,"主演：维果·莫腾森,马赫沙拉·阿里,琳达·卡德里尼",上映时间：2019-03-01,https://p0.pipi.cn/mmdb/d2dad59253751b230f21f0818a5bfd4d8679c.jpg?imageView2/1/w/160/h/220

霸王别姬,"主演：张国荣,张丰毅,巩俐",上映时间：1993-07-26,https://p0.pipi.cn/mmdb/fb7386beddd338537c8ea3bb80d25a9078b13.jpg?imageView2/1/w/160/h/220

美丽人生,"主演：罗伯托·贝尼尼,朱斯蒂诺·杜拉诺,赛尔乔·比尼·布斯特里克",上映时间：2020-01-03,https://p0.pipi.cn/mmdb/d2dad592c7e7e1d2367a3507befaed31a5903.jpg?imageView2/1/w/160/h/220

这个杀手不太冷,"主演：让·雷诺,加里·奥德曼,娜塔莉·波特曼",上映时间：1994-09-14(法国),https://p0.pipi.cn/mmdb/d2dad592c7e7e13ba3ddd25677b4d70fc45fa.jpg?imageView2/1/w/160/h/220

小偷家族,"主演：中川雅也,安藤樱,松冈茉优",上映时间：2018-08-03,https://p0.pipi.cn/mmdb/d2dad5925372ffd7c387a9d01bddad81625c3.jpg?imageView2/1/w/160/h/220

哪吒之魔童降世,"主演：吕艳婷,囧森瑟夫,瀚墨",上映时间：2019-07-26,https://p0.pipi.cn/mmdb/d2dad592537923f0ee07acada3ac59b9f3ffb.jpg?imageView2/1/w/160/h/220

怦然心动,"主演：玛德琳·卡罗尔,卡兰·麦克奥利菲,艾丹·奎因",上映时间：2010-07-26(美国),https://p0.pipi.cn/mmdb/d2dad592b122ff8d3387a93ccab6036f616c1.jpg?imageView2/1/w/160/h/220

下载的图片

下载的图片在img中

参考文档

http://c.biancheng.net/python_spider/lxml-case.html

04 Xpath_[实例]爬取maoyan的更多相关文章

python爬虫实例——爬取歌单
学习自<<从零开始学python网络爬虫>> 爬取酷狗歌单,保存入csv文件直接上源代码:(含注释) import requests #用于请求网页获取网页数据 from b ...
python爬虫从入门到放弃（九）之实例爬取上海高级人民法院网开庭公告数据
通过前面的文章已经学习了基本的爬虫知识,通过这个例子进行一下练习,毕竟前面文章的知识点只是一个一个单独的散知识点,需要通过实际的例子进行融合分析网站其实爬虫最重要的是前面的分析网站,只有对要爬取 ...
scrapy实例:爬取中国天气网
1.创建项目在你存放项目的目录下,按shift+鼠标右键打开命令行,输入命令创建项目: PS F:\ScrapyProject> scrapy startproject weather # w ...
爬虫实例——爬取淘女郎相册（通过selenium、PhantomJS、BeautifulSoup爬取）
环境操作系统:CentOS 6.7 32-bit Python版本:2.6.6 第三方插件 selenium PhantomJS BeautifulSoup 代码 # -*- coding: utf ...
爬虫实例——爬取煎蛋网OOXX频道（反反爬虫——伪装成浏览器）
煎蛋网在反爬虫方面做了不少工作,无法通过正常的方式爬取,比如用下面这段代码爬取无法得到我们想要的源代码. import requests url = 'http://jandan.net/ooxx' ...
scrapy实例:爬取天气、气温等
1.创建项目 scrapy startproject weather # weather是项目名称 scrapy crawl spidername开始运行,程序自动使用start_urls构造Requ ...
python爬虫+正则表达式实例爬取豆瓣Top250的图片
直接上全部代码新手上路代码风格可能不太好 import requests import re from fake_useragent import UserAgent #### 用来伪造爬头部信息 ...
python之爬虫（十一）实例爬取上海高级人民法院网开庭公告数据
通过前面的文章已经学习了基本的爬虫知识,通过这个例子进行一下练习,毕竟前面文章的知识点只是一个一个单独的散知识点,需要通过实际的例子进行融合分析网站其实爬虫最重要的是前面的分析网站,只有对要爬取 ...
Python实例---爬取下载喜马拉雅音频文件
PyCharm下python爬虫准备打开pycharm 点击设置点击项目解释器,再点击右边+号搜索相关库并添加,例如:requests 喜马拉雅全网递归下载打开谷歌/火狐浏览器,按F12打开开 ...
[scrapy]实例:爬取jobbole页面
工程概览: 创建工程 scrapy startproject ArticleSpider 创建spider cd /ArticleSpider/spiders/ 新建jobbole.py # -*- ...

随机推荐

CSP 2021 入门级
CSP 2021 入门级(DONE) 1.C 语言不支持面向对象. 2.计算机界的最高奖项"图灵奖"以英国的阿兰·艾伦·图灵命名,被称为"计算机界的诺贝尔奖". ...
python [pymysql] 操作MySQL数据库
python [pymysql] 操作MySQL数据库连接.关闭数据库 def get_conn_(): """ :return: 连接,游标 "" ...
VS2022+QT5.14.2开发VS QT Tool的使用
1.安装环境vs2022+QT5.14.2 qt vs tool (vsaddin)的使用遇到的坑 1.安装qt-vsaddin-msvc2022-3.0.2.vsix 安装失败 2.安装qt-vsa ...
Qt 设置图标的三种方式
Qt 设置软件窗口图标有三种方式: 一.通过资源文件,设置图标 this->setWindowIcon(QIcon(":/logo.ico")); 二.通过 pro 文件,设 ...
京东一面：如何在SpringBoot启动时执行特定代码？有哪些方式？
引言 Spring Boot 提供了许多便捷的功能和特性,使得开发者可以更加轻松地构建强大.高效的应用程序.然而,在应用程序启动时执行一些初始化操作是至关重要的,它可以确保应用程序在启动后处于预期的状 ...
可视化学习：使用WebGL绘制圆形，实现色盘
前言在Canvas2D中实现圆形的绘制比较简单,只要调用arc指令就能在Canvas画布上绘制出一个圆形,类似的,在SVG中我们也只需要一个<circle>标签就能在页面上绘制一个圆形. ...
Python根据主播直播时间段判定订单销售额归属
写在前面:最近在群里看到一个这样的直播电商的场景觉得还是挺有趣的,于是就想用Python来实现. 需求描述:根据主播直播时间段结合销售订单的付款时间判断所属销售的归属生成主播在线直播时间段数据 fr ...
c# 后端与前端时间戳的转换
C# DateTime与时间戳转换 C# DateTime与时间戳的相互转换,包括JavaScript时间戳和Unix的时间戳. 1. 什么是时间戳首先要清楚JavaScript与Unix的时间戳的 ...
【进阶篇】Java 实际开发中积累的几个小技巧（二）
目录前言六.自定义注解 6.1定义注解 6.2切面实现 6.3业务使用七.抽象类和接口 7.1隔离业务层与 ORM 层 7.2隔离子系统的业务实现 7.3选择对比文章小结前言笔者目前从事一 ...
Spark3.0 Standalone模式部署
之前介绍过Spark 1.6版本的部署,现在最新版本的spark为3.0.1并且已经完全兼容hadoop 3.x,同样仍然支持RDD与DataFrame两套API,这篇文章就主要介绍一下基于Hadoo ...

04 Xpath_[实例]爬取maoyan

Xpath lxml库的安装和使用

提取的内容

代码

生成的csv

下载的图片

参考文档

04 Xpath_[实例]爬取maoyan的更多相关文章

随机推荐

热门专题