Python爬虫爬取豆瓣电影之数据提取值xpath和lxml模块

工具：Python 3.6.5、PyCharm开发工具、Windows 10 操作系统、谷歌浏览器

目的：爬取豆瓣电影排行榜中电影的title、链接地址、图片、评价人数、评分等

网址：https://movie.douban.com/chart

语法要点：

xpath语法：

谷歌浏览器安装 xpath helper插件：帮助我们从elements中定位数据

1、选择节点（标签）

　　（1）、/html/head/meta：能够选中html下的所有的meta标签

　　（2）、//li：当前页面上的所有的li标签

　　（3）、/html/head//link：head下的所有link标签

2、//：能够从任意节点开始选择

　　（1）、//li：当前页面上的所有的li标签

　　（2）、/html/head//link：head下的所有的link标签

3、@符号的用途

　　（1）、选择具体某个元素：//div[@class='feed']/ul/li，选择class='feed'的div下的ul下的li

　　（2）、a/@href：选择a的href的值

4、获取文本

　　（1）、/a/text()：获取a下的文本

　　（2）、/a//text()：获取a下的所有文本

示例：

lxml语法：

1、安装：pip install lxml

2、使用

　　from lxml import etree

　　element = etree.HTML("html字符串")

　　element.xpath("")

代码：

 from lxml import etree

 import requests

 url = "https://movie.douban.com/chart"

 headers = {

 "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Safari/537.36"

 }

 response = requests.get(url,headers=headers)

 html_str = response.content.decode()

 #print(html_str)

 html = etree.HTML(html_str)

 print(html)

 #1.获取所有的电影的URL地址

 #url_list = html.xpath("//div[@class='indent']/div/table//div[@class='pl2']/a/@href")

 #print(url_list)

 #2.所有图片的地址

 #img_list = html.xpath("//div[@class='indent']/div/table//a[@class='nbg']/img/@src")

 #print(img_list)

 ret1 = html.xpath("//div[@class='indent']/div/table")

 print(ret1)

 for table in ret1:

     item = {}

     item["title"] = table.xpath(".//div[@class='pl2']/a/text()")[0].replace("/","").strip()

     item["href"] = table.xpath(".//div[@class='pl2']/a/@href")[0]

     item["img"] = table.xpath(".//a[@class='nbg']/img/@src")[0]

     item["comment_num"] = table.xpath(".//span[@class='pl']/text()")[0]

     item["rating_num"] = table.xpath(".//span[@class='rating_nums']/text()")[0]

     print(item)

运行效果：

Python爬虫爬取豆瓣电影之数据提取值xpath和lxml模块的更多相关文章

python 爬虫&爬取豆瓣电影top250
爬取豆瓣电影top250from urllib.request import * #导入所有的request,urllib相当于一个文件夹,用到它里面的方法requestfrom lxml impor ...
python爬虫-爬取豆瓣电影数据
#!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:27# 文件 :spider_05.py# IDE :PyChar ...
Python爬虫爬取豆瓣电影名称和链接，分别存入txt，excel和数据库
前提条件是python操作excel和数据库的环境配置是完整的,这个需要在python中安装导入相关依赖包: 实现的具体代码如下: #!/usr/bin/python# -*- coding: utf ...
Python爬虫-爬取豆瓣电影Top250
#!usr/bin/env python3 # -*- coding:utf-8-*- import requests from bs4 import BeautifulSoup import re ...
python爬取豆瓣电影信息数据
题外话+ 大家好啊,最近自己在做一个属于自己的博客网站(准备辞职回家养老了,明年再战)在家里琐事也很多, 加上自己一回到家就懒了(主要是家里冷啊! 广东十几度,老家几度,躲在被窝瑟瑟发抖,) 由于 ...
Python小爬虫——抓取豆瓣电影Top250数据
python抓取豆瓣电影Top250数据 1.豆瓣地址:https://movie.douban.com/top250?start=25&filter= 2.主要流程是抓取该网址下的Top25 ...
写一个python 爬虫爬取百度电影并存入mysql中
目标是利用python爬取百度搜索的电影在类型地区年代各个标签下电影的名字评分和图片连接以及电影连接首先我们先在mysql中建表 create table liubo4( id in ...
python爬虫 Scrapy2-- 爬取豆瓣电影TOP250
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...

随机推荐

Android应用开发基础之二：数据存储和界面展现（二）
常见布局相对布局 RelativeLayout 组件默认左对齐.顶部对齐设置组件在指定组件的右边 android:layout_toRightOf="@id/tv1" 设置在指 ...
Siebel界面的搭建
Siebel界面的初步搭建都是基于Siebel Tools工具来创建的,其搭建步骤: 1. 首先先创建一个Project项目,点击project--->点 new Record--->输入 ...
patch 修改有问题的
diff --git a/include/net/tcp.h b/include/net/tcp.h@@ -1013,8 +1048,13 @@ static inline u32 keepalive ...
sqlserver学习3---sql函数
一.SQL DML 和 DDL 可以把 SQL 分为两个部分:数据操作语言 (DML) 和数据定义语言 (DDL). SQL (结构化查询语言)是用于执行查询的语法.但是 SQL 语言也包含用于更新 ...
Mysql事务级别 (二)
事务分为4个等级: 1.read uncommitted(未提交读) :无法避免脏读.不可重复读.虚读(幻读) 2.read committed (提交读) :可以避免脏读 3. ...
Ext，合计保留两位小数
1. features: [{ ftype: 'summary', dock: 'bottom' }], 2. summaryType: function(records){ return '合计'; ...
A full JDK must be specified
当你开发就了,你就发现,你遇到了各种奇葩的问题,结果,自己奇葩了. 背景:由于项目需要做安全恢复测试,然后,就搭一个新的库环境去测试: 配置jboss的运行jdk时,结果,蹦出个:A full JDK ...
CryptoSwift：密码学
Hash (Digest) MD5 | SHA1 | SHA224 | SHA256 | SHA384 | SHA512 | SHA3 Cyclic Redundancy Check (CRC) CR ...
【BZOJ1171】大sz的游戏（线段树+单调队列）
点此看题面大致题意: 有\(n\)个点,两点间最大通讯距离为\(L\).已知除\(1\)号点外第\(i\)个点能够发出和接收的信号区间\([l_i,r_i]\)以及到\(1\)号点的距离\(dis_ ...
POJ 3321 DFS序
Apple Tree Time Limit: 2000MS Memory Limit: 65536K Total Submissions: 30636 Accepted: 9162 Descr ...

Python爬虫爬取豆瓣电影之数据提取值xpath和lxml模块

Python爬虫爬取豆瓣电影之数据提取值xpath和lxml模块的更多相关文章

随机推荐

热门专题