Beautifulsoup网页解析——爬取豆瓣排行榜分类接口

　　我们在网页爬取的过程中，会通过requests成功的获取到所需要的信息，而且，在返回的网页信息中，也是通过HTML代码的形式进行展示的。HTML代码都是通过固定的标签组合来实现页面信息的展示，所以，最方便的做法就是依据标签来获取信息，所以我们提取信息也应该通过选择标签信息来获取我们需要的内容。

　　python的spider中提供了许多的网页解析的第三方库，而对于HTML的解析(也就是我们通常说的通过css选择器进行解析)，bs4中的Beautifulsoup是很好的选择。

　　下面的代码实现了Beautifulsoup的基本实现方式

 1 '''

 2 @Description: Beautifulsoup网页解析（获取豆瓣电影分类排行榜）

 3 @Version: 1.0

 4 @Autor: Montoin Yan

 5 @Date: 2020-02-06 19:36:54

 6 @LastEditors  : Montoin Yan

 7 @LastEditTime : 2020-02-06 20:09:09

 8 '''

 9

10 import requests

11 import re

12 import lxml

13 import random

14 import bs4

15

16 Base_URL = 'http://movie.douban.com' #设置网页的根路径

17 CHART_URL = '{}/{}'.format(Base_URL,'chart') #拼接为网页的入口地址

18

19 def main(): #主函数

20     #设置多个请求头，防止被反扒措施进行拦截

21     ua_list = [

22         "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:72.0) Gecko/20100101 Firefox/72.0",

23         "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.29 Safari/537.36",

24         "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362",

25         "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3741.400 QQBrowser/10.5.3863.400"

26     ]

27     #随机pick one

28     ua = random.choice(ua_list)

29     response = requests.get(CHART_URL,headers={

30         'User-agent':ua

31     })

32     response.encoding = 'UTF-8' #设置获取网页的编码

33     # print(response.text)

34     soup = bs4.BeautifulSoup(markup=response.text,features='lxml') #使用lxml进行解析处理,使用头两个参数，markup：表示需要解析的内容  features：表示进行解析的特定解析器或者标记的类型

35     typerank_list = soup.find_all('a',href = re.compile('^/typerank')) #获取豆瓣a标签下所有的href属性为typerank的内容（通过正则）

36     for t in typerank_list:

37         type_title = t.contents[0] #获取文字的分类标题

38         print('【%s】访问路径：%s' % (type_title,Base_URL+t['href'])) #将获取到的数据进行拼接

39

40

41 if __name__ == "__main__":

42     main()

　　执行的结果可以试一下情形：

　　可以知道我们通过程序入口进行了对HTML代码的解析能够获取到我们想要的完整信息，然后我们通过对解析结果的分析能够获取到我们需要的接口路径，当我们获得这些接口的完整路径的时候，我们就可以通过这些路径进行下一步的操作了。

Beautifulsoup网页解析——爬取豆瓣排行榜分类接口的更多相关文章

urllib+BeautifulSoup无登录模式爬取豆瓣电影Top250
对于简单的爬虫任务,尤其对于初学者,urllib+BeautifulSoup足以满足大部分的任务. 1.urllib是Python3自带的库,不需要安装,但是BeautifulSoup却是需要安装的. ...
爬虫之爬取豆瓣图书名字及ID
from urllib import request from bs4 import BeautifulSoup as bs #爬取豆瓣最受关注图书榜 resp = request.urlopen(' ...
Python爬虫使用lxml模块爬取豆瓣读书排行榜并分析
上次使用了BeautifulSoup库爬取电影排行榜,爬取相对来说有点麻烦,爬取的速度也较慢.本次使用的lxml库,我个人是最喜欢的,爬取的语法很简单,爬取速度也快. 本次爬取的豆瓣书籍排行榜的首页地 ...
Python开发爬虫之静态网页抓取篇：爬取“豆瓣电影 Top 250”电影数据
所谓静态页面是指纯粹的HTML格式的页面,这样的页面在浏览器中展示的内容都在HTML源码中. 目标:爬取豆瓣电影TOP250的所有电影名称,网址为:https://movie.douban.com/t ...
【转】爬取豆瓣电影top250提取电影分类进行数据分析
一.爬取网页,获取需要内容我们今天要爬取的是豆瓣电影top250页面如下所示: 我们需要的是里面的电影分类,通过查看源代码观察可以分析出我们需要的东西.直接进入主题吧! 知道我们需要的内容在哪里了, ...
Python爬虫之利用BeautifulSoup爬取豆瓣小说（一）——设置代理IP
自己写了一个爬虫爬取豆瓣小说,后来为了应对请求不到数据,增加了请求的头部信息headers,为了应对豆瓣服务器的反爬虫机制:防止请求频率过快而造成“403 forbidden”,乃至封禁本机ip的情况 ...
python爬取豆瓣电影Top250（附完整源代码）
初学爬虫,学习一下三方库的使用以及简单静态网页的分析.就跟着视频写了一个爬取豆瓣Top250排行榜的爬虫. 网页分析我个人感觉写爬虫最重要的就是分析网页,找到网页的规律,找到自己需要内容所在的地方, ...
爬虫系列(十) 用requests和xpath爬取豆瓣电影
这篇文章我们将使用 requests 和 xpath 爬取豆瓣电影 Top250,下面先贴上最终的效果图: 1.网页分析 (1)分析 URL 规律我们首先使用 Chrome 浏览器打开豆瓣电影 T ...
python爬虫08 | 你的第二个爬虫，要过年了，爬取豆瓣最受欢迎的250部电影慢慢看
马上就要过年啦过年在家干啥咧准备好被七大姑八大姨轮番「轰炸」了没? 你的内心 os 是这样的但实际上你是这样的应付完之后闲暇时刻不妨看看电影接下来咱们就来爬取豆瓣上评分最高的 250部电影 ...

随机推荐

ADAS超声波雷达
ADAS超声波雷达在倒车入库,慢慢挪动车子的过程中,在驾驶室内能听到"滴滴滴"的声音,这些声音就是根据超声波雷达的检测距离给司机的反馈信息. 倒车雷达系统,英文全称为REVERS ...
英特尔Intel® Arria® 10 FPGA加速器设计
英特尔Intel Arria 10 FPGA加速器设计 Introducing the Intel Vision Accelerator Design with Intel Arria 10 FPGA ...
P2782 友好城市（最长不下降子序列）
题目描述有一条横贯东西的大河,河有笔直的南北两岸,岸上各有位置各不相同的$N$个城市.北岸的每个城市有且仅有一个友好城市在南岸,而且不同城市的友好城市不相同.每对友好城市都向政府申请在河上开辟一条直 ...
lsnrctl start 报错
lsnrctl start报错: TNS-12541:TNS:no listener TNS-12560:TNS:protocol adapter error TNS-00511:No listene ...
报错：vmnet8设置中出现错误。子网IP和子网掩码不一致
报错:vmnet8设置中出现错误.子网IP和子网掩码不一致设置子网IP时报错,如下图同样的,写成192.168.0.0就没问题,如下图总结: 这个虚拟网络编辑器是给添加网卡的,你添加vmnet8 ...
vs2008中安装dev之后输入代码会输入代码段但是报错，可能解决方法
vs2008工具栏DevExpress→Options 取消勾选这个
MetingJS 是如何配合 Aplayer 加载歌单的？
Meting.js 介绍 Meting.js 依赖 APlayer.js,扩展了 APlayer.js 的功能,能够使 APlayer.js 加载网易云音乐.QQ 音乐.虾米音乐中的歌单. 安装 &l ...
Unity MVC思想
MVC框架概念MVC全名是Model View Controller,是模型(Model)-视图(View)-控制器(Controller)的缩写,一种软件设计典范,用一种业务逻辑.数据.界面显示分离 ...
eclipse语言怎么设置为中文
2021-05-30 方法:1.查找语言包下载网址,并复制:2.打开eclipse,点击"help"-"Install New Software"-" ...
95、配置ntp服务器
95.1.ntp简介: ntp服务使用的是udp的123端口,如果开启了防火墙要记得放开这个端口: NTP(Network Time Protocol,网络时间协议)是用来使网络中的各个计算机时间同步 ...

Beautifulsoup网页解析——爬取豆瓣排行榜分类接口

Beautifulsoup网页解析——爬取豆瓣排行榜分类接口的更多相关文章

随机推荐

热门专题