Python爬虫：如何爬取分页数据？

上一篇文章《Python爬虫：爬取人人都是产品经理的数据》中说了爬取单页数据的方法，这篇文章详细解释如何爬取多页数据。

爬取对象：

有融网理财项目列表页【履约中】状态下的前10页数据，地址：https://www.yrw.com/products/list-all-all-performance-1-createTimeDesc-1.html

编程思路：

1. 寻找分页地址的变动规律 2. 解析网页，获取内容，放入自定义函数中 3. 调用函数，输出分页内容

详细解说：

1. 首先插入用到的库：BeautifulSoup、requests

 from bs4 import BeautifulSoup
 import requests

2. 观察地址的变化规律，可以看到，每切换一页时，后面“createTimeDesc-1.html”中的数字1会随着页面的变动而变动，此时我们将地址存放进列表中，后面用format()和for循环来实现多个地址的存储。

 urls = ['https://www.yrw.com/products/list-direct-all-performance-1-createTimeDesc-{}.html'.format(str(i)) for i in range(1,11)]
 print(urls)

此时可以先print下，看地址是否正确，这里range(1,11)是前10个页面的地址。

3. 接下来定义解析函数，参数data的初始值为空。函数内用到的内容和上一篇文章中讲到的相同。先请求urls，然后用BeautifulSoup解析，筛选我们想要的项目标题titles的位置，实现输出。

 def get_titles(urls,data = None):
     web_data = requests.get(urls)
     soup = BeautifulSoup(web_data.text, 'lxml')
     titles = soup.select(' h3 > a > em > strong')
     for title in titles:
         data = {
             'title': title.get_text()
         }
         print(data)

4. 最后，我们来调用函数。

 for titles in urls:
     get_titles(titles)

完整代码：

 from bs4 import BeautifulSoup
 import requests

 urls = ['https://www.yrw.com/products/list-direct-all-performance-1-createTimeDesc-{}.html'.format(str(i)) for i in range(1,11)]
 # print(urls)

 def get_titles(urls,data = None):
     web_data = requests.get(urls)
     soup = BeautifulSoup(web_data.text, 'lxml')
     titles = soup.select(' h3 > a > em > strong')
     for title in titles:
         data = {
             'title': title.get_text()
         }
         print(data)

 for titles in urls:
     get_titles(titles)

运行结果（只展示部分）：

{'title': '资产融ZT321期'}

{'title': '供应链ZT2923期'}

{'title': '租车融ZT335期'}

{'title': '供应链ZT2922期'}

{'title': '供应链ZT2919期'}

操作环境：Python版本，3.6；PyCharm版本，2016.2；电脑：Mac

----- End -----

作者：杜王丹，微信公众号：杜王丹，互联网产品经理。

Python爬虫：如何爬取分页数据？的更多相关文章

Python爬虫之爬取慕课网课程评分
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...
python爬虫实战---爬取大众点评评论
python爬虫实战—爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经 ...
Python爬虫之爬取站内所有图片
title date tags layut Python爬虫之爬取站内所有图片 2018-10-07 Python post 目标是 http://www.5442.com/meinv/ 如需在非li ...
Python爬虫之爬取淘女郎照片示例详解
这篇文章主要介绍了Python爬虫之爬取淘女郎照片示例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧本篇目标抓取淘宝MM ...
python爬虫项目-爬取雪球网金融数据（关注、持续更新）
(一)python金融数据爬虫项目爬取目标:雪球网(起始url:https://xueqiu.com/hq#exchange=CN&firstName=1&secondName=1_ ...
Python爬虫：爬取人人都是产品经理的数据
爬取内容: 人人都是产品经理首页(www.woshipm.com)左侧[最新文章]下如图样式的文章标题.浏览量和缩略图. 思路: 1. 用BeautifulSoup解析网页变量名 = Beautif ...
初次尝试python爬虫，爬取小说网站的小说。
本次是小阿鹏,第一次通过python爬虫去爬一个小说网站的小说. 下面直接上菜. 1.首先我需要导入相应的包,这里我采用了第三方模块的架包,requests.requests是python实现的简单易 ...

随机推荐

CSS居中布局
一:水平居中方案: 1.行内元素设置 text-align:center 2.定宽块状元素设置左右 margin 值为 auto 3.不定宽块状元素 a:在元素外加入 table 标签(完整的, ...
ORACLE RMAN备份及还原(转)
RMAN可以进行增量备份:数据库,表空间,数据文件只有使用过的block可以被备份成backup set 表空间与数据文件对应关系:dba_data_files / v$datafile_heade ...
Mac下用户名、计算机名、个人目录名修改
1.修改mac用户名 [系统偏好设置]->[用户与群组]->点开左下方的小锁->解锁后再用户头像右击,进入到高级选项->进行设置即可 2.修改mac计算机名 [系统偏好设置]- ...
PAT B1030 完美数列（25 分）
给定一个正整数数列,和正整数 p,设这个数列中的最大值是 M,最小值是 m,如果 M≤mp,则称这个数列是完美数列. 现在给定参数 p 和一些正整数,请你从中选择尽可能多的数构成一个完美数列. 输入格 ...
java环境配置针对win10（电脑重装必备）最后一步很重要
jdk和jre都默认安装c盘. 系统变量→新建 JAVA_HOME 变量:变量值填写jdk的安装目录(本人是 C:\Program Files\Java\jdk1.8.0_131). 系统变量→新建 ...
纯css实现弹窗左右垂直居中效果
1.HTML <div class="container"> <div class="dialog"> <div class=&q ...
W25Q128BV W25Q128FV W25Q128JV 什么区别？
W25Q128BV W25Q128FV W25Q128JV 什么区别? 官网没有找到 BV 的相关信息, 倒是有 FV,FW,JV,JW 信息..2019年1月19日19:09:55 F ...
awk、sed处理文件的简单例子
awk.sed对处理日志文件和写shell脚本时非常有益.这个东西,如果不经常操作,真心过一段时间就忘差不多..要掌握熟练,就要多练习,这没什么可说的. awk '条件{命令}' filename 假 ...
webSphere-Eclipse中配置was的远程调试
目前我们项目中使用的应用服务器多是WebSphere,一直苦于无法进行调试,今天在网上看到一篇,原文是 http://www.cnblogs.com/newstar/archive/2010/04/1 ...
.NET Core中向已存在文件的特定位置写入数据
本例使用.NET Core向一个文本文件中的特定位置写入数据,来模拟文件上传中的断点续传是如何在服务器端实现的. 新建一个.NET Core控制台项目FileContinueToWrite,其Prog ...

Python爬虫：如何爬取分页数据？

Python爬虫：如何爬取分页数据？的更多相关文章

随机推荐

热门专题