爬虫入门-使用python写简单爬虫
从第一章到上一章为止,基本把python所有的基础点都已经包括了,我们有控制逻辑的关键字,有内置数据结构,有用于工程需要的函数和模块,又有了标准库和第三方库,可以写正规的程序了。
python可以做非常多的事情,最火爆的事情应该是大家一直都在讨论的爬虫,这里编写一个简单的爬虫例子,它能够真正的运行,但主要的目的是在提高对之前知识点的理解和熟悉python如何编写简单工程。
编写一个爬虫,爬取www.duitang.com网站的数据,主要的功能是通过搜索词得到搜索结果,并分析网页得到商品图片的链接地址并下载图片。
程序的各个模块功能
爬虫的一个重要的模块是根据url获取网页数据,我们利用前面一章介绍的第三方库requests,用简单的几行代码来抓取网页数据,可以熟悉函数的写法和逻辑控制。
def get_http_content(url):
s = requests.Session()
request = s.get(url, headers = headers,timeout=120, verify=False)
body = ''
if request.status_code == 200:
body = request.text
return body
下载图片的功能如下:
def get_image( url, name):
image_path = os.path.join('images/', name)
if not os.path.exists(image_path):
r = requests.get(url, stream=True, headers=headers)
if r.status_code == 200:
with open(image_path, 'wb') as f:
for chunk in r:
f.write(chunk)
else:
print('==> get image error: ', url)
get_image有两个参数,一个是图片的url地址,一个是图片的名称,为了不想有太多的参数,图片存放的地址在程序中写的是当前路径下的images/目录。
程序的逻辑控制
这里我们会详细的解释如何对网站进行分析,如何抽取出我们最想要的数据来满足我们的需求。先用浏览器打开链接 https://www.duitang.com/search/?kw=%E4%B8%AD%E7%A7%8B%E8%8A%82&type=feed&from=tuijian 我们搜索的是中秋节这个关键字,如下:

查看网页的源代码,也就是我们通过get_http_content 能够得到的数据,一般来说可以利用Beautiful Soup对数据进行处理,并取出关键的字段。但duitang的搜索比较特殊,通过它分页的数据可以看出是动态加载网页内容,查看网络请求,看看是哪一个网络接口。

通过网络请求的数据,查到了搜索的分页数据,接口在
https://www.duitang.com/napi/blog/list/by_search/?kw=%E4%B8%AD%E7%A7%8B%E8%8A%82&type=feed&_type=&start=0
分析里面的接口参数,start为分页参数,要取得所有的分页数据只需要改变这个参数。
如,第二页数据在:
https://www.duitang.com/napi/blog/list/by_search/?kw=%E4%B8%AD%E7%A7%8B%E8%8A%82&type=feed&_type=&start=24
可以使用for循环,取前十页的数据:
url_start = 'https://www.duitang.com/napi/blog/list/by_search/?kw=%E4%B8%AD%E7%A7%8B%E8%8A%82&type=feed&_type=&start='
for i in range(0,10):
url = url_start + str(i*24)
整个流程如下:
if __name__ == '__main__':
# 接口地址
url_start = 'https://www.duitang.com/napi/blog/list/by_search/?kw=%E4%B8%AD%E7%A7%8B%E8%8A%82&type=feed&_type=&start='
next_start = 0
while True:
#获取api接口数据
url = url_start + str(next_start)
content = get_http_content(url)
json_data = json.loads(content)
# 分析得出图片地址,并下载
for object_list in json_data['data']['object_list']:
image_path = object_list['photo']['path']
image_name = os.path.basename(image_path)
get_image(image_path,image_name)
#下一页
next_start = json_data['data']['next_start']
# 分页结束
if next_start == 0:
break
程序通过不断的取得分页的数据,用json模块解析数据,提出图片的地址,并下载图片。在images/ 目录下存放着下载的图片文件。

总结
一个简单的对网页进行爬取,并根据自己的需求提取网页中所需要的字段,并对字段进行处理,这里仅仅是对图片进行了下载,你还可以对需求进一步的进行扩展,比如把特殊的字段存到数据库中,搜索更多的热词等,进行更多的尝试。
更多教程:阿猫学编程
爬虫入门-使用python写简单爬虫的更多相关文章
- Python爬虫入门教程 61-100 写个爬虫碰到反爬了,动手破坏它!
python3爬虫遇到了反爬 当你兴冲冲的打开一个网页,发现里面的资源好棒,能批量下载就好了,然后感谢写个爬虫down一下,结果,一顿操作之后,发现网站竟然有反爬措施,尴尬了. 接下来的几篇文章,我们 ...
- 用python写网路爬虫 PDF高清完整版免费下载 Python基础教程免费电子书 python入门书籍免费下载
<用python写网路爬虫PDF免费下载>PDF书籍下载 内容简介 作为一种便捷地收集网上信息并从中抽取出可用信息的方式,网络爬虫技术变得越来越有用.使用Python这样的简单编程语言,你 ...
- Python开发简单爬虫 - 慕课网
课程链接:Python开发简单爬虫 环境搭建: Eclipse+PyDev配置搭建Python开发环境 Python入门基础教程 用Eclipse编写Python程序 课程目录 第1章 课程介绍 ...
- 读书笔记汇总 --- 用Python写网络爬虫
本系列记录并分享:学习利用Python写网络爬虫的过程. 书目信息 Link 书名: 用Python写网络爬虫 作者: [澳]理查德 劳森(Richard Lawson) 原版名称: web scra ...
- 用Python写网络爬虫 第二版
书籍介绍 书名:用 Python 写网络爬虫(第2版) 内容简介:本书包括网络爬虫的定义以及如何爬取网站,如何使用几种库从网页中抽取数据,如何通过缓存结果避免重复下载的问题,如何通过并行下载来加速数据 ...
- python网络爬虫,知识储备,简单爬虫的必知必会,【核心】
知识储备,简单爬虫的必知必会,[核心] 一.实验说明 1. 环境登录 无需密码自动登录,系统用户名shiyanlou 2. 环境介绍 本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到桌 ...
- python实现简单爬虫抓取图片
最近在学习python,正如大家所知,python在网络爬虫方面有着广泛的应用,下面是一个利用python程序抓取网络图片的简单程序,可以批量下载一个网站更新的图片,其中使用了代理IP的技术. imp ...
- Python开发简单爬虫(一)
一 .简单爬虫架构: 爬虫调度端:启动爬虫,停止爬虫,监视爬虫运行情况 URL管理器:对将要爬取的和已经爬取过的URL进行管理:可取出带爬取的URL,将其传送给“网页下载器” 网页下载器:将URL指定 ...
- Python开发简单爬虫
简单爬虫框架: 爬虫调度器 -> URL管理器 -> 网页下载器(urllib2) -> 网页解析器(BeautifulSoup) -> 价值数据 Demo1: # codin ...
随机推荐
- 使用pycharm遇到问题排查过程
一.安装Python 下载路径:https://www.python.org/downloads/ 二.配置环境变量 安装Python后,配置环境变量,将安装目录添加到Path中: 使用pycharm ...
- Spring的设计理念和整体架构
1.Spring的各个子项目 Spring Framework(Core):这是我们熟知的Spring项目的核心.Spring Framework(Core)中包含了一系列Ioc容器的设计,提供了依赖 ...
- MySQL去除表里数据回车符,换行符,空格和水平制表符
MySQL去除表里数据回车符,换行符,空格和水平制表符 最近导数据的时候发现表里有好多回车符,换行符,水平制表符,MySQL的trim函数没办法去掉回车和换行,只能去掉多余的空格,可以用MySQL的r ...
- JavaScript学习笔记 - 入门篇(3)- DOM操作
认识DOM 文档对象模型DOM(Document Object Model)定义访问和处理HTML文档的标准方法.DOM 将HTML文档呈现为带有元素.属性和文本的树结构(节点树). 先来看看下面代码 ...
- StartDT AI Lab | 数据增强技术如何实现场景落地与业务增值?
有人说,「深度学习“等于”深度卷积神经网络算法模型+大规模数据+云端分布式算力」.也有人说,「能够在业内叱咤风云的AI都曾“身经百战”,经历过无数次的训练与试错」.以上都需要海量数据做依托,对于那些数 ...
- 17.3.13---sys.argv[]用法
1------sys.argv[]是用来获取命令行参数, sys.argv[0]表示代码本身文件路径,因此要从第二个即sys.argv[1]开始去参数 例如创建一个文件: import sys pri ...
- 12)PHP,常量和魔术常量
义:用于存储一个不会变化也不希望变化的数据的标示符. 常量命名规则,同变量,但习惯说,常常将常量的名称使用“全大写”形式. 定义形式 使用define()函数定义 使用形式:define(“常量名”, ...
- linux epoll ET边沿触发
/***EPOLL ET 触发必须使用非阻塞,LT触发可以阻塞/非阻塞.*read 函数 非阻塞读需 忙轮寻 soket关闭返回0,循环读完数据*如果已经读完再读read返回 -1,errno=11( ...
- echarts 实现柱状图重叠而不是相互增加
1.引入echart 所需要的js和css,这不再引入 总量的数据是包含分量且大于等于分量 先上效果图: 当我们查看总量时,显示的是将分量的也包含里面,这样就不是叠加的数量了 2.直接上代码 (可复制 ...
- python学习笔记(27)-unittest单元测试-测试用例
单元测试 #单元测试 #unittest+接口 unittest python自带 pytest+jenkins+allure #接口测试的本质 就是测试类里面的函数 #单元测试的本质 测试函数 代码 ...