爬虫beautifulsoup实践

爬虫beautifulsoup实践：

目的：在https://unsplash.com/上爬取图片并保存到本地文件夹里。

一、观察response。首先，在Chrome浏览器里观察一下该网页的response内容，可以观察到，图片的URL都存放在img标签下面，srcset属性里面，而且它们的class属性都为_2zEKz。

二、理清爬虫步骤的思路。规律已经找出来了~下一步就把爬虫的思路写一下：

1、利用requests库获取目标网站的response（headers用Chrome浏览器里面的headers);

2、对获取到的response进行处理，截取到里面包含的每个图片URL信息；

3、对每个图片的URL进行请求，然后将每个response存到指定的文件夹里面。

三、编写步骤。

1、利用requests库获取目标网站的response（headers用Chrome浏览器里面的headers);

在Chrome里面搞个user-agent去做headers

headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}

response = requests.get('https://unsplash.com/',headers=headers)

这样，第一步就基本完成了，可以测试一下，看是否真的获取到response：

print(response.status_code)

如果结果输出为200，证明成功获取到response

2、对获取到的response进行处理，截取到里面包含的每个图片URL信息；

response里面包含了页面所有的html文本信息，但我们只需要其中的图片的URL，所以，这一步主要就是对这些文本信息进行处理。

这一步有两个方向可以选择，一是用正则表达式去匹配合适的文本信息，二是利用beautifulsoup去做一个获取。在这个实践中我们选用beautifulsoup，而且这样做的效率比正则表达式高很多（特别是对于对正则表达式不是很熟练的同学来说）。

根据

爬虫beautifulsoup实践的更多相关文章

Golang - 爬虫案例实践
目录 Golang - 爬虫案例实践 1. 爬虫步骤 2. 正则表达式 3. 并发爬取美图 Golang - 爬虫案例实践 1. 爬虫步骤明确目标(确定在哪个网址搜索) 爬(爬下数据) 取(去掉没用 ...
【Python实例二】BeautifulSoup爬虫简单实践
前言前面安装了BeautifulSoup库,现在就来实现一下吧. 目录一.Urllib库的使用二.BeautifulSoup的使用三. 一个示例 ----------------------- ...
Python爬虫小实践：爬取任意CSDN博客所有文章的文字内容（或可改写为保存其他的元素），间接增加博客访问量
Python并不是我的主业,当初学Python主要是为了学爬虫,以为自己觉得能够从网上爬东西是一件非常神奇又是一件非常有用的事情,因为我们可以获取一些方面的数据或者其他的东西,反正各有用处. 这两天闲 ...
Python爬虫小实践：寻找失踪人口，爬取失踪儿童信息并写成csv文件，方便存入数据库
前两天有人私信我,让我爬这个网站,http://bbs.baobeihuijia.com/forum-191-1.html上的失踪儿童信息,准备根据失踪儿童的失踪时的地理位置来更好的寻找失踪儿童,这种 ...
爬虫——BeautifulSoup和Xpath
爬虫我们大概可以分为三部分:爬取——>解析——>存储一 Beautiful Soup: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功 ...
Python爬虫-- BeautifulSoup库
BeautifulSoup库 beautifulsoup就是一个非常强大的工具,爬虫利器.一个灵活又方便的网页解析库,处理高效,支持多种解析器.利用它就不用编写正则表达式也能方便的实现网页信息的抓取 ...
初探爬虫 ——《python 3 网络爬虫开发实践》读书笔记
零.背景之前在 node.js 下写过一些爬虫,去做自己的私人网站和工具,但一直没有稍微深入的了解,借着此次公司的新项目,体系的学习下. 本文内容主要侧重介绍爬虫的概念.玩法.策略.不同工具的列举和 ...
Python爬虫 | Beautifulsoup解析html页面
引入大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值,而不是整个页面的数据.因此,在聚焦爬虫中使用数据解析.所以,我们的数据爬取的流程为: 指定url 基于reque ...
网络爬虫BeautifulSoup库的使用
使用BeautifulSoup库提取HTML页面信息 #!/usr/bin/python3 import requests from bs4 import BeautifulSoup url='htt ...

随机推荐

js原型链prototype与__proto__以及new表达式
对象模型的细节 https://developer.mozilla.org/zh-CN/docs/Web/JavaScript/Guide/Details_of_the_Object_Model
（转）不定义JQuery插件，不要说会JQuery
原文地址:http://www.cnblogs.com/xcj26/p/3345556.html 一:导言有些WEB开发者,会引用一个JQuery类库,然后在网页上写一写$("#" ...
RPLiDAR 激光雷达探测地面高程
LiDAR,又称激光探测与测量,全程Light Detection And Ranging,这种技术使用激光测量地物(如森林和建筑物)的高程.它的原理十分类似于使用声波来测绘海底地形的声呐技术,或使用 ...
MySQL性能调优与架构设计——第6章 MySQL Server 性能的相关因素
第6章 MySQL Server 性能的相关因素前言大部分人都一致认为一个数据库应用系统(这里的数据库应用系统概指所有使用数据库的系统)的性能瓶颈最容易出现在数据的操作方面,而数据库应用系统的大部 ...
try catch finally的用法
http://hi.baidu.com/vincentwen/blog/item/b92d0923f1e4c64793580757.html try catch finally 1.将预见可能引发异常 ...
kubernetes 1.3管中窥豹- RS（Replica Sets）：the next-generation Replication Controller
前言 kubernates 1.3出了几个新的概念,其中包括deployments,Replica Sets,并且官网称之为是the next-generation Replication Contr ...
复制构造函数被调用的三种情况------新标准c++程序设计
1.当用一个对象去初始化同类的另一个对象时,会引发复制构造函数被调用.例如,下面的两条语句都会引发复制构造函数的调用,用以初始化c2. C c2 (c1); C c2=c1; 这两条语句是等价的.注意 ...
Mysql初识数据库《二》数据库管理软件的由来
数据库管理软件的由来基于我们之前所学,数据要想永久保存,都是保存于文件中,毫无疑问,一个文件仅仅只能存在于某一台机器上. 如果我们暂且忽略直接基于文件来存取数据的效率问题,并且假设程序所有的组件都运 ...
JavaScript学习笔记——3.对象
JavaScript 对象 - 创建对象 1- var obj = new Object(); 2- var obj = {}; *例子:var person = {Name:"Hack&q ...
c语言数据结构学习心得——栈
栈(Stack) 只允许在一端进行插入或删除操作的线性表栈顶(Top):栈中允许进行插入和删除操作的那一端: 栈底(Bottom):固定的,不允许进行插入或删除的另一端 1.栈是受限的线性表,所以自 ...

爬虫beautifulsoup实践

爬虫beautifulsoup实践的更多相关文章

随机推荐

热门专题