（一）使用Requests存储网页

Requests
- 是什么？网络资源（URLs）抓取套件
- 优点？
  - 改善urllib2的缺点，让使用者以最简单的方式获取网络资源
  - 可以使用REST操作（POST,PUT,GET,DELETE）存取网络资源

import requests

response = requests.get('http://blog.sina.com.cn/lm/stock/')

print(response.text)

模拟HTTP的GET方法存储网页,获取网页的内容，这时我们发现我们获取的结果是乱码，为什么呢？
- 我们所抓取网页是UTF8的，但是python在请求的时候，把它误判为不知道是什么编码，因此把这个编码显示为预设编码：ISO-8859-1

import requests

response = requests.get('http://blog.sina.com.cn/lm/stock/')

print(response.encoding)

显示结果为ISO-8859-1,所以我们要告诉python我们遇到的网页是utf8，下面代码改进如下,我们便可以获得一个简体中文的内容：

import requests

response = requests.get('http://blog.sina.com.cn/lm/stock/')

response.encoding = 'utf-8'

print(response.text)

现在我们还有一个问题，该如何把上面非结构化的数据转化为结构化的数据呢？—DOM TREE方法

（二）用BeautifulSoup解析网页

1.基础铺垫－DOM TREE

全称：Document Object Model Tree，它是一组API，可以跟网页的元素进行互动，使用BeautifulSoup就可以把网页变成一个DOM TREE，我们就可以根据DOM TREE的节点进行操作

上图的举例，最外面结构是html，是最上层的节点，下面一层是body，里面包含h1和a两个链接，这些就组成了DOM TREE的架构，我们就可以根据这个架构下的某些节点进行互动，我们可以取得h1里面的词，也可以取得a里面的词，这时候我们就可以把数据顺利提取出来；

2.BeautifulSoup范例

将网页读进BeautifulSoup中

from bs4 import BeautifulSoup

html_sample = '\

<html> \

<body> \

<h1 id="title">Hello World</h1> \

<a href="#" class="link">This is link1</a> \

<a href="# link2" class="link">This is link2</a> \

</body> \

</html> '

soup = BeautifulSoup(html_sample)

print(soup.text)

这里会显示警告信息，警告信息告诉我们这段代码没有使用到我们的剖析器，这时python会预测一个剖析器给我们，如果我们要避免这种警告的产生，我们可以在代码中指明

soup = BeautifulSoup(html_sample,'html.parser')

3.找出所有含有特定标签的HTML元素

另外需要考虑的是，即使我们可以利用BeautifulSoup将标签移除掉，但有时我们要抓取的一些内容还位于特殊的标签之中，我们该怎样把特殊标签，以及节点中的资料取出来？

使用select找出含有h1标签的元素

soup = BeautifulSoup(html_sample)

header = soup.select('h1')

print(header)

使用select找出含有a标签的元素

soup = BeautifulSoup(html_sample)

alink = soup.select('a')

print(alink)

下面我们实操一下：

from bs4 import BeautifulSoup

html_sample = '\

<html> \

<body> \

<h1 id="title">Hello World</h1> \

<a href="#" class="link">This is link1</a> \

<a href="# link2" class="link">This is link2</a> \

</body> \

</html> '

soup = BeautifulSoup(html_sample,'html.parser')

header = soup.select('h1')

print(header)

显示的结果为：

如何进一步把上面的文字解开？加上[0],可以去掉中括号，加.text可以把里面的文字取出来

print(header[0].text)

4.取得含有特定CSS属性的元素

除了标签以外，我们该怎样取得特定的元素？我们可以透过CSS的属性去取得里面的元素，CSS是网页的“化妆师”，透过这个化妆师，我们可以对网页进行点缀

（1）如何要抓取独立不重复的元素，可以加上id的修饰

使用select找出所有id为title的元素（id前面需加＃）

alink = soup.select('#title')

print(alink)

（2）如果要抓取重复的元素，可以加上class的修饰

使用select找出所有class为link的元素（class前面需加 . ）

soup = BeautifulSoup(html_sample)

for link in soup.select('.link'):

    print(link)

5.取得含有特定CSS属性的元素

在网页的连接上，我们会用 a tag 去连接不同的网页，a tag 有一个属性就叫href，透过这个属性我们才能连接到不同的网页；

使用select找出所有a tag 的href连结

alinks = soup.select('a')

for link in alinks:

    print(link['href'])

Python数据抓取（2） —简单网络爬虫的撰写的更多相关文章

python数据抓取分析（python + mongodb）
分享点干货!!! Python数据抓取分析编程模块:requests,lxml,pymongo,time,BeautifulSoup 首先获取所有产品的分类网址: def step(): try: ...
Python数据抓取技术与实战 pdf
Python数据抓取技术与实战目录 D11章Python基础1.1Python安装1.2安装pip1.3如何查看帮助1.4D1一个实例1.5文件操作1.6循环1.7异常1.8元组1.9列表1.10字 ...
Python数据抓取（1） —数据处理前的准备
(一)数据抓取概要为什么要学会抓取网络数据? 对公司或对自己有价值的数据,80%都不在本地的数据库,它们都散落在广大的网络数据,这些数据通常都伴随着网页的形式呈现,这样的数据我们称为非结构化数据如 ...
Python数据抓取_BeautifulSoup模块的使用
在数据抓取的过程中,我们往往都需要对数据进行处理本篇文章我们主要来介绍python的HTML和XML的分析库 BeautifulSoup 的官方文档网站如下 https://www.crummy.c ...
Python数据抓取（3） —抓取标题、时间及链接
本次分享,jacky将跟大家分享如何将第一财经文章中的标题.时间以及链接抓取出来 (一)观察元素抓取位置网页的原始码很复杂,我们必须找到特殊的元素做抽取,怎么找到特殊的元素呢?使用开发者工具检视每篇 ...
(转)ObjC利用正则表达式抓取网页内容（网络爬虫）
转自:http://www.cocoachina.com/bbs/read.php?tid=103813 *****boy]原创 2012年5月20日在开发项目的过程,很多情况下我们需要利用互联网上 ...
ObjC利用正则表达式抓取网页内容（网络爬虫）
本文转载至 http://www.cocoachina.com/bbs/read.php?tid=103813&fpage=63 在开发项目的过程,很多情况下我们需要利用互联网上的一些数据,在 ...
使用Puppeteer进行数据抓取(三)——简单的示例
本文以一个示例简单的介绍一下puppeteer的用法,我们的目的是:获取我博客上的文章的前十页的所有随笔的标题和链接.由于puppeteer本身是自动化chorme,因此这里我们的步骤和手动操作浏览器 ...
python爬虫(一)_爬虫原理和数据抓取
本篇将开始介绍Python原理,更多内容请参考:Python学习指南为什么要做爬虫著名的革命家.思想家.政治家.战略家.社会改革的主要领导人物马云曾经在2015年提到由IT转到DT,何谓DT,DT ...

随机推荐

Go语言之依赖管理
Go语言之依赖管理 Go语言的依赖管理随着版本的更迭正逐渐完善起来. 依赖管理为什么需要依赖管理最早的时候,Go所依赖的所有的第三方库都放在GOPATH这个目录下面.这就导致了同一个库只能保存一个 ...
shell习题第12题：批量创建用户
[题目要求] 用shell脚本实现如下需求添加user_00 -- user_09 10个用户,并且给他们设置一个随机密码,密码要求10位包含大小写字母及数字,注意要把每个用户的密码记录到一个日志文 ...
hdu 2821 学习一点dfs的小技巧吧。。还是自己太弱了
#include<iostream> #include<cstdio> #include<cstring> using namespace std; int r,c ...
几个主流浏览器 Window.open打开新窗口、模拟a标签打开新窗口的表现
Window.open打开新窗口 1.常用浏览器打开新窗口(正常打开window.open)的的不同表现形式(PC/移动端) 2.Window.open在异步处理中打开(_blank) a标签在异步处 ...
Task资料
5天玩转C#并行和多线程编程:http://www.cnblogs.com/yunfeifei/p/3993401.html
SQL Prompt 注册后隔一段时间莫名无法使用的处理
https://blog.csdn.net/anyqu/article/details/88537197 以前一直以为是授权丢了,反复重装也解决不了 Sql Prompt---Unable to co ...
vue-cli之加载ico文件
vue-cli之加载ico文件 vue-cli加载ico文件需要在vue.config.js设置ico加载,代码如下: module.exports = { publicPath: process.e ...
解决npm ERR！Unexpected end of JSON input while paring near （解析附近时JSON输入意外结束）'...."^2.0.0-rc.0","glob"'等npm install错误
摘要最近更新了一次node,但是更新后npm的命令总是会报 npm WARN deprecated fsevents@2.0.6: Please update: there are crash fi ...
JavaWeb-用过滤器修改请求的返回状态码
问题: 客户SDK对接服务,默认只识别200和非200的请求状态码.需要修改当前应用的状态码(如将201转为200) 解决方案:通过扩展HttpServletResponseWrapper,获取到每个 ...
python 利用pyttsx3文字转语音(转)
原文链接作者 # -*- coding: utf-8 -*- import pyttsx3 engine = pyttsx3.init() with open("all.txt", ...

Python数据抓取（2） —简单网络爬虫的撰写

（一）使用Requests存储网页

（二）用BeautifulSoup解析网页

1.基础铺垫－DOM TREE

2.BeautifulSoup范例

3.找出所有含有特定标签的HTML元素

4.取得含有特定CSS属性的元素

5.取得含有特定CSS属性的元素

Python数据抓取（2） —简单网络爬虫的撰写的更多相关文章

随机推荐

热门专题