Python学习——BeautifulSoup篇

BeautifulSoup

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.

在本节的笔记中，笔者将会分享两次示例，来帮助大家熟悉BeautifulSoup库的使用，好的，闲话不说，我们来看一下示例。

如何去定位元素

下面我们来爬取一个网页，然后提取里面一些简单的数据

import requests

from bs4 import BeautifulSoup as bs

url = "http://china.huanqiu.com/article/2016-07/9132061.html?from=bdwz"

response = bs(requests.get(url).content,'html.parser')

#获取页面内，h1标签的文章标题

print("这篇文章的标题是：",response.h1.string)

#使用find方法，寻找页面内name=source的content的内容

print ("这篇文章的类型是：",response.find(attrs= {'name':'source'})['content'])

#从find_all返回的列表中，查找content字段

for content in response.find_all('meta',{'name':'source'}):

print("这篇文章的类型是：",content['content'])

我们来解读一下上面这段代码：

1、导入requests库

2、导入BeautifulSoup库的bs4方法命名为bs

3、将目标地址赋予url

4、使用bs对爬取到的web页面的二进制数据进行html的解析

（这里使用的是requests.get().content返回的是爬取到的页面的二进制数据，之前我也是用的requests.get().text，但是会有乱码，具体原因不是很清楚。不过有前辈讲是因为requests.get().text 是将爬取到的内容进行默认的转译，而win的系统总是会出莫名其妙的问题）

5、打印，爬取到的页面中的h1标签的页面标题（页面标签麻烦自行百度html页面标签）

6、使用find方法，搜索爬取到的内容里，name=source的内容，打印content对应的数据

7、从find_all返回的列表中，寻找name=source的content字段的数据并打印。

（之前我是有尝试过使用find_all这个方法的，但是没有成功，因为我忽略了find_all方法返回的实际上是一个列表）

Python学习——BeautifulSoup篇的更多相关文章

Python学习第一篇
好久没有来博客园了,今天开始写自己学习Python和Hadoop的学习笔记吧.今天写第一篇,Python学习,其他的环境部署都不说了,可以参考其他的博客. 今天根据MachineLearning里面的 ...
[Python学习]错误篇二：切换当前工作目录时出错——FileNotFoundError: [WinError 3] 系统找不到指定的路径
REFERENCE:<Head First Python> ID:我的第二篇[Python学习] BIRTHDAY:2019.7.13 EXPERIENCE_SHARING:解决切换当前工 ...
[Python学习]错误篇一
REFERENCE:<Head First Python> ID:我的第一篇[Python学习] BIRTHDAY:2019.7.6 EXPERIENCE_SHARING:两个程序错误类型 ...
Python学习—基础篇之文件操作
文件操作文件操作也是编程中需要熟练掌握的技能,尤其是在后台接口编写和数据分析过程中,对各种类型的文件进行操作,获取文件信息或者对信息进行存储是十分重要的.本篇博客中将主要对常见的文本格式文件和Exc ...
Python学习 - 入门篇2（更新中）
前言学习渠道:慕课网:Python进阶记录原因:我只是想边上课边做笔记而已,呵呵哒食用提示:教程环境基于Python 2.x,有些内容在Python 3.x中已经改变函数式编程定义:一种抽象 ...
Python学习 - 入门篇1
前言学习渠道:慕课网:Python入门记录原因:人总归要向记忆低头[微笑再见.gif] 记录目标:形成简洁的知识点查阅手册变量和数据类型变量赋值在Python中,可以把任意数据类型赋值给变 ...
Python ( 学习基础篇第一部 )
目录注释注释的分类注释的注意点变量变量的概念变量的声明变量的命名变量的交换变量的缓存机制常量进制进制的转换原码反码补码六大数据类型 Number 的四大类字符串 st ...
python学习总结篇（2）——函数
如其他语言一样,除了基本知识外,另外一个重要的板块就是函数了,python中也有函数. 在python中,函数的定义方式为: def 函数名( ): 下面通过几个简单的例子,看看python中的函 ...
Python学习——基础篇
1.python的安装 python下载地址:https://www.python.org/downloads/ 安装完成后,运行cmd.exe,输入python 如果出现“p ...

随机推荐

Windows各种计时器
(一):OnTimer类 1.打开对应对话框的类向导ClassWizard. 2.在消息映射MessageMaps中添加消息Message:WM_TIMER. 3.程序代码中将自动添加函数OnTime ...
geohash：用字符串实现附近地点搜索
转自:http://blog.charlee.li/geohash-intro/ geohash:用字符串实现附近地点搜索上回说到了用经纬度范围实现附近地点搜索.一些小型应用中这样做没问题,但在大型 ...
IOS - 零碎
---恢复内容开始--- 1.模拟器目录: ProjectNameApk.documents.library(cache.preference.cookies).temp 2.Edit-Refacto ...
Project Euler 33 Digit cancelling fractions
题意:49/98是一个有趣的分数,因为可能在化简时错误地认为,等式49/98 = 4/8之所以成立,是因为在分数线上下同时抹除了9的缘故.分子分母是两位数且分子小于分母的这种有趣的分数有4个,将这四个 ...
Code VS 1002 搭桥
题目描述 Description 有一矩形区域的城市中建筑了若干建筑物,如果某两个单元格有一个点相联系,则它们属于同一座建筑物.现在想在这些建筑物之间搭建一些桥梁,其中桥梁只能沿着矩形的方格的边沿搭建 ...
[USACO12MAR]摩天大楼里的奶牛Cows in a Skyscraper （状态压缩DP）
不打算把题目放着,给个空间传送门,读者们自己去看,传送门(点我) . 这题是自己做的第一道状态压缩的动态规划. 思路: 在这题中,我们设f[i]为i在二进制下表示的那些牛所用的最小电梯数. 设g ...
[HEOI2013]Eden 的新背包问题
数据极水,不加优化的多重背包都能过...早知道考试的时候不加奇奇怪怪的卡常优化,卡了45分... 就是从前往后做一个多重背包,从后往前再做一个,问的时候就暴力求一下跳过这个的最佳方案... #incl ...
groupadd（创建组）重要参数介绍
-g :值定用户组GID值.除非接 -o 参数(如:groupadd -g 666 -o oldboy),否则ID值必须是唯一的数字(不能为负数). 如果不指定 -g 参数,则默认从500开始
Cocos2d切换场景出现的问题-error C2653: “***”不是类或命名空间名称
1,在开头引入头文件 2,在要引入的头文件中,去除以下代码: #ifndef __HELLOWORLD_SCENE_H__ #define __HELLOWORLD_SCENE_H__ #endif ...
继续过Hard题目.0209
http://www.cnblogs.com/charlesblc/p/6372971.html 继续过Hard模式的题目吧. # Title Editorial Acceptance Diffi ...

Python学习——BeautifulSoup篇

Python学习——BeautifulSoup篇的更多相关文章

随机推荐

热门专题