爬虫入门 beautifulsoup库（一）

先贴一个beautifulsoup的官方文档，https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#id12

requests库用来获取url的响应，但是获取到确实网页代码，为了拿到自己想要的东西，我们需要用一下beautifulsoup这个库，这个库能把想要的东西提取出来。

下载和安装在官方文档里都有，这里还要说一下解析器。beautifulsoup这个库除了支持python标准库中的HTML解析器，还支持其他类似，lxml和html5lib。

上面这张表来自官方文档，选择哪种解析器就因人而异了。

接下来进入正文，首先要构造一个对象，用soup = BeautifulSoup(html,'lxml'),这html可以是事先用requests库请求来的，也可以是自己写的，当然，也可以用soup = BeautifulSoup(open("index.html"))这种方法打开自己html。

然后就是去查看那个html，当html里有a标签时，用soup.a即可输出遇到的第一条a标签，同理，也可以soup.title输出html的title标签。

仅仅是第一个标签那么满足不了我们的需求，我们需要所有的标签里的数据就需要用到findAll这个方法啦，用all_a=soup.findAll('a')，即可获得所有的a标签，但是这时候的输出都是带着a标签的，想要只获得内容，有需要用到string方法，all_a.string,即可。

话不多说，先试着把小米官网中的h2标签，即小标题给爬取下来试试

from bs4 import BeautifulSoup

import lxml

import requests

url = 'https://www.mi.com/'

try:

    #模拟浏览器

    kv = {'user-agent':'Mozilla/5.0'}

    r = requests.get(url , headers = kv)

    #状态码检查，用于

    r.raise_for_status()

    r.encoding = r.apparent_encoding

    soup = BeautifulSoup(r.text,'lxml')

    for tag in soup.findAll('h2'):

        print(tag.string)

except:

    ("爬取失败")

然后再讲讲string方法，在官方文档中的解释是这样的

简单的说就是，当你获取的标签里没有别的标签了，你调用这个方法会输出这个标签里的内容，但这个标签里如果有其他的小标签和内容时，返回一个none值，比如说再爬取小米的a标签时、

这一条数据返回的就是none值

我们爬取数据的时候有时会把空白爬进去，但是又不想要空白的时候可以用.stripped_strings方法去除掉空白

然后讲一讲定位就比如说上面那条带着i标签的a标签，我们可以先找到i标签，在用他的父节点输出a标签，用。parent的方法，同理，通过 .next_siblings 和 .previous_siblings 属性可以找到当前节点的兄弟节点

爬虫入门 beautifulsoup库（一）的更多相关文章

爬虫之BeautifulSoup库
文档:https://beautifulsoup.readthedocs.io/zh_CN/latest/ 一.开始解析库 # 安装解析库 pip3 install lxml pip3 instal ...
python简单页面爬虫入门 BeautifulSoup实现
本文可快速搭建爬虫环境,并实现简单页面解析 1.安装 python 下载地址:https://www.python.org/downloads/ 选择对应版本,常用版本有2.7.3.4 安装后,将安装 ...
Python爬虫之BeautifulSoup库
1. BeautifulSoup 1.1 解析库 1)Python标准库 # 使用方法 BeautifulSoup(markup, "html.parser") # 优势 Pyth ...
Python爬虫入门 Urllib库的基本使用
1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS.CSS ...
python爬虫入门--beautifulsoup
1,beautifulsoup的中文文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ 2, from bs4 import Be ...
python爬虫入门urllib库的使用
urllib库的使用,非常简单. import urllib2 response = urllib2.urlopen("http://www.baidu.com") print r ...
爬虫入门 requests库
写在最前的具体资料: https://2.python-requests.org//zh_CN/latest/user/quickstart.html https://www.liaoxuefeng. ...
python爬虫入门四：BeautifulSoup库(转)
正则表达式可以从html代码中提取我们想要的数据信息,它比较繁琐复杂,编写的时候效率不高,但我们又最好是能够学会使用正则表达式. 我在网络上发现了一篇关于写得很好的教程,如果需要使用正则表达式的话,参 ...
Python爬虫小白入门（三）BeautifulSoup库
# 一.前言 *** 上一篇演示了如何使用requests模块向网站发送http请求,获取到网页的HTML数据.这篇来演示如何使用BeautifulSoup模块来从HTML文本中提取我们想要的数据. ...

随机推荐

PAT (Advanced Level) Practice 1055 The World's Richest (25 分) （结构体排序）
Forbes magazine publishes every year its list of billionaires based on the annual ranking of the wor ...
Qt Installer Framework翻译(7-7)
脚本API 下表总结了可以在控制器和组件脚本中使用的全局JavaScript对象. QMessageBox 提供一个模式对话框,通知用户或询问用户问题并接收答案 buttons 提供可在安装程序页面上 ...
python开发第四篇：函数（1）
函数阅读目录一函数知识体系二函数基础三函数对象.函数嵌套.名称空间与作用域.装饰器四迭代器.生成器.面向过程编程五三元表达式.列表推导式.生成器表达式.递归.匿名函数.内置函数 ...
Currency Exchange POJ - 1860 spfa判断正环
//spfa 判断正环 #include<iostream> #include<queue> #include<cstring> using namespace s ...
01-SV入门及仿真环境搭建
1.SV入门参考书籍<SystemVerilog验证测试平台编写指南> [美]克里斯·斯皮尔著 2.仿真环境搭建仿真工具:modelsim se 2019.2,它不仅支持Veril ...
[HAOI2011] 向量 - 裴蜀定理
给你一对数a,b,你可以任意使用(a,b), (a,-b), (-a,b), (-a,-b), (b,a), (b,-a), (-b,a), (-b,-a)这些向量,问你能不能拼出另一个向量(x,y) ...
Selenium3+python自动化009-iframe定位
iframe 一.frame:HTML页面中的一种框架,主要作用是在当前页面中指定区域显示另一页面元素: 二.操作Frame中的页面元素定位元素: 1.id定位driver.switch_to.fr ...
POI题解整合
我也不知道为啥我就想把POI的题全都放到一篇blog里写完. POI 2005 SAM-Toy Cars 贪心,每次选下次出现最晚的. POI 2006 KRA-The Disks 箱子位置单调,所以 ...
rest_framework:url控制
一.基本路由(原始方式) 二.半自动路由(视图继承ModelViewSet) 三.自动路由(自动生成路由) 准备工作: models中创建一张表,默认使用sqlite数据库,更新表新增测试数据加载 ...
学习 Rust cookbook 之算法篇（algorithm）
原文作者:suhanyujie 永久链接:https://github.com/suhanyujie/rust-cookbook-note 博客链接:https://ishenghuo.cnblogs ...

爬虫入门 beautifulsoup库（一）

爬虫入门 beautifulsoup库（一）的更多相关文章

随机推荐

热门专题