BeautifulSoup4----利用find_all和get方法来获取信息

中文文档
官方教学网页源码：

<html>

    <head>

        <title>Page title</title>

    </head>

    <body>

        <p id="firstpara" align="center">

        This is paragraph<b>one</b>.

        </p>

        <p id="secondpara" align="blah">

        This is paragraph<b>two</b>.

        </p>

     </body>

</html>

find方法的参数及意义

find(name=None, attrs={}, recursive=True, text=None, **kwargs)

1,按照tag(标签)搜索：

1 find(tagname)        # 直接搜索名为tagname的tag 如：find('head')

2 find(list)           # 搜索在list中的tag，如: find(['head', 'body'])

3 find(dict)           # 搜索在dict中的tag，如:find({'head':True, 'body':True})

4 find(re.compile('')) # 搜索符合正则的tag, 如:find(re.compile('^p')) 搜索以p开头的tag

5 find(lambda)         # 搜索函数返回结果为true的tag, 如:find(lambda name: if len(name) == 1) 搜索长度为1的tag

6 find(True)           # 搜索所有tag

　　2,按照attrs(属性)搜索:

1 find('id'='xxx')                                  # 寻找id属性为xxx的

2 find(attrs={'id':re.compile('xxx'), 'algin':'xxx'}) # 寻找id属性符合正则且algin属性为xxx的

3 find(attrs={'id':True, 'algin':None})               # 寻找有id属性但是没有algin属性的

利用BeautifulSoup4爬取豆瓣数据的ID

代码如下：

import requests

from bs4 import BeautifulSoup as bs

#以豆瓣‘编程’分类的一个连接URL为例子开始爬数据ID

url = 'https://book.douban.com/tag/编程?start=20&type=T'

res = requests.get(url)  #发送请求

#print(res.encoding)    #这个是用来查看网页编码的

#res.encoding = 'utf-8'   #跟上一个结合来用，如果编码有乱码，则可以通过这个定义编码来改变

html = res.text

#print(html)

IDs = []

soup  = bs(html,"html.parser")     #定义一个BeautifulSoup变量

items = soup.find_all('a',attrs={'class':'nbg'})

#print(items)

for i in items:

    idl = i.get('href')

    #print(idl)

    id = idl.split('/')[4]

    print(id)

    IDs.append(id)

print('这一页收集到书籍ID数：%d' % len(IDs))

第一部分是获取网页源代码的过程，使用requests模块
第二部分为使用BeautifulSoup来解析网页，得到需要的信息
- ```
soup  = bs(html,"html.parser")
```
  这句的意思是声明一个变量，用BeautifulSoup处理之后的原网页代码
- ```
items = soup.find_all('a',attrs={'class':'nbg'})
```
  这句的作用是查找a标签，当然，a标签会有很多，但是我们不需要所有，因此我们还需要判断一下这种a标签还有个属性是class='nbg'，我们只需要这种a标签。items得到的是一个list
- 属性都放着attrs这个字典中，当某个属性的值不是定值的时候，可以使用 '属性名':True 这种方式。
- ```
for i in items:

    idl = i.get('href')
```
  这句的意思是获取满足条件的每个a标签中属性‘href’的值
- ```
id = idl.split('/')[4]
```
  由于‘href’的属性是一个连接，但是我们只需要得到ID，所有可以将连接按照‘/’分解，提取ID
具体的爬虫例子可以参照：智联招聘爬虫
Beautifulsoup的select选择器方法可以参考爬虫例子：前程无忧爬虫

BeautifulSoup4----利用find_all和get方法来获取信息的更多相关文章

Jquery学习笔记：利用parent和parents方法获取父节点
通过选择器一般只能获取指定标识的节点,或者获取子节点. 有些场景下,往往需要根据当前节点找到满足条件的父节点.这个可以通过相应的方法来实现. 1.parent方法该方法可以获取元素的直接父节点. 我 ...
利用window.name+iframe跨域获取数据详解
详解前文提到用jsonp的方式来跨域获取数据,本文为大家介绍下如何利用window.name+iframe跨域获取数据. 首先我们要简单了解下window.name和iframe的相关知识.ifra ...
Java开发笔记（八十）利用反射技术操作私有方法
前面介绍了如何利用反射技术读写私有属性,不单是私有属性,就连私有方法也能通过反射技术来调用.为了演示反射的逆天功能,首先给Chicken鸡类增加下列几个私有方法,简单起见弄来了set***/get** ...
根据方法名获取方法Body Content
利用 MethodBody类的GetILAsByteArray方法可以获取到返回字节数组的MSIL的body.然后再去解析此字节数组, 可以得到MSIL,然后你再去解析MSIL,你就可以得到你想到so ...
如何在onCreate方法中获取视图的宽度和高度
你可以通过视图的getWidth()和getHeight()来获取视图的宽度和高度. 但是,可能会让你失望的是,如果你直接在onCreate方法内调用这两个函数,你会的到0. 为什么呢? 这是因为,当 ...
iframe 跨域问题解决方案利用window.name+iframe跨域获取数据详解
详解前文提到用jsonp的方式来跨域获取数据,本文为大家介绍下如何利用window.name+iframe跨域获取数据. 首先我们要简单了解下window.name和iframe的相关知识.ifra ...
java利用MultipartRequest的getFileName方法不能得到原文件名问题
想利用MultipartRequest的getFileName方法来一次获取多个上传的文件名字时,得到的不是文件的名字,而是 input 的name属性最后找到了答案,解决方法,参照http://s ...
C# 知识点笔记：IEnumerable<>的使用,利用反射动态调用方法
IEnumerable<T>的使用创建一个IEnumerable对象 List<string> fruits = new List<string> { " ...
JSF页面中使用js函数回调后台bean方法并获取返回值的方法
由于primefaces在国内使用的并不是太多,因此,国内对jsf做系统.详细的介绍的资料很少,即使有一些资料,也仅仅是对国外资料的简单翻译或者是仅仅讲表面现象(皮毛而已),它们的语句甚至还是错误的, ...

随机推荐

QT STUDY
【运维实战】一次linux日志分割之路——将日志按照每小时进行分割，并按照“日期-小时”格式保存
是这样的,现在需要对nginx的access.log进行按照每小时进行分割,并且最好还要能够以 “日期+时间”的形式,命名保存. 两点,一个是按照每小时进行分割,一个是将日志以“日期+时间”的形式进行 ...
跟厂长学PHP7内核（一）：发展史
PHP1 1994年,一位名叫Rasmus lerdorf的兄台为了在网上展示自己的履历和网页流量的统计,用Perl开发了一套脚本,后来因与日俱增的需求无法得到满足,lerdorf便使用c语言进行了重 ...
（五）静态断言(下)，static_assert
二.静态断言与static_assert 通过上一篇,我们可以看到,断言assert宏只有在程序运行的时候才能起作用.而#error值在编译器预处理时才能起作用. 有时候,我们希望在编译时候能做一些断 ...
python3.6 利用requests和正则表达式爬取猫眼电影TOP100
import requests from requests.exceptions import RequestException from multiprocessing import Pool im ...
dSploitzANTI渗透教程之安装zANTI工具
dSploitzANTI渗透教程之安装zANTI工具 Dsploit/zANTI基础知识 zANTI是一款Android平台下的渗透测试工具,支持嗅探已连接的网络.支持中间人攻击测试.端口扫描.Coo ...
django 启动nginx的时候，报端口被占用的问题
Nginx [emerg] listen() to 0.0.0.0:80, backlog 511 failed (98: Address already in use) Nginx更新后经常遇到这样 ...
BZOJ 1283 序列费用流网络流线性规划
https://darkbzoj.cf/problem/1283 给出一个长度为N的正整数序列Ci,求一个子序列,使得原序列中任意长度为M的子串中被选出的元素不超过K(K,M<=100) 个,并 ...
bzoj 3252: 攻略
3252: 攻略 Description 题目简述:树版[k取方格数] 众所周知,桂木桂马是攻略之神,开启攻略之神模式后,他可以同时攻略k部游戏. 今天他得到了一款新游戏<XX半岛>, ...
bzoj 3996 最小割
公式推出来后想了半天没思路,居然A是01矩阵..... 如果一个问题是求最值,并那么尝试先将所有可能收益加起来,然后矛盾部分能否用最小割表达(本题有两个矛盾,第一个是选还是不选,第二个是i,j有一个不 ...

BeautifulSoup4----利用find_all和get方法来获取信息

中文文档

官方教学网页源码：

find方法的参数及意义

利用BeautifulSoup4爬取豆瓣数据的ID

具体的爬虫例子可以参照：智联招聘爬虫

Beautifulsoup的select选择器方法可以参考爬虫例子：前程无忧爬虫

BeautifulSoup4----利用find_all和get方法来获取信息的更多相关文章

随机推荐

热门专题