爬虫模块BeautifulSoup

中文文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#

1.1 安装BeautifulSoup模块和解析器

1) 安装BeautifulSoup

pip install beautifulsoup4

2) 安装解析器

pip install lxml

　　pip install html5lib

1.2 对象种类

Tag : 标签对象，如：<p class="title"><b>yoyoketang</b></p>，这就是一个标签
NavigableString ：字符对象，如：这里是我的微信公众号：yoyoketang
BeautifulSoup ：就是整个html对象
Comment ：注释对象，如：!-- for HTML5 --，它其实就是一个特殊NavigableString

1.3 常用方法

# coding:utf-8

__author__ = 'Helen'

'''

description:爬虫模块BeautifulSoup学习

'''

import requests

from bs4 import BeautifulSoup

r = requests.get("https://www.baidu.com/")

soup = BeautifulSoup(r.content,'html5lib')

print soup.a	#  根据tab名输出，只输出第一个

print soup.find('a')	#	同上

print soup.find_all('a')	# 输出所有a元素

	# 找出对应的tag，再根据元素属性找内容

print soup.find_all('a',{'href':'https://www.hao123.com','name':'tj_trhao123'})

# .contents(tag对象contents可以获取所有的子节点，返回的是list,获取该元素的直接子节点)

print soup.find('a').contents[0]	# 输出第一个节点

print soup.find('div',id='u1').contents[1]	# 输出第二个节点

# .children(点children这个生成的是list对象，跟上面的点contents功能一样,但是不能通过下标读，只能for循环读)

for i in soup.find('div',id='u1').children:

	print i

# .descendants(获取所有的子孙节点)

for i in soup.find(class_='head_wrapper').descendants:

	print i

爬虫模块BeautifulSoup的更多相关文章

python-网络安全编程第五天（爬虫模块BeautifulSoup）
前言昨晚学的有点晚睡得很晚了,今天早上10点多起来吃完饭看了会电视剧就瞌睡了一直睡到12.50多起来洗漱给我弟去开家长会开到快4点多才回家.耽搁了不少学习时间,现在就把今天所学的内容总结下吧. ...
Python 爬虫三 beautifulsoup模块
beautifulsoup模块 BeautifulSoup模块 BeautifulSoup是一个模块,该模块用于接收一个HTML或XML字符串,然后将其进行格式化,之后遍可以使用他提供的方法进行快速查 ...
爬虫模块介绍--request（发送请求模块）
爬虫:可见即可爬 # 每个网站都有爬虫协议基础爬虫需要使用到的三个模块 requests 模块 # 模拟发请求的模块 PS:python原来有两个模块urllib和urllib的升级urlli ...
Python爬虫之BeautifulSoup的用法
之前看静觅博客,关于BeautifulSoup的用法不太熟练,所以趁机在网上搜索相关的视频,其中一个讲的还是挺清楚的:python爬虫小白入门之BeautifulSoup库,有空做了一下笔记: 一.爬 ...
python爬虫---单线程+多任务的异步协程,selenium爬虫模块的使用
python爬虫---单线程+多任务的异步协程,selenium爬虫模块的使用一丶单线程+多任务的异步协程特殊函数 # 如果一个函数的定义被async修饰后,则该函数就是一个特殊的函数 async ...
使用Python爬虫库BeautifulSoup遍历文档树并对标签进行操作详解（新手必学）
为大家介绍下Python爬虫库BeautifulSoup遍历文档树并对标签进行操作的详细方法与函数下面就是使用Python爬虫库BeautifulSoup对文档树进行遍历并对标签进行操作的实例,都是最 ...
Python网络爬虫之BeautifulSoup模块
一.介绍: Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮 ...
爬虫利器BeautifulSoup模块使用
一.简介 BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式,同时应用场景也是非常丰富,你可以使用 ...
爬虫模块介绍--Beautifulsoup （解析库模块，正则）
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时 ...

随机推荐

【Spring源码分析】非懒加载的单例Bean初始化前后的一些操作
前言之前两篇文章[Spring源码分析]非懒加载的单例Bean初始化过程(上篇)和[Spring源码分析]非懒加载的单例Bean初始化过程(下篇)比较详细地分析了非懒加载的单例Bean的初始化过程, ...
python 常见算法
python虽然具备很多高级模块,也是自带电池的编程语言,但是要想做一个合格的程序员,基本的算法还是需要掌握,本文主要介绍列表的一些排序算法递归是算法中一个比较核心的概念,有三个特点,1 调用自身 ...
NancyFX 第十章身份验证
如果你在采用某个Web框架来构建一个公共使用的Web服务,你可能需要对谁能访问上述的服务进行某种方式的控制. 它可能很简单,只需要在调用API时在HTTP头信息中加入一个验证字段,或者需要构建一个完善 ...
洛谷 P1017 进制转换
推荐洛谷题目描述我们可以用这样的方式来表示一个十进制数: 将每个阿拉伯数字乘以一个以该数字所处位置的(值减1)为指数,以10为底数的幂之和的形式.例如:123可表示为 1*10^2+2*10^1+ ...
asp.net core 五 SignalR 负载均衡
SignalR : Web中的实时功能实现,所谓实时功能,就是所连接的客户端变的可用时,服务端能实时的推送内容到客户端,而不是被动的等待客户端的请求.Asp.net SignalR 源码 ...
spark source code 分析之ApplicationMaster overview（yarn deploy client mode）
一直不是很清楚ApplicationMaster的作用,尤其是在yarn client mode和cluster mode的区别网上有一些非常好的资料,请移步: https://blog.cloud ...
从源码浅析Java中的Lock和AbstractQueuedSynchronizer
在之前的文章中我也曾经介绍过Lock,像ReentrantLock(可重入锁)和ReentrantReadWriteLock(可重入读写锁),这些所我们在说的时候并没有详细的说明它们的原理,仅仅说明了 ...
巧用linux版powershell，管理linux下的docker
大家好,我把用powershell的docker马甲命令的好处,放在了页面下方,从第五章开始. powershell 传教士原创文章始于 2017-09-07 允许转载,但必须保留名字和出处,否则 ...
RabbitMQ第四篇：Spring集成RabbitMQ
前面几篇讲解了如何使用rabbitMq,这一篇主要讲解spring集成rabbitmq. 首先引入配置文件org.springframework.amqp,如下 <dependency> ...
给我一台全新的服务器，使用nginx+gunicorn+supervisor部署django
0.准备工作在一台全新的服务器中新建用户以及用户的工作目录,之后的操作都以这个用户的身份进行,而不是直接用root. 举个栗子: 在服务器下新建用户rinka并赋予sudo权限 1) root登陆, ...

爬虫模块BeautifulSoup

爬虫模块BeautifulSoup的更多相关文章

随机推荐

热门专题