(转载) python3: beautifulsoup的使用

转载： https://www.cnblogs.com/chimeiwangliang/p/8649003.html
from bs4 import BeautifulSoup

import requests,re

req_obj = requests.get('https://www.baidu.com')

soup = BeautifulSoup(req_obj.text,'lxml')

'''标签查找'''

print(soup.title)              #只是查找出第一个

print(soup.find('title'))      #效果和上面一样

print(soup.find_all('div'))    #查出所有的div标签

'''获取标签里的属性'''

tag = soup.div

print(tag['class'])   #多属性的话，会返回一个列表

print(tag['id'])      #查找标签的id属性

print(tag.attrs)      #查找标签所有的属性，返回一个字典（属性名：属性值）

'''标签包的字符串'''

tag = soup.title

print(tag.string)                 #获取标签里的字符串

tag.string.replace_with("哈哈")    #字符串不能直接编辑，可以替换

'''子节点的操作'''

tag = soup.head

print(tag.title)     #获取head标签后再获取它包含的子标签

'''contents 和 .children'''

tag = soup.body

print(tag.contents)        #将标签的子节点以列表返回

print([child for child in tag.children])      #输出和上面一样

'''descendants'''

tag = soup.body

[print(child_tag) for child_tag in tag.descendants]    #获取所有子节点和子子节点

'''strings和.stripped_strings'''

tag = soup.body

[print(str) for str in tag.strings]             #输出所有所有文本内容

[print(str) for str in tag.stripped_strings]    #输出所有所有文本内容，去除空格或空行

'''.parent和.parents'''

tag = soup.title

print(tag.parent)   　　　　　　　　　　　　　 #输出便签的父标签

[print(parent) for parent in tag.parents]  #输出所有的父标签

'''.next_siblings 和 .previous_siblings

    查出所有的兄弟节点

'''

'''.next_element 和 .previous_element

    下一个兄弟节点

'''

'''find_all的keyword 参数'''

soup.find_all(id='link2')                   #查找所有包含 id 属性的标签

soup.find_all(href=re.compile("elsie"))     #href 参数,Beautiful Soup会搜索每个标签的href属性:

soup.find_all(id=True)                       #找出所有的有id属性的标签

soup.find_all(href=re.compile("elsie"), id='link1')         #也可以组合查找

soup.find_all(attrs={"属性名": "属性值"})  #也可以通过字典的方式查找

(转载) python3: beautifulsoup的使用的更多相关文章

python3 BeautifulSoup模块
一.安装下载: 1.安装: pip install beautifulsoup4 2.可选择安装解析器:pip install lxmlpip install html5lib 3.解析器比较: 解析 ...
[转载]Python3编码问题详解
原文:Python3的编码问题 Python3 最重要的一项改进之一就是解决了 Python2 中字符串与字符编码遗留下来的这个大坑.Python 编码为什么那么蛋疼?已经介绍过 Python2 字符 ...
python3 BeautifulSoup模块使用
BeautifulSoup就是Python的一个HTML或XML的解析库,可以用它来方便地从网页中提取数据.官方解释如下: Beautiful Soup提供一些简单的.Python式的函数来处理导航. ...
Python3 BeautifulSoup和Pyquery解析库随笔
BeautifuSoup和Pyquery解析库方法比较 1.对象初始化: BeautifySoup库: from bs4 import BeautifulSoup html = 'html strin ...
python3 Beautifulsoup <class 'bs4.element.ResultSet'> <class 'bs4.element.Tag'> 取值
1.<class 'bs4.element.ResultSet'> 这里是字典外套了一个列表 textPid = pid[0] 2.<class 'bs4.element.Tag ...
Python3+迭代器与生成器
转载Python3 迭代器与生成器迭代器迭代是Python最强大的功能之一,是访问集合元素的一种方式. 迭代器是一个可以记住遍历的位置的对象. 迭代器对象从集合的第一个元素开始访问,直到所有的元素 ...
Python3.x与Python2.x的差异用法
Python3.x与Python2.x的差异用法 1,关于urllib2区别: # python2 import urllib2 # python3 # 用urllib.request代替urllib ...
v0lt CTF安全工具包
0×00 v0lt v0lt是一个我尝试重组每一个我使用过的/现在在使用的/将来要用的用python开发的安全领域CTF工具.实践任务可能会采用bash脚本来解决,但我认为Python更具有灵活性,这 ...
仿9GAG制作过程（二）
有话要说: 这次准备讲述用python爬虫以及将爬来的数据存到MySQL数据库的过程,爬的是煎蛋网的无聊图. 成果: 准备: 下载了python3.7并配置好了环境变量下载了PyCharm作为开发p ...

随机推荐

How to hosts
sudo cp /etc/hosts /etc/hosts.bak sudo cp ~/Desktop/hosts /etc/hosts sudo systemctl restart NetworkM ...
bzoj5358
Problem A. 口算训练Input file: stdinOutput file: stdoutTime limit: 5 secondsMemory limit: 512 megabytes小 ...
Xtoken
“我希望有一种模式,利用群体的智慧让最好的想法总能够脱颖而出”. 博弈模型背景本文为NEO社区理事会秘书长陶荣祺在全球创业周区块链创新与发展论坛上的主题演讲<Xtoken代观社区驱动群体智慧 ...
Neutron 网络基本概念
Neutron 网络基本概念上次我们讨论了 Neutron 提供的功能,今天我们学习 Neutron 模块几个重要的概念. Neutron 管理的网络资源包括 Network,subnet 和 po ...
Spring 使用介绍（十）—— 单元测试
一.概述 Spring测试框架提供了对单元测试的支持,以便使用spring的依赖注入和事务管理功能 maven依赖: <dependency> <groupId>junit&l ...
Spring MVC启动过程（1）：ContextLoaderListener初始化
此文来自https://my.oschina.net/pkpk1234/blog/61971 (写的特别好)故引来借鉴 Spring MVC启动过程以Tomcat为例,想在Web容器中使用Spirn ...
THUSC2017 Day1题解
THUSC2017 Day1题解巧克力题目描述 "人生就像一盒巧克力,你永远不知道吃到的下一块是什么味道." 明明收到了一大块巧克力,里面有若干小块,排成n行m列.每一小块都有 ...
urls 管理
问题阐述:如何管理多个app下的路由分发,使得管理更加清晰? 1. 在app下创建urls.py文件 from django.conf.urls import url from django.urls ...
Luogu P1648 看守
Luogu P1648 看守题意简述有n个d维的点,输出这些点两两之间曼哈顿距离中的最大值数据范围 n<=1e6,d<=4 思路暴力?时间复杂度O(\(n^2d\)) 考虑这样的一 ...
linux(fedora) 第三课
树形打印所有进程名:pstree pstree | grep pstree -A2 -B2(查看pstree前后两行) NI的值[-20,20) nice(改变NI的值):改变程序优先级 nice - ...

(转载) python3: beautifulsoup的使用

(转载) python3: beautifulsoup的使用的更多相关文章

随机推荐

热门专题