1、网页输出乱码的解决办法

r= requests.get('https://www.baidu.com/')

r.encoding = 'gbk2312'   #有可能 gbk、utf-8

soup=BeautifulSoup(r.text,"html.parser")

来源:https://blog.csdn.net/w839687571/article/details/81414433

2、打开本地html的方法

import requests
from bs4 import BeautifulSoup
import io

path = '/Users/lucax/Desktop/素材/html/123.html'
htmlfile = io.open(path, 'r', encoding='utf-8')
htmlhandle = htmlfile.read()
soup = BeautifulSoup(htmlhandle, "html.parser")
print soup

2-1、自己输入文字再输出的方法

markup = "<b><!--Hey, buddy. Want to buy a used parser?--></b>"
soup = BeautifulSoup(markup)
comment = soup.b.string  #输出里面的字符

soup.prettify() #套上html框架加入markup的文案输出

3、各种拿网页元素的方法

soup.title  --获取网页title

soup.title.name --获取title标签的标签文案

soup.title.string  --获取title标签里面的文案           string 和 text 用法的区别 https://www.cnblogs.com/kaibindirver/p/11374669.html

soup.strings    --获取网页所有文案,每个文案分别放入到数组里,但只能使用for循环展示出来

soup.stripped_strings   ---(接着strings取出的内容)可以把空格和换行符去掉

soup.p  --获取网页的p标签

soup.a --获取网页的a标签

soup.find_all('a')  --获取网页所有的a标签

soup.find(id='link3')  --获取id=link3的标签

soup.find('a',id='link2')  --获取 a 标签 且 id=link2 的标签

soup.get_text() --获取网页中所有文字内容

soup.text.encode('utf-8') --获取网页中所有文字内容 另外一种写法

soup.text --获取网页中所有文字内容 另外一种写法

4、标签内属性、值、标签名操作的方法

soup.p['class']   -获取标签里面的属性对应的值

soup.p.get('class')  -获取标签里面的属性对应的值,另一种写法

soup.p.attrs --获取p标签所有的属性和值(字典形式输出)

soup.a.name='新的标签' --修改网页里面a标签的标签为'新的标签'

soup.p['class']='123'   --修改属性的值

del soup.p['class']     --删除属性

5、替换文案的操作方法

soup.div.find('div',id="site_nav_top").replace_with("No longer bold")      --替换整个标签的方法

soup.div.find('div',id="site_nav_top").string.replace_with("No longer bold")  --替换标签内文案的方法

6、把tag内的子节点已列表形式输出  .contents  属性

head_tag = soup.head
head_tag
# <head><title>The Dormouse's story</title></head>

head_tag.contents
[<title>The Dormouse's story</title>]

title_tag = head_tag.contents[0]
title_tag
# <title>The Dormouse's story</title>
title_tag.contents
# [u'The Dormouse's story']

7.获取网页所有标签内文字

soup.strings

stripped_strings   过滤空格的方法

用法

for string in soup.strings:

print string

8、搜索有特定属性的标签的方法

9\获取tr标签内多个td标签,其中一个td标签里面em标签的写法

 
												

bs4笔记的更多相关文章

  1. Python爬虫常用模块,BeautifulSoup笔记

    import urllib import urllib.request as request import re from bs4 import * #url = 'http://zh.house.q ...

  2. 商业爬虫学习笔记day7-------解析方法之bs4

    一.Beautiful Soup 1.简介 Beautiful Soup 是python的一个库,最主要的功能是从网页抓取数据.其特点如下(这三个特点正是bs强大的原因,来自官方手册) a. Beau ...

  3. 机器学习实战笔记(Python实现)-08-线性回归

    --------------------------------------------------------------------------------------- 本系列文章为<机器 ...

  4. 爬虫笔记(四)------关于BeautifulSoup4解析器与编码

    前言:本机环境配置:ubuntu 14.10,python 2.7,BeautifulSoup4 一.解析器概述 如同前几章笔记,当我们输入: soup=BeautifulSoup(response. ...

  5. python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容

    python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容 Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖 ...

  6. 笔记之Python网络数据采集

    笔记之Python网络数据采集 非原创即采集 一念清净, 烈焰成池, 一念觉醒, 方登彼岸 网络数据采集, 无非就是写一个自动化程序向网络服务器请求数据, 再对数据进行解析, 提取需要的信息 通常, ...

  7. python笔记之提取网页中的超链接

    python笔记之提取网页中的超链接 对于提取网页中的超链接,先把网页内容读取出来,然后用beautifulsoup来解析是比较方便的.但是我发现一个问题,如果直接提取a标签的href,就会包含jav ...

  8. <Python Text Processing with NLTK 2.0 Cookbook>代码笔记

    如下是<Python Text Processing with NLTK 2.0 Cookbook>一书部分章节的代码笔记. Tokenizing text into sentences ...

  9. python爬虫基础_requests和bs4

    这些都是笔记,还缺少详细整理,后续会更新. 下面这种方式,属于入门阶段,手动成分比较多. 首先安装必要组件: pip3 install requests pip3 install beautifuls ...

随机推荐

  1. 服务器CPU架构演变过程

    第一阶段: 单CPU,没啥好说的.和我们今天打游戏的台式机差不多. 第二阶段: 双CPU 或者 多CPU的SMP架构 或者 AMP架构.参考:http://www.lauterbach.com/smp ...

  2. BZOJ 3716 [PA2014]Muzeum 贪心SET最大闭合子图

    看上去像是一个最大权闭合子图裸题但是数据太大 我们可以先把守卫的视野转换到第二象限(每个守卫可以看到横坐标比他小 纵坐标比他大的宝物) 然后按X从小到大 再按Y从大到小排 这样我们就可以按SORT序遍 ...

  3. Java 基础 - Set接口 及其实现类HashSet/LinkedHashSet/TreeSet

    笔记: /**Set接口 及其实现类 * 公用操作同Collection: * * ①size(),clear()②isEmpty(),③contains(),④add()方法 和remove()方法 ...

  4. [ 转载 ] vue.js面试题一

    转载自:https://www.cnblogs.com/aimeeblogs/p/9501490.html 如有侵权 联系删除 Vue.js面试题整理 一.什么是MVVM? MVVM是Model-Vi ...

  5. v-solt插槽

    https://www.jb51.net/article/157565.htm https://juejin.im/post/5c64e11151882562e4726d98

  6. 纯css实现树形结构

    纯css实现属性结构 **css实现属性结构的思路是利用伪类实现树形结构连接线,如果想实现点击展开和收 缩以及复选框效果还得配合js来实现.其实展开和收缩就是一个点击元素其子元素隐藏 和显示的切换.* ...

  7. Tarjan算法【阅读笔记】

    应用:线性时间内求出无向图的割点与桥,双连通分量.有向图的强连通分量,必经点和必经边. 主要是求两个东西,dfn和low 时间戳dfn:就是dfs序,也就是每个节点在dfs遍历的过程中第一次被访问的时 ...

  8. Qt 把连续两次单击当成双击

    方法1: 主要通过计时器,在一段时间内的连续两次单击,触发双击事件 void init() { m_nClickCount = 0; m_timer = new QTimer(this); conne ...

  9. 15-Node.js学习笔记-Express的安装及检验

    最新的node已经把一些命令工具单独的分出来了,所以我们应该先下安装他的打包函数,再安装express,在进行检验就安装成功了 如需require还需在文件夹内单独安装 sudo npm instal ...

  10. php中的print函数

    php print函数怎么用? 定义和用法 print() 函数输出一个或多个字符串. 注释:print() 函数实际不是一个函数,所以您不必对它使用括号. 提示:print() 函数比 echo() ...