bs4笔记

1、网页输出乱码的解决办法

r= requests.get('https://www.baidu.com/')

r.encoding = 'gbk2312' #有可能 gbk、utf-8

soup=BeautifulSoup(r.text,"html.parser")

来源:https://blog.csdn.net/w839687571/article/details/81414433

2、打开本地html的方法

import requests
from bs4 import BeautifulSoup
import io

path = '/Users/lucax/Desktop/素材/html/123.html'
htmlfile = io.open(path, 'r', encoding='utf-8')
htmlhandle = htmlfile.read()
soup = BeautifulSoup(htmlhandle, "html.parser")
print soup

2-1、自己输入文字再输出的方法

markup = "<b></b>"
soup = BeautifulSoup(markup)
comment = soup.b.string #输出里面的字符

soup.prettify() #套上html框架加入markup的文案输出

3、各种拿网页元素的方法

soup.title --获取网页title

soup.title.name --获取title标签的标签文案

soup.title.string --获取title标签里面的文案 string 和 text 用法的区别 https://www.cnblogs.com/kaibindirver/p/11374669.html

soup.strings --获取网页所有文案，每个文案分别放入到数组里，但只能使用for循环展示出来

soup.stripped_strings ---(接着strings取出的内容)可以把空格和换行符去掉

soup.p --获取网页的p标签

soup.a --获取网页的a标签

soup.find_all('a') --获取网页所有的a标签

soup.find(id='link3') --获取id=link3的标签

soup.find('a',id='link2') --获取 a 标签且 id=link2 的标签

soup.get_text() --获取网页中所有文字内容

soup.text.encode('utf-8') --获取网页中所有文字内容另外一种写法

soup.text --获取网页中所有文字内容另外一种写法

4、标签内属性、值、标签名操作的方法

soup.p['class'] -获取标签里面的属性对应的值

soup.p.get('class') -获取标签里面的属性对应的值,另一种写法

soup.p.attrs --获取p标签所有的属性和值(字典形式输出)

soup.a.name='新的标签' --修改网页里面a标签的标签为'新的标签'

soup.p['class']='123' --修改属性的值

del soup.p['class'] --删除属性

5、替换文案的操作方法

soup.div.find('div',id="site_nav_top").replace_with("No longer bold") --替换整个标签的方法

soup.div.find('div',id="site_nav_top").string.replace_with("No longer bold") --替换标签内文案的方法

6、把tag内的子节点已列表形式输出 .contents 属性

head_tag = soup.head
head_tag
# <head><title>The Dormouse's story</title></head>

head_tag.contents
[<title>The Dormouse's story</title>]

title_tag = head_tag.contents[0]
title_tag
# <title>The Dormouse's story</title>
title_tag.contents
# [u'The Dormouse's story']

7.获取网页所有标签内文字

soup.strings

stripped_strings 过滤空格的方法

用法

for string in soup.strings:

print string

8、搜索有特定属性的标签的方法

9\获取tr标签内多个td标签，其中一个td标签里面em标签的写法

bs4笔记的更多相关文章

Python爬虫常用模块，BeautifulSoup笔记
import urllib import urllib.request as request import re from bs4 import * #url = 'http://zh.house.q ...
商业爬虫学习笔记day7-------解析方法之bs4
一.Beautiful Soup 1.简介 Beautiful Soup 是python的一个库,最主要的功能是从网页抓取数据.其特点如下(这三个特点正是bs强大的原因,来自官方手册) a. Beau ...
机器学习实战笔记(Python实现)-08-线性回归
--------------------------------------------------------------------------------------- 本系列文章为<机器 ...
爬虫笔记(四)------关于BeautifulSoup4解析器与编码
前言:本机环境配置:ubuntu 14.10,python 2.7,BeautifulSoup4 一.解析器概述如同前几章笔记,当我们输入: soup=BeautifulSoup(response. ...
python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容
python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容 Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖 ...
笔记之Python网络数据采集
笔记之Python网络数据采集非原创即采集一念清净, 烈焰成池, 一念觉醒, 方登彼岸网络数据采集, 无非就是写一个自动化程序向网络服务器请求数据, 再对数据进行解析, 提取需要的信息通常, ...
python笔记之提取网页中的超链接
python笔记之提取网页中的超链接对于提取网页中的超链接,先把网页内容读取出来,然后用beautifulsoup来解析是比较方便的.但是我发现一个问题,如果直接提取a标签的href,就会包含jav ...
<Python Text Processing with NLTK 2.0 Cookbook>代码笔记
如下是<Python Text Processing with NLTK 2.0 Cookbook>一书部分章节的代码笔记. Tokenizing text into sentences ...
python爬虫基础_requests和bs4
这些都是笔记,还缺少详细整理,后续会更新. 下面这种方式,属于入门阶段,手动成分比较多. 首先安装必要组件: pip3 install requests pip3 install beautifuls ...

随机推荐

Cloud Native Weekly |面对云平台宕机，企业如何止损
KubeEdge v0.2发布 KubeEdge在18年11月24日的上海KubeCon上宣布开源的一个开源项目,旨在依托K8S的容器编排和调度能力,实现云边协同.计算下沉.海量设备的平滑接入. Ku ...
捷克200套UR51出货新版本FTP问题（FTP主动模式无法正常传输数据问题）
FTP alg功能普通NAT实现了对UDP或TCP报文头中的的IP地址及端口转换功能,但对应用层数据载荷中的字段无能为力,在许多应用层协议中,比如多媒体协议(H.323.SIP等).FTP.SQLN ...
配置基于centos下的远程Jupyter Notebook访问
最近在学习一些服务器上的操作,学着熟悉Liunx系统,记录下自己踩过的坑吧 1.开机后更新系统: yum -y upgrade yum - y update 2.查看已安装的应用 yum list 3 ...
jQuery——jQuery对象与DOM对象
1.jQuery对象与DOM对象的区别通过jQuery方法包装后的对象,是一个类数组对象.它与DOM对象完全不同,唯一相似的是它们都能操作DOM. 通过jQuery处理DOM的操作,可以让开发者更专 ...
Spring Bean装配（上）
Bean:在spring的IOC里面,把配置到IOC容器里面的实体或者是对象都称为Bean Bean配置项 Bean的作用域 Bean的生命周期 Bean的自动装配 Resources&Res ...
Java8-ConcurrentUtils
import java.util.concurrent.ExecutorService; import java.util.concurrent.TimeUnit; public class Conc ...
推荐一款在IntelliJ IDEA中使用微信/QQ的插件
SmartIM SmartIM4IntelliJ 是一个 IntelliJ IDEA 上的 SmartIM(原 SmartQQ)插件,可以在 IDEA 中使用 QQ 或微信聊天. 功能收发文本消息 ...
Linux 安装python3.7
首先需要安装依赖 yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-dev ...
xhEditor实现ctrl+v粘贴word图片并上传
自动导入Word图片,或者粘贴Word内容时自动上传所有的图片,并且最终保留Word样式,这应该是Web编辑器里面最基本的一个需求功能了.一般情况下我们将Word内容粘贴到Web编辑器(富文本编辑器) ...
luogu 2052 [NOI2011]道路修建 BFS序
据说dfs会爆栈,写一个 BFS 序更新就好了~ #include <bits/stdc++.h> #define N 1000005 #define ll long long #defi ...

bs4笔记

bs4笔记的更多相关文章

随机推荐

热门专题