python3 调用 beautifulSoup 进行简单的网页处理

from bs4 import BeautifulSoup

file = open('index.html','r',encoding='utf-16-le') #此处有坑！！！
soup = BeautifulSoup(file,'lxml')

print (soup)  # 打印读出的内容
print ('\n ------------- \n')
print (soup.get_text())  # 取所有标签中的文字
print ('\n ------------- \n')
print (soup.prettify()) # 格式化输出

# 以标签的形式输出
print (soup.title)
print ('\n ------------- \n')
print (soup.body)
print ('\n ------------- \n')
print (soup.body.div)

import re
print (soup.find_all('br'))  # 仅仅用来搜索标签 
print ('\n ------------- \n')
print (soup.find_all(re.compile('^b')))#可以使用正则表达式  以b开头的标签
print ('\n ------------- \n')
print (soup.find_all(id='wiz_custom_css'))
print ('\n ------------- \n')
for strr in soup.strings:  # 取所有下一级标签中的字符串  .stripped_strings可以去空白
    print (strr)
print ('\n ------------- \n')

# 去除body中的标签，将结果保存于文件  待改进
# kill all script and style elements
for script in soup(["script", "style"]):
    script.extract()    # rip current tap

title_text = soup.title.get_text()
str_text = ''
for strr in soup.body.strings:  # 取所有下一级标签中的字符串  .stripped_strings可以去空白
    str_text = str_text + strr + '\n'

print (str_text)
if title_text == '':
    md_file = open('index.md','w')
    md_file.write(str_text)

else:
    md_file = open(title_text+'.md','w')
    md_file.write(str_text)

# 网上搜到的方式，<br/>标签没有转为换行，后面有另一种方式

#print soup
# kill all script and style elements
for script in soup(["script", "style"]):
    script.extract()    # rip current tap

# get text
text = soup.get_text()

#print text + '____________'
# break into lines and remove leading and trailing space on each
# splitlines 按\r \r\n \n三种标签分解为行 
# strip()移除首尾字符，参数默认为空格
lines = (line.strip() for line in text.splitlines()) 
# break multi-headlines into a line each
chunks = (phrase.strip() for line in lines for phrase in line.split("  ")) 
# drop blank lines
text = '\n'.join(chunk for chunk in chunks if chunk) # 这个循环…………

#wfile = open('aa.md','w')
#wfile.write(text)
print(text)

From WizNote

python3 调用 beautifulSoup 进行简单的网页处理的更多相关文章

问题：python3 使用beautifulSoup时，出错UnicodeDecodeError: 'gbk' codec …….
想将html文件转为纯文本,用Python3调用beautifulSoup 超简单的代码一直出错,用于打开本地文件: from bs4 import BeautifulSoup file = open ...
Python3中BeautifulSoup的使用方法
BeautifulSoup的使用我们学习了正则表达式的相关用法,但是一旦正则写的有问题,可能得到的就不是我们想要的结果了,而且对于一个网页来说,都有一定的特殊的结构和层级关系,而且很多标签都有id或 ...
爬虫基础库之beautifulsoup的简单使用
beautifulsoup的简单使用简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: ''' Beautiful Soup提供一些简单的.p ...
分享：计算机图形学期末作业！！利用WebGL的第三方库three.js写一个简单的网页版“我的世界小游戏”
这几天一直在忙着期末考试,所以一直没有更新我的博客,今天刚把我的期末作业完成了,心情澎湃,所以晚上不管怎么样,我也要写一篇博客纪念一下我上课都没有听,还是通过强大的度娘完成了我的作业的经历.(当然作业 ...
Python3调用Hadoop的API
前言: 上一篇文章我学习使用pandas进行简单的数据分析,但是各位...... Pandas处理.分析不了TB级别数据的大数据,于是再看看Hadoop. 另附上人心不足蛇吞象对故事一的感悟: ...
Python【BeautifulSoup解析和提取网页数据】
[解析数据] 使用浏览器上网,浏览器会把服务器返回来的HTML源代码翻译为我们能看懂的样子在爬虫中,也要使用能读懂html的工具,才能提取到想要的数据 [提取数据]是指把我们需要的数据从众多数据中挑 ...
利用python3 调用zabbix接口完成批量加聚合图形（screens)
在上一篇博客中,我们完成的利用python3 调用zabbix接口批量增加主机,增加主机的item,增加主机的图形! 接下来我们完成批量增加主机的screen 首先我们要增加screen需要哪些参数呢 ...
Python3调用C程序（超详解）
Python3调用C程序(超详解) Python为什么要调用C? 1.要提高代码的运算速度,C比Python快50倍以上 2.对于C语言里很多传统类库,不想用Python重写,想对从内存到文件接口这样 ...
Rsession让Java调用R更简单
Rsession让Java调用R更简单 R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大. R语言作为统计学一门语言,一直在小众领域闪耀着光芒. ...

随机推荐

vmware vcsa-故障1
1.重启vcsa后不能登陆webclient 做实验得时候重启vcsa后不能登陆 web client 开启vcsa直接进入命令模式,命令行登陆后提示:failed to connect to se ...
如何使用Class和ClassLoader加载文件
很多时候我们都需要在程序中加载各种文件,比如在加载配置文件,加载properties文件,或者只是加载一个文本文件,然后输出其中的内容,我在初学java的时候,就对加载文件非常头疼,今天又遇见了加载文 ...
WPF打印控件内容
当我们想打印控件内容时,如一个Grid中的内容,可以用WPF中PrintDialog类的PrintVisual()方法来实现界面如下: XAML代码如下 <Grid> <Grid. ...
查询慢SQL
可以查看当前时间访问库的所有请求SQL SELECT COUNT(*) AS c,state,info FROM `information_schema`.processlist GROUP B ...
Python 2.7.x 和 3.x 版本的重要区别小结
许多Python初学者都会问:我应该学习哪个版本的Python.对于这个问题,我的回答通常是"先选择一个最适合你的Python教程,教程中使用哪个版本的Python,你就用那个版本.等学得差 ...
一次实战CTF-WEB（多重登录机制中的缺陷）
要求登录admin账号 1.登录界面我们发现有找回密码这个易受攻击点 2.直奔找回密码通过观察前两个阶段url(reset1.htm1 reset2.html),我们推测出了第三个阶段的url(r ...
R_数据操作_初级_03
数据的输入:详见(http://cran.r-project.org/doc/manuals/R-data.pdf下载的R Data Import/Export手册②) 1.键盘输入:使用edit() ...
ubuntu下使用JNI Java调用C++的例子
TestJNI.java public class TestJNI { static{ System.load("/home/buyizhiyou/workspace/JNI/src/lib ...
windows系统Android-sdk的下载与环境变量配置
最近一段时间在做app的开发,作为前端而言,开发app并不像android工程师那样熟悉android开发:无论是使用cordova.js或者react-native开发都需要配置android开发环 ...
浅谈sqoop
1.sqoop的概述a.sqoop 是一款工具,是appche 旗下的一款工具,主要是负责 hadoop与RDBMS之间的数据迁移,即从hadoop 文件系统导出数据到RDBMS,从RDBMS导入数 ...

python3 调用 beautifulSoup 进行简单的网页处理

python3 调用 beautifulSoup 进行简单的网页处理

python3 调用 beautifulSoup 进行简单的网页处理的更多相关文章

随机推荐

热门专题