python3 调用 beautifulSoup 进行简单的网页处理

from bs4 import BeautifulSoup

file = open('index.html','r',encoding='utf-16-le') #此处有坑！！！
soup = BeautifulSoup(file,'lxml')

print (soup)  # 打印读出的内容
print ('\n ------------- \n')
print (soup.get_text())  # 取所有标签中的文字
print ('\n ------------- \n')
print (soup.prettify()) # 格式化输出

# 以标签的形式输出
print (soup.title)
print ('\n ------------- \n')
print (soup.body)
print ('\n ------------- \n')
print (soup.body.div)

import re
print (soup.find_all('br'))  # 仅仅用来搜索标签 
print ('\n ------------- \n')
print (soup.find_all(re.compile('^b')))#可以使用正则表达式  以b开头的标签
print ('\n ------------- \n')
print (soup.find_all(id='wiz_custom_css'))
print ('\n ------------- \n')
for strr in soup.strings:  # 取所有下一级标签中的字符串  .stripped_strings可以去空白
    print (strr)
print ('\n ------------- \n')

# 去除body中的标签，将结果保存于文件  待改进
# kill all script and style elements
for script in soup(["script", "style"]):
    script.extract()    # rip current tap

title_text = soup.title.get_text()
str_text = ''
for strr in soup.body.strings:  # 取所有下一级标签中的字符串  .stripped_strings可以去空白
    str_text = str_text + strr + '\n'

print (str_text)
if title_text == '':
    md_file = open('index.md','w')
    md_file.write(str_text)

else:
    md_file = open(title_text+'.md','w')
    md_file.write(str_text)

# 网上搜到的方式，<br/>标签没有转为换行，后面有另一种方式

#print soup
# kill all script and style elements
for script in soup(["script", "style"]):
    script.extract()    # rip current tap

# get text
text = soup.get_text()

#print text + '____________'
# break into lines and remove leading and trailing space on each
# splitlines 按\r \r\n \n三种标签分解为行 
# strip()移除首尾字符，参数默认为空格
lines = (line.strip() for line in text.splitlines()) 
# break multi-headlines into a line each
chunks = (phrase.strip() for line in lines for phrase in line.split("  ")) 
# drop blank lines
text = '\n'.join(chunk for chunk in chunks if chunk) # 这个循环…………

#wfile = open('aa.md','w')
#wfile.write(text)
print(text)

From WizNote

python3 调用 beautifulSoup 进行简单的网页处理的更多相关文章

问题：python3 使用beautifulSoup时，出错UnicodeDecodeError: 'gbk' codec …….
想将html文件转为纯文本,用Python3调用beautifulSoup 超简单的代码一直出错,用于打开本地文件: from bs4 import BeautifulSoup file = open ...
Python3中BeautifulSoup的使用方法
BeautifulSoup的使用我们学习了正则表达式的相关用法,但是一旦正则写的有问题,可能得到的就不是我们想要的结果了,而且对于一个网页来说,都有一定的特殊的结构和层级关系,而且很多标签都有id或 ...
爬虫基础库之beautifulsoup的简单使用
beautifulsoup的简单使用简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: ''' Beautiful Soup提供一些简单的.p ...
分享：计算机图形学期末作业！！利用WebGL的第三方库three.js写一个简单的网页版“我的世界小游戏”
这几天一直在忙着期末考试,所以一直没有更新我的博客,今天刚把我的期末作业完成了,心情澎湃,所以晚上不管怎么样,我也要写一篇博客纪念一下我上课都没有听,还是通过强大的度娘完成了我的作业的经历.(当然作业 ...
Python3调用Hadoop的API
前言: 上一篇文章我学习使用pandas进行简单的数据分析,但是各位...... Pandas处理.分析不了TB级别数据的大数据,于是再看看Hadoop. 另附上人心不足蛇吞象对故事一的感悟: ...
Python【BeautifulSoup解析和提取网页数据】
[解析数据] 使用浏览器上网,浏览器会把服务器返回来的HTML源代码翻译为我们能看懂的样子在爬虫中,也要使用能读懂html的工具,才能提取到想要的数据 [提取数据]是指把我们需要的数据从众多数据中挑 ...
利用python3 调用zabbix接口完成批量加聚合图形（screens)
在上一篇博客中,我们完成的利用python3 调用zabbix接口批量增加主机,增加主机的item,增加主机的图形! 接下来我们完成批量增加主机的screen 首先我们要增加screen需要哪些参数呢 ...
Python3调用C程序（超详解）
Python3调用C程序(超详解) Python为什么要调用C? 1.要提高代码的运算速度,C比Python快50倍以上 2.对于C语言里很多传统类库,不想用Python重写,想对从内存到文件接口这样 ...
Rsession让Java调用R更简单
Rsession让Java调用R更简单 R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大. R语言作为统计学一门语言,一直在小众领域闪耀着光芒. ...

随机推荐

Luogu5405 CTS2019氪金手游（容斥原理+树形dp）
考虑外向树怎么做.显然设f[i][j]为i子树中出现权值和为j的合法方案的概率,转移做树形背包即可. 如果树上只有一条反向边,显然可以先不考虑该边计算概率,再减去将整棵树看做外向树的概率.于是考虑容斥 ...
Code First 下自动更新数据库结构（Automatic Migrations）
示例 Web.config <?xml version="1.0" encoding="utf-8"?> <configuration> ...
ASP.net Web API综合示例
目录概述功能介绍程序结构服务器端介绍客户端介绍 “契约” Web API设计规则并行写入冲突与时间戳身份验证详解 Web API验证规则客户端MVVM简介 Web.Config 本DE ...
oracle_job进程相关学习测试
Oracle cjq0进程测试测试流程: .CJQ进程不存在 .模拟问题处理 .问题总结一.问题现象 CJQ0进程不存在 [root@adg1 ~]# ps -ef|grep cjq root : ...
yum更换源配置
今天安装mysql5.7的时候出现了点问题,最后更换yum源解决了,把这个记录一下 yum源配置(阿里云源) 1) 安装wget yum install -y wget 2) 备份/etc/yum.r ...
Spring Cloud Alibaba学习笔记（12） - 使用Spring Cloud Stream 构建消息驱动微服务
什么是Spring Cloud Stream 一个用于构建消息驱动的微服务的框架应用程序通过 inputs 或者 outputs 来与 Spring Cloud Stream 中binder 交互, ...
写在NOIP2018后
退役学了一周文化课,感觉还行吧在周四就有学弟跟我说用我的源代码测329,当时还是出乎意料的. 本来期望是100+50+55+100+50+44=399,结果测得是100+55+50+100+20+4 ...
css 盒子取值
盒子:当我们设置一个标签宽高时,默认设置的是盒子里面content大小. 内容盒:content 填充盒:content+padding(overflow截取的区域) 边框盒:content+padd ...
关于MUI页面之间传值以及刷新的问题
一.页面刷新问题 1.父页面A跳转到子页面B,B页面修改数据后再跳回A页面,刷新A页面数据 (1).父页面A代码 window.addEventListener("pageflowrefre ...
TLS1.3 认证和秘钥建立握手环节的分析
1.ClientHello 中的参数 ClientHello---{ Random_C .extension } 在 extension中的扩展中包含 ( supported_version ...

python3 调用 beautifulSoup 进行简单的网页处理

python3 调用 beautifulSoup 进行简单的网页处理

python3 调用 beautifulSoup 进行简单的网页处理的更多相关文章

随机推荐

热门专题