BeautifulSoup模块过滤掉html标签,只拿文本内容(处理XSS攻击)

from bs4 import BeautifulSoup
#kindeditor
def kindeditor(request):
    s = '''
        <li><span style="font-family: 幼圆; font-size: 16px;">默认值: false</span></li>
    　　'''

    bs = BeautifulSoup(s,"html.parser")
    print(bs.text)
    return render(request,"KindEditor.html")

结果:
　　只获取到了   默认值: false

s = '''
    <li><span style="font-family: 幼圆; font-size: 16px;">默认值: false</span></li>
    <a href="http://111111">test</a>
'''

bs = BeautifulSoup(s,"html.parser")
print(bs.text)

for tag in bs.find_all(): #查找所有的标签 按层级查找的
    print(tag.name)  #显示标签名
    print(tag.get("href")) #获取href标签的内容
    if tag.name in ["span"]: #里面是否有span标签
        tag.decompose()   #删除span 标签
print(bs)

return render(request,"KindEditor.html")

BeautifulSoup模块过滤掉html标签,只拿文本内容(处理XSS攻击)的更多相关文章

Python爬虫之Beautifulsoup模块的使用
一 Beautifulsoup模块介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Be ...
python BeautifulSoup模块的简要介绍
常用介绍: pip install beautifulsoup4 # 安装模块 from bs4 import BeautifulSoup # 导入模块 soup = BeautifulSoup(ht ...
PHP将富文本编辑后的内容，去除样式图片等只保留txt文本内容
1.从数据库读取富文本内容样式如下: <p style=";text-indent: 0;padding: 0;line-height: 26px"><span ...
PHP将富文本内容去除各类样式图片等只保留txt文本内容（作用于SEO的description）
1.从数据库读取富文本内容样式如下: <p style=";text-indent: 0;padding: 0;line-height: 26px"><span ...
JS---DOM---设置和获取---标签内容和文本内容
设置和获取---标签内容和文本内容总结---设置: 使用innerText主要是设置文本的, 设置标签内容, 是没有标签的效果的 innerHTML是可以设置文本内容 innerHTML主要的作 ...
Python——XPath提取某个标签下所有文本
/text()获取指定标签下的文本内容,//text()获取指定标签下的文本内容,包括子标签下的文本内容,比较简单的是利用字符串相加: room_infos = li.xpath('.//a[@cla ...
selenium获取标签中的文本
# 寻找文本所在的标签waitClickCompanyName = driver.find_elements_by_xpath('//div[@id="nsrzt"]//li') ...
【爬虫入门手记03】爬虫解析利器beautifulSoup模块的基本应用
[爬虫入门手记03]爬虫解析利器beautifulSoup模块的基本应用 1.引言网络爬虫最终的目的就是过滤选取网络信息,因此最重要的就是解析器了,其性能的优劣直接决定这网络爬虫的速度和效率.Bea ...
解析库-beautifulsoup模块
# -*- coding: utf-8 -*- from bs4 import BeautifulSoup # 安装:pip install beautifulsoup4 # Beautiful So ...

随机推荐

Sublime3安装及配置
1.官网下载 2.安装后输入密钥 ----- BEGIN LICENSE -----sgbteamSingle User LicenseEA7E-11532598891CBB9 F1513E4F 1A ...
java8_api_xml
xml处理-1 解析xml的两种方式 DOM主要接口介绍使用DOM解析XML 解析(parse)是指读入一个文件,确认其有正确的格式,然后将其分解成各种元素,使开发者 ...
RabbitMq C# .net 教程
本文转载来自 [http://www.cnblogs.com/yangecnu/p/Introduce-RabbitMQ.html]写的很详细. 文件安装包官方DEMO下载地址是:http://pan ...
Java annotation浅析
自定义annotation @Documented@Retention(RetentionPolicy.RUNTIME)@Target({ElementType.FIELD,ElementType.M ...
python-pcl
python-pcl安装和使用 https://blog.csdn.net/joker_hapy/article/details/85006818 Ubuntu16.04下安装PCL及python-p ...
Spring的IOC原理
1. IoC理论的背景我们都知道,在采用面向对象方法设计的软件系统中,它的底层实现都是由N个对象组成的,所有的对象通过彼此的合作,最终实现系统的业务逻辑. 图1:软件系统中耦合的对象如果我们打开机 ...
批处理for中字符串截取必须先把循环变量代替出来才行！！！
@echo off & setlocal enabledelayedexpansion set ifo=abc,def,ghi,jkl,mnopqrstuvwxyz0123456789 ech ...
P1041 传染病控制（dfs）
P1041 传染病控制题目背景近来,一种新的传染病肆虐全球.蓬莱国也发现了零星感染者,为防止该病在蓬莱国大范围流行,该国政府决定不惜一切代价控制传染病的蔓延.不幸的是,由于人们尚未完全认识这种传染 ...
五、使用druid管理数据库，mybatis连接mysql数据库
简介: 使用 mybatis 连接 mysql 数据库, 一套简单的增删改查流程, 前台用 bootstrap, bootstrap-table 框架, 最后用 druid 监控数据库连接情况 ...
Linux安装/升级pip
Linux安装/升级pip 1.执行脚本 # wget https://bootstrap.pypa.io/get-pip.py # 如果没有 wget,先安装 wget # yum -y insta ...

BeautifulSoup模块过滤掉html标签,只拿文本内容(处理XSS攻击)

BeautifulSoup模块过滤掉html标签,只拿文本内容(处理XSS攻击)的更多相关文章

随机推荐

热门专题