Python3正则去掉HTML标签

1.引用一段代码

import re

html = '<pre class="line mt-10 q-content" accuse="qContent">\

目的是通过第一次soup.find按class粗略筛选并通过soup.find_all筛选出列表中的a标签并读入href和title属性<br><br>\

但是由于目标链接可能有图片链接,而这是我不想要的.请问如何去除?<br></pre>'

reg = re.compile('<[^>]*>')

print(reg.sub('',html))

2.重点

reg = re.compile('<[^>]*>')

print(reg.sub('',html))

3.实例

开始

import requests

import re

from bs4 import BeautifulSoup

retxt=open('test.log','r')

for x in range(250,999):

    #rurl=rurl.strip('\n')

    url='http://ananas.mooc1.mti100.com/tologin?fid={0}'.format(x)

    #print(url)

    try:

        response=requests.get(url,timeout=1).text

        #print(response)

        soup=BeautifulSoup(response,features="lxml")

        result=soup.find_all('span',attrs={'class':'l_schoolName2'})

        print('学校：{0}'.format(result))

    except requests.exceptions.InvalidURL:

        pass

    except requests.exceptions.ConnectionError:

        pass

    except requests.exceptions.ReadTimeout:

        pass

输出

学校：[<span class="l_schoolName2" id="schoolName2">

                                杭州师范大学

                        </span>]

学校：[<span class="l_schoolName2" id="schoolName2">

去除标签之后

import requests

import re

from bs4 import BeautifulSoup

#retxt=open('test.log','r')

for x in range(250,999):

    #rurl=rurl.strip('\n')

    url='http://ananas.mooc1.mti100.com/tologin?fid={0}'.format(x)

    #print(url)

    try:

        response=requests.get(url,timeout=1).text

        #print(response)

        soup=BeautifulSoup(response,features="lxml")

        result=soup.find_all('span',attrs={'class':'l_schoolName2'})

        reg=re.compile('<[^>]*>',re.S)

        print('学校：{0}'.format(reg.sub('',str(result))))

    except requests.exceptions.InvalidURL:

        pass

    except requests.exceptions.ConnectionError:

        pass

    except requests.exceptions.ReadTimeout:

        pass

输出

学校：[]

学校：[]

学校：[

                                上海电子信息职业技术学院

                        ]

学校：[]

学校：[

                                超星大学

Python3正则去掉HTML标签的更多相关文章

正则去掉html标签之间的空格、换行符、tab符，但是保留html标签内部的属性空格
今天遇到一个比较少见的去空格: 正则去掉html标签之间的空格.换行符.tab符,但是保留html标签内部的属性空格 JS 举例: "<a href='baidu.com' name= ...
正则去掉img标签的style样式
$body = '<div style="width:100px; height:20px;"><img alt="test" src=&qu ...
正则去掉html标签
return System.Text.RegularExpressions.Regex.Replace(HTMLStr, "<[^>]*>", "&qu ...
正则去掉 html标签
var htmlStr='<p class="cjk" style="margin-bottom: 0cm; line-height: 16px;"> ...
python去掉html标签
s = '<SPAN style="FONT- SIZE: 9pt">开始1~3<SPAN lang=EN-US>& lt;?xml:namespa ...
Python:使用正则去除HTML标签(转)
利用正则式处理,不知道会不会有性能问题,没有经过太多测试. 目前我有很多还是使用BeautifulSoup进行这种处理. HTML实体处理的只是用于处理一些常用的实体. # -*- coding: u ...
js去掉html标签和去掉字符串文本的所有的空格
去掉html标签的js <script> function delHtmlTag(str){ return str.replace(/<[^>]+>/g,"& ...
java去掉jsp标签内容的方法
//去掉内容的标签 public static String removeTag(String count){ try { int tagCheck=-1; do { i ...
css去掉a标签点击后的虚线框,outline,this.blur()
css去掉a标签点击后的虚线框,outline,this.blur() outline是css3的一个属性,用的很少.声明,这是个不能兼容的css属性,在ie6.ie7.遨游浏览器都不兼容. outl ...

随机推荐

WordPress使用PHPMailer发送gmail邮件
wordpress使用phpmailer发送gmail邮件 0.保证用于gmail账号已经开启imap服务,且你能正常访问到gmail的smtp服务.(需要climb over the wall) 1 ...
js css html加载顺序
1.js放在head中会立即执行,阻塞后续的资源下载与执行.因为js有可能会修改dom,如果不阻塞后续的资源下载,dom的操作顺序不可控.正常的网页加载流程是这样的.浏览器一边下载HTML网页,一边开 ...
App的基本结构
今天主要学习安装了Android Studio,并且成功地在虚拟机上运行了HelloWord工程.下面针对HelloWord工程对app的基本框架结构进行一个总结.掌握app的基本结构对初学软件开发的 ...
[apue] 使用 Ctrl+S停止输出而不用挂起前台进程
之前一直知道使用 Ctrl+Z 挂起前台进程来阻止进程运行,之后可以再通过 shell 的作业控制 (jobs / fg N) 来将后台进程切换为前台,从而继续运行. 最近学到一种新的方法,对于不停有 ...
团队项目——Alpha发布1
这个作业属于哪个课程 https://edu.cnblogs.com/campus/xnsy/GeographicInformationScience/homework 这个作业要求在哪里 https ...
通过识别页面内容获得返回值判断后续执行（exists指令的用法）
本案例主要用到airtest 的exists指令从指令解释可以知道,当判断某图片不存在的时候,会返回false值脚本思路即为如果返回值==false则执行A,!=fales则执行B 下图脚本思路, ...
LeetCode 11 水池蓄水问题
今天给大家分享的是一道LeetCode中等难度的题,难度不大,但是解法蛮有意思.我们一起来看题目: Link Container With Most Water Difficulty Medium 题 ...
3d动态文字的绘制
在这里介绍一种3D文字的一种动态效果,可以说这是一种伪3D创建的一种3D的视觉效果简单的讲解一下:大家或多或少都会听说过素描这种绘画手法,其实这种手法就是巧妙的利用了.阴影给人们带来的立体的视觉冲击 ...
Git详解之安装
前言是时候动手尝试下 Git 了,不过得先安装好它.有许多种安装方式,主要分为两种,一种是通过编译源代码来安装:另一种是使用为特定平台预编译好的安装包. 从源代码安装若是条件允许,从源代码安装有很 ...
暑假第三周总结（学习HDFS操作方法）
本周由于自己出去玩,以及家里的各种事也没好好看书,就对HDFS的一些常用的shell命令进行了学习与应用,观看了林子雨老师关于HDFS的视频,对HDFS的一些存储的原理.规则进行了一定的了解.对uba ...

Python3正则去掉HTML标签

Python3正则去掉HTML标签

Python3正则去掉HTML标签的更多相关文章

随机推荐

热门专题