按示例学python：使用python抓取网页正文

平时打开一个网页，除了文章的正文内容，通常会有一大堆的导航，广告和其他方面的信息。本博客的目的，在于说明如何从一个网页中提取出文章的正文内容，而过渡掉其他无关的的信息。

这里先看看 demo : http://2.tingxinwen.duapp.com/extract_context

本方法是基于文本密度的方法，最初的想法来源于哈工大的《基于行块分布函数的通用网页正文抽取算法》，本文基于此进行一些小修改。

约定：

本文基于网页的不同行来进行统计，因此，假设网页内容是没有经过压缩的，就是网页有正常的换行的。

有些新闻网页，可能新闻的文本内容比较短，但其中嵌入一个视频文件，因此，我会给予视频较高的权重；这同样适用于图片，这里有一个不足，应该是要根据图片显示的大小来决定权重的，但本文的方法未能实现这一点。

由于广告，导航这些非正文内容通常以超链接的方式出现，因此文本将给予超链接的文本权重为零。

这里假设正文的内容是连续的，中间不包含非正文的内容，因此实际上，提取正文内容，就是找出正文内容的开始和结束的位置。

步骤：

首先清除网页中CSS,Javascript,注释，Meta,Ins这些标签里面的内容，清除空白行。

计算每一个行的经过处理的数值（1）

计算上面得出的每行文本数的最大正子串的开始结束位置

其中第二步需要说明一下：

对于每一行，我们需要计算一个数值，这个数值的计算如下：

一个图片标签img，相当于出现长度为50字符的文本（给予的权重），x1,

一个视频标签embed，相当于出现长度为1000字符的文本, x2

一行内所有链接的标签 a 的文本长度 x3 ,

其他标签的文本长度 x4

每行的数值 = 50 * x1其出现次数 + 1000 * x2其出现次数 + x4 – 8

//说明， -8 因为我们要计算一个最大正子串，因此要减去一个正数，至于这个数应该多大，我想还是按经验来吧。

完整代码

#coding:utf-8

import re

def remove_js_css (content):

    """ remove the the javascript and the stylesheet and the comment content (<script>....</script> and <style>....</style> <!-- xxx -->) """

    r = re.compile(r'''<script.*?</script>''',re.I|re.M|re.S)

    s = r.sub ('',content)

    r = re.compile(r'''<style.*?</style>''',re.I|re.M|re.S)

    s = r.sub ('', s)

    r = re.compile(r'''<!--.*?-->''', re.I|re.M|re.S)

    s = r.sub('',s)

    r = re.compile(r'''<meta.*?>''', re.I|re.M|re.S)

    s = r.sub('',s)

    r = re.compile(r'''<ins.*?</ins>''', re.I|re.M|re.S)

    s = r.sub('',s)

    return s

def remove_empty_line (content):

    """remove multi space """

    r = re.compile(r'''^\s+$''', re.M|re.S)

    s = r.sub ('', content)

    r = re.compile(r'''\n+''',re.M|re.S)

    s = r.sub('\n',s)

    return s

def remove_any_tag (s):

    s = re.sub(r'''<[^>]+>''','',s)

    return s.strip()

def remove_any_tag_but_a (s):

    text = re.findall (r'''<a[^r][^>]*>(.*?)</a>''',s,re.I|re.S|re.S)

    text_b = remove_any_tag (s)

    return len(''.join(text)),len(text_b)

def remove_image (s,n=50):

    image = 'a' * n

    r = re.compile (r'''<img.*?>''',re.I|re.M|re.S)

    s = r.sub(image,s)

    return s

def remove_video (s,n=1000):

    video = 'a' * n

    r = re.compile (r'''<embed.*?>''',re.I|re.M|re.S)

    s = r.sub(video,s)

    return s

def sum_max (values):

    cur_max = values[0]

    glo_max = -999999

    left,right = 0,0

    for index,value in enumerate (values):

        cur_max += value

        if (cur_max > glo_max) :

            glo_max = cur_max

            right = index

        elif (cur_max < 0):

            cur_max = 0

    for i in range(right, -1, -1):

        glo_max -= values[i]

        if abs(glo_max < 0.00001):

            left = i

            break

    return left,right+1

def method_1 (content, k=1):

    if not content:

        return None,None,None,None

    tmp = content.split('\n')

    group_value = []

    for i in range(0,len(tmp),k):

        group = '\n'.join(tmp[i:i+k])

        group = remove_image (group)

        group = remove_video (group)

        text_a,text_b= remove_any_tag_but_a (group)

        temp = (text_b - text_a) - 8

        group_value.append (temp)

    left,right = sum_max (group_value)

    return left,right, len('\n'.join(tmp[:left])), len ('\n'.join(tmp[:right]))

def extract (content):

    content = remove_empty_line(remove_js_css(content))

    left,right,x,y = method_1 (content)

    return '\n'.join(content.split('\n')[left:right])

代码从最后一个函数开始调用。

按示例学python：使用python抓取网页正文的更多相关文章

python多线程实现抓取网页
Python实现抓取网页以下的Python抓取网页的程序比較0基础.仅仅能抓取第一页的url所属的页面,仅仅要预定URL足够多.保证你抓取的网页是无限级别的哈,以下是代码: ##coding:utf ...
怎么用Python写爬虫抓取网页数据
机器学习首先面临的一个问题就是准备数据,数据的来源大概有这么几种:公司积累数据,购买,交换,政府机构及企业公开的数据,通过爬虫从网上抓取.本篇介绍怎么写一个爬虫从网上抓取公开的数据. 很多语言都可以写 ...
Python和Ruby抓取网页时的中文乱码问题(在Eclipse和Apatana Studio下均是这种解决方法
Python抓取中文网页乱码 :Eclipse+pydev2.2+python2.7 :Apatana Studio3+ pydev2.2+python2.7 run时设置 run--&g ...
python使用urllib2抓取网页
1.使用python的库urllib2,用到urlopen和Request方法. 2.方法urlopen原形 urllib2.urlopen(url[, data][, timeout]) 其中: u ...
Python -- 网络编程 -- 抓取网页图片 -- 豆瓣妹子
首先分析页面URL,形如http://dbmeizi.com/category/[1-14]?p=[0-476] 图片种类对应编号: 1:'性感', 2:'有沟', 3:'美腿', 4:'小露点', ...
Python -- 网络编程 -- 抓取网页图片 -- 图虫网
字符串(str)编码成字节码(bytes),字节码解码为字符串获取当前环境编码:sys.stdin.encoding url编码urllib.parse.quote() url解码urllib.pa ...
《与小卡特一起学Python》Code3 抓取网页中的某个数据
import urllib2 file = urllib2.urlopen('http://common.cnblogs.com/script/jquery.js') message = file.r ...
Python爬虫实现抓取腾讯视频所有电影【实战必学】
2019-06-27 23:51:51 阅读数 407 收藏更多分类专栏: python爬虫前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问 ...
Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...

随机推荐

深度学习基础系列（九）| Dropout VS Batch Normalization? 是时候放弃Dropout了
Dropout是过去几年非常流行的正则化技术,可有效防止过拟合的发生.但从深度学习的发展趋势看,Batch Normalizaton(简称BN)正在逐步取代Dropout技术,特别是在卷积层.本文将首 ...
JAVAEE——SSH项目实战05：用户注册、登陆校验拦截器、员工拜访客户功能和MD5加密
作者: kent鹏转载请注明出处: http://www.cnblogs.com/xieyupeng/p/7170519.html 一.用户注册显示错误信息到页面上的另一种方法: public ...
Ubuntu下修改为永久DNS的方法
安装好Ubuntu之后设置了静态IP地址,再重启后就无法解析域名.想重新设置一下DNS,打开/etc/resolv.conf cat /etc/resolv.conf # Dynamic resolv ...
opencv 掩膜操作滤波卷积核定义增强对比度掩膜运算
/* 矩阵的掩膜操作 0 掩膜mask 在这里进行增强对比度: [ [ 0,-1, 0 ], [-1, 5, -1], [ 0,-1, 0 ] ] 使用mask滑动图片每一个位置,进行卷积运算这里这 ...
面向对象设计原则迪米特法则（Law of Demeter）
迪米特法则(Law of Demeter) 又叫作最少知识原则(Least Knowledge Principle 简写LKP),英文简写为: LoD. 这是一种面向对象程序设计的指导原则,它描述了一 ...
某谷 P5153 简单的函数
题面在这里个人感觉这个题可以被打表随便艹过,当然我不是这么做的... 虽然n可达10^18,但随便分析一下就可以发现f(n)是极小的,因为f(n)一步就可以跳到f(前100),不信你算一下前100个 ...
C# 微信小程序获取openid sessionkey
项目介绍 1.微信小程序获取openid和session_key 2.后台使用C#开发项目流程准备工作 1 获取appid 1.1 下载微信web开发工具 https://developers.w ...
zoj 3229 上下界网络最大可行流带输出方案
收获: 1. 上下界网络流求最大流步骤: 1) 建出无环无汇的网络,并看是否存在可行流 2) 如果存在,那么以原来的源汇跑一次最大流 3) 流量下界加上当前网络每条边的流量就是最大可行流了. 2. 输 ...
Python编码规则
1. 命名规则 1.1 变量名.包名.模块名变量名通常有字母.数字和下划线组成,且首字母必须是字母或下划线,并且不能使用python的保留字:包名.模块名通常用小写字母 1.2 类名.对象名类名首 ...
elasticsearch实例讲解增删改查
1.首先弄明白四个概念 elasticsearch 关系型数据库 index 数据库 type 表 document 行 field 字段如果刚一开始理解比较困难,那你就在心中默念100遍,10遍也 ...

按示例学python：使用python抓取网页正文

按示例学python：使用python抓取网页正文的更多相关文章

随机推荐

热门专题