按示例学python：使用python抓取网页正文

平时打开一个网页，除了文章的正文内容，通常会有一大堆的导航，广告和其他方面的信息。本博客的目的，在于说明如何从一个网页中提取出文章的正文内容，而过渡掉其他无关的的信息。

这里先看看 demo : http://2.tingxinwen.duapp.com/extract_context

本方法是基于文本密度的方法，最初的想法来源于哈工大的《基于行块分布函数的通用网页正文抽取算法》，本文基于此进行一些小修改。

约定：

本文基于网页的不同行来进行统计，因此，假设网页内容是没有经过压缩的，就是网页有正常的换行的。

有些新闻网页，可能新闻的文本内容比较短，但其中嵌入一个视频文件，因此，我会给予视频较高的权重；这同样适用于图片，这里有一个不足，应该是要根据图片显示的大小来决定权重的，但本文的方法未能实现这一点。

由于广告，导航这些非正文内容通常以超链接的方式出现，因此文本将给予超链接的文本权重为零。

这里假设正文的内容是连续的，中间不包含非正文的内容，因此实际上，提取正文内容，就是找出正文内容的开始和结束的位置。

步骤：

首先清除网页中CSS,Javascript,注释，Meta,Ins这些标签里面的内容，清除空白行。

计算每一个行的经过处理的数值（1）

计算上面得出的每行文本数的最大正子串的开始结束位置

其中第二步需要说明一下：

对于每一行，我们需要计算一个数值，这个数值的计算如下：

一个图片标签img，相当于出现长度为50字符的文本（给予的权重），x1,

一个视频标签embed，相当于出现长度为1000字符的文本, x2

一行内所有链接的标签 a 的文本长度 x3 ,

其他标签的文本长度 x4

每行的数值 = 50 * x1其出现次数 + 1000 * x2其出现次数 + x4 – 8

//说明， -8 因为我们要计算一个最大正子串，因此要减去一个正数，至于这个数应该多大，我想还是按经验来吧。

完整代码

#coding:utf-8

import re

def remove_js_css (content):

    """ remove the the javascript and the stylesheet and the comment content (<script>....</script> and <style>....</style> <!-- xxx -->) """

    r = re.compile(r'''<script.*?</script>''',re.I|re.M|re.S)

    s = r.sub ('',content)

    r = re.compile(r'''<style.*?</style>''',re.I|re.M|re.S)

    s = r.sub ('', s)

    r = re.compile(r'''<!--.*?-->''', re.I|re.M|re.S)

    s = r.sub('',s)

    r = re.compile(r'''<meta.*?>''', re.I|re.M|re.S)

    s = r.sub('',s)

    r = re.compile(r'''<ins.*?</ins>''', re.I|re.M|re.S)

    s = r.sub('',s)

    return s

def remove_empty_line (content):

    """remove multi space """

    r = re.compile(r'''^\s+$''', re.M|re.S)

    s = r.sub ('', content)

    r = re.compile(r'''\n+''',re.M|re.S)

    s = r.sub('\n',s)

    return s

def remove_any_tag (s):

    s = re.sub(r'''<[^>]+>''','',s)

    return s.strip()

def remove_any_tag_but_a (s):

    text = re.findall (r'''<a[^r][^>]*>(.*?)</a>''',s,re.I|re.S|re.S)

    text_b = remove_any_tag (s)

    return len(''.join(text)),len(text_b)

def remove_image (s,n=50):

    image = 'a' * n

    r = re.compile (r'''<img.*?>''',re.I|re.M|re.S)

    s = r.sub(image,s)

    return s

def remove_video (s,n=1000):

    video = 'a' * n

    r = re.compile (r'''<embed.*?>''',re.I|re.M|re.S)

    s = r.sub(video,s)

    return s

def sum_max (values):

    cur_max = values[0]

    glo_max = -999999

    left,right = 0,0

    for index,value in enumerate (values):

        cur_max += value

        if (cur_max > glo_max) :

            glo_max = cur_max

            right = index

        elif (cur_max < 0):

            cur_max = 0

    for i in range(right, -1, -1):

        glo_max -= values[i]

        if abs(glo_max < 0.00001):

            left = i

            break

    return left,right+1

def method_1 (content, k=1):

    if not content:

        return None,None,None,None

    tmp = content.split('\n')

    group_value = []

    for i in range(0,len(tmp),k):

        group = '\n'.join(tmp[i:i+k])

        group = remove_image (group)

        group = remove_video (group)

        text_a,text_b= remove_any_tag_but_a (group)

        temp = (text_b - text_a) - 8

        group_value.append (temp)

    left,right = sum_max (group_value)

    return left,right, len('\n'.join(tmp[:left])), len ('\n'.join(tmp[:right]))

def extract (content):

    content = remove_empty_line(remove_js_css(content))

    left,right,x,y = method_1 (content)

    return '\n'.join(content.split('\n')[left:right])

代码从最后一个函数开始调用。

按示例学python：使用python抓取网页正文的更多相关文章

python多线程实现抓取网页
Python实现抓取网页以下的Python抓取网页的程序比較0基础.仅仅能抓取第一页的url所属的页面,仅仅要预定URL足够多.保证你抓取的网页是无限级别的哈,以下是代码: ##coding:utf ...
怎么用Python写爬虫抓取网页数据
机器学习首先面临的一个问题就是准备数据,数据的来源大概有这么几种:公司积累数据,购买,交换,政府机构及企业公开的数据,通过爬虫从网上抓取.本篇介绍怎么写一个爬虫从网上抓取公开的数据. 很多语言都可以写 ...
Python和Ruby抓取网页时的中文乱码问题(在Eclipse和Apatana Studio下均是这种解决方法
Python抓取中文网页乱码 :Eclipse+pydev2.2+python2.7 :Apatana Studio3+ pydev2.2+python2.7 run时设置 run--&g ...
python使用urllib2抓取网页
1.使用python的库urllib2,用到urlopen和Request方法. 2.方法urlopen原形 urllib2.urlopen(url[, data][, timeout]) 其中: u ...
Python -- 网络编程 -- 抓取网页图片 -- 豆瓣妹子
首先分析页面URL,形如http://dbmeizi.com/category/[1-14]?p=[0-476] 图片种类对应编号: 1:'性感', 2:'有沟', 3:'美腿', 4:'小露点', ...
Python -- 网络编程 -- 抓取网页图片 -- 图虫网
字符串(str)编码成字节码(bytes),字节码解码为字符串获取当前环境编码:sys.stdin.encoding url编码urllib.parse.quote() url解码urllib.pa ...
《与小卡特一起学Python》Code3 抓取网页中的某个数据
import urllib2 file = urllib2.urlopen('http://common.cnblogs.com/script/jquery.js') message = file.r ...
Python爬虫实现抓取腾讯视频所有电影【实战必学】
2019-06-27 23:51:51 阅读数 407 收藏更多分类专栏: python爬虫前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问 ...
Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...

随机推荐

基于spring-boot的应用程序的单元测试方案
概述本文主要介绍如何对基于spring-boot的web应用编写单元测试.集成测试的代码. 此类应用的架构图一般如下所示: 我们项目的程序,对应到上图中的web应用部分.这部分一般分为Control ...
CSUOJ 1901 赏赐 OR 灾难单调栈
Description 大G南征北战终于打下了大片土地成立了G国,大G在开国大典上传召帮助自己南征北战的三大开国元勋小A,小B,小C进殿,并要赏赐三人大量宝物以显示天恩浩荡.大G在征服其他国家的时候抢 ...
CSUOJ 1021 组合数末尾的零二进制
Description 从m个不同元素中取出n (n ≤ m)个元素的所有组合的个数,叫做从m个不同元素中取出n个元素的组合数.组合数的计算公式如下: C(m, n) = m!/((m - n)!n! ...
使用GIT进行源码管理——GUI客户端
很多人对GIT GUI客户端是非常不屑一顾的,但我非常喜欢GUI的方便快捷,也不用记忆冗杂的命令,本文简单的介绍了几种免费的Windows下的GIT客户端,方便大家使用. Git for Window ...
再谈应用环境下的TIME_WAIT和CLOSE_WAIT
昨天解决了一个HttpClient调用错误导致的服务器异常,具体过程如下: http://blog.csdn.net/shootyou/article/details/6615051 里头的分析过程有 ...
[BZOJ4592][SHOI2015]脑洞治疗仪(线段树)
线段树基础操作题,唯一需要思考下的是将区间的前k个0覆盖为1. 线段树上二分,先递归到左子树覆盖,回溯时返回还剩多少个0未被覆盖,在根据这个信息递归到右子树.注意特判k=0的情况. 要维护的信息有:区 ...
POJ 1469 COURSES 二分图最大匹配二分图
http://poj.org/problem?id=1469 这道题我绝壁写过但是以前没有mark过二分图最大匹配的代码mark一下. 匈牙利 O(mn) #include<cstdio> ...
【洛谷】4310：绝世好题【二进制DP】
P4310 绝世好题题目描述给定一个长度为n的数列ai,求ai的子序列bi的最长长度,满足bi&bi-1!=0(2<=i<=len). 输入输出格式输入格式: 输入文件共2行 ...
HDU 5694 BD String 迭代
BD String 题目连接: http://acm.hdu.edu.cn/showproblem.php?pid=5694 Description Problem Description 众所周知, ...
LR监控Apache资源
前提本文使用的是lampp环境下自带的Apache服务步骤1.修改Apache中Httpd.conf文件,添加如下代码:文件位置为:/opt/lampp/etc/httpd.conf,如下图: &l ...

按示例学python：使用python抓取网页正文

按示例学python：使用python抓取网页正文的更多相关文章

随机推荐

热门专题