PYTHON：新闻聚合

这个项目看了有段时间，因为一直没跑通，而且关于NNTP也不是特别理解。这里是转载code123的分析。

原文地址：http://www.code123.cc/1327.html

书中的第四个练习，新闻聚合。现在很少见的一类应用，至少我从来没有用过，又叫做Usenet。这个程序的主要功能是用来从指定的来源（这里是Usenet新闻组）收集信息，然后讲这些信息保存到指定的目的文件中（这里使用了两种形式：纯文本和html文件）。这个程序的用处有些类似于现在的博客订阅工具或者叫RSS订阅器。

先上代码，然后再来逐一分析：

from nntplib import NNTP

from time import strftime,time,localtime

from email import message_from_string

from urllib import urlopen

import textwrap

import re

day = 24*60*60

def wrap(string,max=70):

        '''

        '''

        return '\n'.join(textwrap.wrap(string)) + '\n'

class NewsAgent:

        '''

        '''

        def __init__(self):

                self.sources = []

                self.destinations = []

        def addSource(self,source):

                self.sources.append(source)

        def addDestination(self,dest):

                self.destinations.append(dest)

        def distribute(self):

                items = []

                for source in self.sources:

                        items.extend(source.getItems())

                for dest in self.destinations:

                        dest.receiveItems(items)

class NewsItem:

        def __init__(self,title,body):

                self.title = title

                self.body = body

class NNTPSource:

        def __init__(self,servername,group,window):

                self.servername = servername

                self.group = group

                self.window = window

        def getItems(self):

                start = localtime(time() - self.window*day)

                date = strftime('%y%m%d',start)

                hour = strftime('%H%M%S',start)

                server = NNTP(self.servername)

                ids = server.newnews(self.group,date,hour)[1]

                for id in ids:

                        lines = server.article(id)[3]

                        message = message_from_string('\n'.join(lines))

                        title = message['subject']

                        body = message.get_payload()

                        if message.is_multipart():

                                body = body[0]

                        yield NewsItem(title,body)

                server.quit()

class SimpleWebSource:

        def __init__(self,url,titlePattern,bodyPattern):

                self.url = url

                self.titlePattern = re.compile(titlePattern)

                self.bodyPattern = re.compile(bodyPattern)

        def getItems(self):

                text = urlopen(self.url).read()

                titles = self.titlePattern.findall(text)

                bodies = self.bodyPattern.findall(text)

                for title.body in zip(titles,bodies):

                        yield NewsItem(title,wrap(body))

class PlainDestination:

        def receiveItems(self,items):

                for item in items:

                        print item.title

                        print '-'*len(item.title)

                        print item.body

class HTMLDestination:

        def __init__(self,filename):

                self.filename = filename

        def receiveItems(self,items):

                out = open(self.filename,'w')

                print >> out,'''

                <html>

                <head>

                 <title>Today's News</title>

                </head>

                <body>

                <h1>Today's News</hi>

                '''

                print >> out, '<ul>'

                id = 0

                for item in items:

                        id += 1

                        print >> out, '<li><a href="#">%s</a></li>' % (id,item.title)

                print >> out, '</ul>'

                id = 0

                for item in items:

                        id += 1

                        print >> out, '<h2><a name="%i">%s</a></h2>' % (id,item.title)

                        print >> out, '<pre>%s</pre>' % item.body

                print >> out, '''

                </body>

                </html>

                '''

def runDefaultSetup():

        agent = NewsAgent()

        bbc_url = 'http://news.bbc.co.uk/text_only.stm'

        bbc_title = r'(?s)a href="[^"]*">\s*<b>\s*(.*?)\s*</b>'

        bbc_body = r'(?s)</a>\s*<br/>\s*(.*?)\s*<'

        bbc = SimpleWebSource(bbc_url, bbc_title, bbc_body)

        agent.addSource(bbc)

        clpa_server = 'news2.neva.ru'

        clpa_group = 'alt.sex.telephone'

        clpa_window = 1

        clpa = NNTPSource(clpa_server,clpa_group,clpa_window)

        agent.addSource(clpa)

        agent.addDestination(PlainDestination())

        agent.addDestination(HTMLDestination('news.html'))

        agent.distribute()

if __name__ == '__main__':

        runDefaultSetup()

这个程序，首先从整体上进行分析，重点部分在于NewsAgent，它的作用是存储新闻来源，存储目标地址，然后在分别调用来源服务器（NNTPSource以及SimpleWebSource）以及写新闻的类（PlainDestination和HTMLDestination）。所以从这里也看的出，NNTPSource是专门用来获取新闻服务器上的信息的，SimpleWebSource是获取一个url上的数据的。而PlainDestination和HTMLDestination的作用很明显，前者是用来输出获取到的内容到终端的，后者是写数据到html文件中的。

有了这些分析，然后在来看主程序中的内容，主程序就是来给NewsAgent添加信息源和输出目的地址的。

这确实是个简单的程序，不过这个程序可是用到了分层了。

PYTHON：新闻聚合的更多相关文章

Python 数据分析（二本实验将学习利用 Python 数据聚合与分组运算，时间序列，金融与经济数据应用等相关知识
Python 数据分析(二) 本实验将学习利用 Python 数据聚合与分组运算,时间序列,金融与经济数据应用等相关知识第1节 groupby 技术第2节数据聚合第3节分组级运算和转换第4 ...
基于Scrapy框架的Python新闻爬虫
概述该项目是基于Scrapy框架的Python新闻爬虫,能够爬取网易,搜狐,凤凰和澎湃网站上的新闻,将标题,内容,评论,时间等内容整理并保存到本地详细代码下载:http://www.demoda ...
python基础教程总结15——4 新闻聚合
NNTP:网络新闻传输协议,Network News Transfer Protocol 目标: 从多种不同的来源收集新闻: 用户可以轻松添加新的新闻来源(甚至是新类型的新闻来源: 程序可以将编译好的 ...
python 实践--新闻聚合
采集新闻,体会到面向问题和面向对象的区别. 如果希望新闻来源多出,比如NNTP,Web.可以实现:Source,Destination,NewItem,NewAgent. Scoure处理来源, De ...
【开源】开发者新闻聚合APP 2.0.3发布（第二个稳定版本）
聚合了博客园新闻.infoq新闻.36kr新闻.oschina新闻.51cto新闻.csdn新闻: 争取做到随时刷随时有开发者的新闻! 目前还只支持安卓APP 但用的人多了,我会发布苹果版的APP 最 ...
【开源】开发者新闻聚合APP 1.0.3发布（第一个稳定版本，短期内不再发布新版本）
聚合了博客园新闻.infoq新闻.36kr新闻.oschina新闻.51cto新闻.csdn新闻: 争取做到随时刷随时有开发者的新闻! 目前还只支持安卓APP 最新版本的下载地址:https://gi ...
python 数据聚合与分组
前面讲完了字符处理,但对数据进行整体性的聚合运算以及分组操作也是数据分析的重要内容. 通过数据的聚合与分组,我们能更容易的发现隐藏在数据中的规律. 数据分组数据的分组核心思想是:拆分-组织-合并首 ...
Python数据聚合和分组运算(1)-GroupBy Mechanics
前言 Python的pandas包提供的数据聚合与分组运算功能很强大,也很灵活.<Python for Data Analysis>这本书第9章详细的介绍了这方面的用法,但是有些细节不常用 ...
Python数据聚合和分组运算(2)-Data Aggregation
在上一篇博客里我们讲解了在python里运用pandas对数据进行分组,这篇博客将接着讲解对分组后的数据进行聚合. 1.python 中经过优化的groupy方法先读入本文要使用的数据集tips. ...

随机推荐

Flask+uwsgi+Nginx+Ubuntu部署
学了一段时间flask,可是一直没有做过部署, 于是想着怎么部署呢, 想想,先吧服务给搞通吧,于是呢就先想着去吧服务给搞起来,这里选择的是Flask+uwsgi+Nginx+Ubuntu, Pyth ...
JavaScript+svg绘制的一个饼状图
结果: svg参考:https://www.w3.org/TR/SVG/<body onload='document.body.appendChild( pieChart([12,23,34,4 ...
FreeRTOS——中断管理
1. 只有以“FromISR”或"FROM_ISR"结束的API函数或宏才可以在中断服务函数中使用. 2. 除互斥信号量外,所有类型的信号量都可以调用 xSemaphoreTake ...
【无旋式treap】例题
[bzoj3223]文艺平衡树 Description 您需要写一种数据结构(可参考题目标题),来维护一个有序数列,其中需要提供以下操作:翻转一个区间,例如原有序序列是5 4 3 2 1,翻转区间是[ ...
对于mariadb安装后可以默认使用无密码登录的问题解决方案
mariadb安装后默认可以无密码登录所以首先我们要设置root用户的密码 mysqladmin -u root -p password 密码 [遇到enter直接enter就行,注意,如果是重新设 ...
html5 01 随记
一 HTML 是一种制作网站的标记语言二.HTML基本语法 HTML 标签 html标签是html中的最基本单位也是最重要的部分通常使用尖角号开始"<"和结束&qu ...
DL4NLP——词表示模型（二）基于神经网络的模型：NPLM；word2vec（CBOW/Skip-gram）
本文简述了以下内容: 神经概率语言模型NPLM,训练语言模型并同时得到词表示 word2vec:CBOW / Skip-gram,直接以得到词表示为目标的模型 (一)原始CBOW(Continuous ...
配置PLSQL,提升工作效率
界面模板的配置: 方便用户快速点击需要的功能.如打开SQL Window 1.打开customize,用户自定义Toolbars对话框. 2.在Commands命令标签页,选中要添加的命令,拖动到工具 ...
centos7 Mysql备份还原并下载到windos
数据库备份 1.show databases; #查看一下数据库 2.对应数据库做备份开始: mysqldump -u root -p 需要备份的数据库 > db.sql #把它备份到 ...
初学 Python（十三）——匿名函数
初学 Python(十三)--匿名函数初学 Python,主要整理一些学习到的知识点,这次是匿名函数. # -*- coding:utf-8 -*- #关键字lambda定义的函数都是匿名函数 #做 ...

PYTHON：新闻聚合

PYTHON：新闻聚合的更多相关文章

随机推荐

热门专题