RSS(简易信息聚合)

简易信息聚合(也叫聚合内容)是一种RSS基于XML标准,在互联网上被广泛采用的内容包装和投递协议。RSS(Really Simple Syndication)是一种描述和同步网站的内容格式,是使用最广泛的XML应用。RSS搭建了信息迅速传播的一个技术平台,使得每个人都成为潜在的信息提供者。

安装

$ pip install feedparser

feedparser 使我们轻松实现从任何RSS或者Atom订阅源得到标题、链接和文章的条目。

具体测试

import feedparser

def test(url='http://blog.csdn.net/together_cz/article'):
print('url:%s' % one_url)
page_dict = feedparser.parse(url)
''' 解析得到的是一个字典 '''
#print page_dict
'''
输出字典中的键值有哪些,一共有10中如下:
['feed', 'status', 'version', 'encoding', 'bozo', 'headers', 'href', 'namespaces', 'entries', 'bozo_exception']
'''
print page_dict.keys()
print '#####################################################################'
print '访问页面链接 href:'
print page_dict['href']
print '返回headers:'
print page_dict['headers']
print 'ersion信息为:'
print page_dict['version']
print '状态码为:'
print page_dict['status']
fd = page_dict.get('feed','')
for key in fd.keys():
print key
print '语言类型为:'
print page_dict['feed']['html']['lang']
print 'meta信息为:'
print page_dict['feed']['meta']['content']
print page_dict['feed']['meta']['name']
print '#####################################################################' if __name__ == '__main__':
url_list=['http://www.baidu.com',
'http://www.jd.com',
'http://www.vmall.com',
'http://www.taobao.com']
for one_url in url_list:
try:
test(one_url)
except:
print '????????????????????????????????????????????????????????????'

输出

url:http://www.baidu.com
['feed', 'status', 'version', 'encoding', 'bozo', 'headers', 'href', 'namespaces', 'entries', 'bozo_exception']
#####################################################################
访问页面链接 href:
http://www.baidu.com
返回headers:
{'content-length': '2701', 'content-type': 'text/html', 'content-encoding': 'gzip'}
ersion信息为: 状态码为:
200
meta
summary
语言类型为:
????????????????????????????????????????????????????????????
url:http://www.jd.com
['feed', 'status', 'version', 'encoding', 'bozo', 'headers', 'href', 'namespaces', 'entries', 'bozo_exception']
#####################################################################
访问页面链接 href:
https://www.jd.com/
返回headers:
{'content-length': '28099', 'via': 'BJ-Y-NX-105(HIT), http/1.1 CD-CT-1-JCS-42 ( [cRs f ])', 'ser': '13.215', 'content-encoding': 'gzip', 'age': '24', 'expires': 'Wed, 12 Sep 2018 14:23:27 GMT', 'vary': 'Accept-Encoding', 'server': 'JDWS/2.0', 'connection': 'close', 'strict-transport-security': 'max-age=3600', 'cache-control': 'max-age=30', 'date': 'Wed, 12 Sep 2018 14:23:45 GMT', 'content-type': 'text/html; charset=utf-8'}
ersion信息为: 状态码为:
302
html
meta
links
script
语言类型为:
zh-CN
meta信息为:
webkit
renderer
#####################################################################
url:http://www.vmall.com
['feed', 'status', 'version', 'encoding', 'bozo', 'headers', 'href', 'namespaces', 'entries', 'bozo_exception']
#####################################################################
访问页面链接 href:
http://www.vmall.com
返回headers:
{'content-length': '781', 'connection': 'Keep-Alive', 'content-encoding': 'gzip'}
ersion信息为: 状态码为:
200
语言类型为:
????????????????????????????????????????????????????????????
url:http://www.taobao.com
['feed', 'status', 'version', 'encoding', 'bozo', 'headers', 'href', 'etag', 'namespaces', 'entries', 'bozo_exception']
#####################################################################
访问页面链接 href:
https://www.taobao.com/
返回headers:
{'x-swift-savetime': 'Wed, 12 Sep 2018 14:19:11 GMT', 'x-swift-cachetime': '300', 'x-cache': 'HIT TCP_MEM_HIT dirn:6:607364846 mlen:-1', 'content-encoding': 'gzip', 'transfer-encoding': 'chunked', 'vary': 'Accept-Encoding, Ali-Detector-Type', 'age': '274', 'strict-transport-security': 'max-age=31536000', 'eagleid': 'b68cf51715367622259114055e', 'server': 'Tengine', 'cache-control': 'max-age=60, s-maxage=300', 'connection': 'close', 'via': 'cache5.l2wt97[80,304-0,C], cache13.l2wt97[66,0], cache9.cn172[0,200-0,H], cache9.cn172[1,0]', 'etag': 'W/"2a36-165c95cc45b"', 'set-cookie': 'thw=cn; Path=/; Domain=.taobao.com; Expires=Thu, 12-Sep-19 14:23:45 GMT;', 'date': 'Wed, 12 Sep 2018 14:23:45 GMT', 'content-md5': 's6hP5DCqrrp9rS7Tz3jT+w==', 'content-type': 'text/html; charset=utf-8', 'timing-allow-origin': '*', 'x-snapshot-age': '2'}
ersion信息为: 状态码为:
302
links
meta
summary
html
link
base
语言类型为:
zh-CN
meta信息为:
淘宝,掏宝,网上购物,C2C,在线交易,交易市场,网上交易,交易市场,网上买,网上卖,购物网站,团购,网上贸易,安全购物,电子商务,放心买,供应,买卖信息,网店,一口价,拍卖,网上开店,网络购物,打折,免费开店,网购,频道,店铺
keyword
#####################################################################

Python 模块feedparser安装使用的更多相关文章

  1. python开发_常用的python模块及安装方法

    adodb:我们领导推荐的数据库连接组件bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheetahcherrypy:一个WEB frameworkctype ...

  2. 常用的python模块及安装方法

    adodb:我们领导推荐的数据库连接组件 bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheetahcherrypy:一个WEB frameworkctyp ...

  3. Python 模块chardet安装过程(windows环境)

    最近需要一个txt文件的批量转码功能,在网上找到一段批量处理java源文件的py程序如下: #-*- coding: utf-8 -*- import codecs import os import ...

  4. Python 模块chardet安装 setup.py

    http://pypi.python.org/pypi/chardet#downloads 下载chardet-2.*.*.tar.gz:解压到site-package文件夹, Python及其一些模 ...

  5. python模块的安装

    1.下载所需模块 2.解压到一个目录 3.window下打开cmd 4.切换到模块setup.py目录 5.执行python setup.py install安装 前提是安装了python,并且配置了 ...

  6. Python模块如何安装 并确认模块已经安装好?

    看自己有没有安装好,最简单的办法在可以再控制台下: C:\Users\sony>python Python 2.7.6 (default, Nov 10 2013, 19:24:18) [MSC ...

  7. Python 模块的安装与使用

    我们知道使用函数不仅减轻了工作量,而且使代码更加简洁,更加的易于维护.但如果在另一个文件中,我们希望使用上一个文件中定义的某个函数,我们应该怎么办呢?我们需要重新将上一个函数再次实现一遍吗?而且,当我 ...

  8. python模块一键安装

    利用bat文件 在不懂电脑的小白电脑上一键安装你python环境所需要的模块(你想让她一个个安装,你会疯的) 先新建一个txt文件,把你需要安装的模块和版本号写进去: 然后再新建一个txt文件 然后把 ...

  9. python模块 mysql-python安装(在ubuntu系统下)

    直接运行如下命令 sudo pip install MySQL-python 报如下错误 xxx@ubuntu:~$ sudo pip install MySQL-python Downloading ...

随机推荐

  1. js 签字插件

    1.jq-signature  http://bencentra.github.io/jq-signature/    支持的jquery版本低 2.HTML5 canvas   http://www ...

  2. 使用IntelliJ工具打包kotlin为bat文件运行报错 Exception in thread "main" java.lang.NoClassDefFoundError

    Exception in thread "main" java.lang.NoClassDefFoundError 这个很有可能是因为idea里的java版本与电脑上的java环境 ...

  3. synchronized Lock(本地同步)锁的8种情况

    Lock(本地同步)锁的8种情况 总结与说明: * 题目: * 1.标准访问,请问是先打印邮件还是短信 Email * 2.email方法新增暂停4秒钟,请问是先打印邮件还是短信 Email * 3. ...

  4. JS高级面试题思路(装箱和拆箱、栈和堆、js中sort()方法、.js中Date对象中的getMounth() 需要注意的、开发中编码和解码使用场景有哪些)

    1.装箱和拆箱: 装箱:把基本数据类型转化为对应的引用数据类型的操作: var num = 123 // num var objNum = new Num(123) // object console ...

  5. 鸿蒙内核源码分析(定时器篇) | 哪个任务的优先级最高 | 百篇博客分析OpenHarmony源码 | v31.02

    百篇博客系列篇.本篇为: v31.xx 鸿蒙内核源码分析(定时器篇) | 哪个任务的优先级最高 | 51.c.h .o 本篇说清楚定时器的实现 读本篇之前建议先读鸿蒙内核源码分析(总目录)其余篇. 运 ...

  6. Android 开发进程 0.35 升级编译版本Android12

    Android12升级 工作需要升级到编译版本31 在这里记录一下遇到的问题. 错误:Manifest merger failedManifest merger failed 这个问题通常搜到的答案是 ...

  7. 使用Jacoco统计服务端代码覆盖情况实践

    一.背景 随着需求的迭代,需求增加的同时,有可能会伴随着一些功能的下线.如果不对系统已经不用的代码进行梳理并删除不需要的代码,那么就会增加系统维护成本以及理解成本.但经历比较长的迭代以及系统交接,可能 ...

  8. SpringBoot碰到的疑问或问题

    1.@ResponseBody 和 @RequestBody 的区别 @ResponseBody是作用在方法上的,@ResponseBody 表示该方法的返回结果直接写入 HTTP response ...

  9. Java面向对象编程(三)

    static关键词 static关键字:可以修饰属性.方法.代码块.内部类. 一.使用static修饰属性:静态变量(或类变量) 1. 属性,按是否使用static修饰,又分为:静态属性 vs 非静态 ...

  10. Windows 11正式版来了,下载、安装教程、一起奉上!

    Windows 11正式版已经发布了,今天给大家更新一波Win11系统的安装方法,其实和Win10基本一样,有多种方法.   安装Win11前请先查看电脑是否支持Win11系统,先用微软自家的PC H ...