使用Newspaper3k框架快速抓取文章信息

一、框架介绍

Newspaper是一个python3库,但是Newspaper框架并不适用于实际工程类新闻信息爬取工作，框架不稳定，爬取过程中会有各种bug，例如获取不到url、新闻信息等，但对于想获取一些新闻语料的朋友不妨一试，简单方便易上手，且不需要掌握太多关于爬虫方面的专业知识。

这是 Newspaper 的github链接:

https://github.com/codelucas/newspaper

这是 Newspaper文档说明的链接:

https://newspaper.readthedocs.io/en/latest/

这是 Newspaper快速入门的链接:

https://newspaper.readthedocs.io/en/latest/user_guide/quickstart.html

安装方法：

pip3 install newspaper3k

二、功能

主要功能如下:

多线程文章下载框架
新闻网址识别
从html中提取文本
从html中提取顶部图像
从html中提取所有图像
从文本中提取关键字
从文本中提取摘要
从文本中提取作者
Google趋势术语提取。
使用10种以上语言（英语，中文，德语，阿拉伯语……）

介绍:

1.建立新闻来源

import newspaper

web_paper = newspaper.build("http://www.sxdi.gov.cn/gzdt/jlsc/", language="zh", memoize_articles=False)

注：文章缓存：默认情况下，newspaper缓存所有以前提取的文章，并删除它已经提取的任何文章。此功能用于防止重复的文章和提高提取速度。可以使用memoize_articles参数选择退出此功能。

2.提取文章的url

for article in web_paper.articles:

    print(article.url)

output:

http://www.sxdi.gov.cn/gzdt/jlsc/2019101220009.html

http://www.sxdi.gov.cn/gzdt/jlsc/2019101119998.html

http://www.sxdi.gov.cn/gzdt/jlsc/2019100919989.html

http://www.sxdi.gov.cn/gzdt/jlsc/2019100819980.html

http://www.sxdi.gov.cn/gzdt/jlsc/2019092919940.html

http://www.sxdi.gov.cn/gzdt/jlsc/2019092919933.html

....

3.提取源类别

for category in web_paper.category_urls():

    print(category)

output:

http://www.sxdi.gov.cn/gzdt/jlsc/....

4.提取源提要

for feed_url in web_paper.feed_urls():

    print(feed_url)

5.提取源品牌和描述

print(web_paper.brand)  # 品牌

print(web_paper.description) # 描述

print("一共获取%s篇文章" % web_paper.size())  # 文章的数目

6.下载文章

from  newspaper import Article

article = Article("http://www.sol.com.cn/", language='zh')  # Chinese

article.download()

7.解析文章并提取想要的信息

article.parse()  #网页解析

print("title=",article.title)    # 获取文章标题

print("author=", article.authors)   # 获取文章作者

print("publish_date=", article.publish_date)   # 获取文章日期

print("top_iamge=",article.top_image)   # 获取文章顶部图片地址

print("movies=",article.movies)   # 获取文章视频链接

print("text=",article.text,"\n")     # 获取文章正文

article.nlp()

print('keywords=',article.keywords)#从文本中提取关键字

print("summary=",article.summary)# 获取文章摘要

print("images=",article.images)#从html中提取所有图像

print("imgs=",article.imgs)

print("html=",article.html)#获取html

简单例子:

import newspaper

from newspaper import Article

def spider_newspaper_url(url):

    """

    默认情况下，newspaper缓存所有以前提取的文章，并删除它已经提取的任何文章。

    使用memoize_articles参数选择退出此功能。

    """

    web_paper = newspaper.build(url, language="zh", memoize_articles=False)

    print("提取新闻页面的url！！！")

    for article in web_paper.articles:

    # 获取新闻网页的url

        print("新闻页面url:", article.url)

# 调用spider_newspaper_information函数获取新闻网页数据

        spider_newspaper_information(article.url)

    print("一共获取%s篇文章" % web_paper.size())  # 文章的数目

# 获取文章的信息

def spider_newspaper_information(url):

    # 建立链接和下载文章

    article = Article(url, language='zh')  # Chinese

    article.download()

    article.parse()

# 获取文章的信息

    print("title=", article.title)  # 获取文章标题

    print("author=", article.authors)  # 获取文章作者

    print("publish_date=", article.publish_date)  # 获取文章日期

    # print("top_iamge=", article.top_image)  # 获取文章顶部图片地址

    # print("movies=", article.movies)  # 获取文章视频链接

    print("text=", article.text, "\n")  # 获取文章正文

    print("summary=", article.summary)  # 获取文章摘要

if __name__ == "__main__":

    web_lists = ["http://www.sxdi.gov.cn/gzdt/jlsc/","http://www.people.com.cn/GB/59476/"]

    for web_list in web_lists:

        spider_newspaper_url(web_list)

使用Newspaper3k框架快速抓取文章信息的更多相关文章

PHP快速抓取快递信息
<?php header("Content-type:text/html;charset=utf-8"); /** * Express.class.php 快递查询类 * @ ...
.net抓取网页信息 - Jumony框架使用1
往往在实际开发中,经常会用到一些如抓取网站信息之类的的操作,往往大家采用的是用一些正则的方式获取,但是有时候正则是很死板的,我们常常试想能不能使用jquery的选择器,获取符合自己要求的元素,然后进行 ...
Jumony快速抓取网页
Jumony快速抓取网页 --- Jumony使用笔记--icode 作者:郝喜路个人主页:http://www.cnicode.com 博客地址:http://haoxilu.c ...
[原创]adb使用教程v1.0-----by-----使用logcat快速抓取android崩溃日志
原文再续,书接上回:<使用logcat快速抓取android崩溃日志>中提到的工具包可以下载拉~ <使用logcat快速抓取android崩溃日志>:http://www.cn ...
[原创]adb使用教程v1.1.0-----by-----使用logcat快速抓取android崩溃日志
原文再续,书接上回:<使用logcat快速抓取android崩溃日志>中提到的工具包可以下载拉~ <使用logcat快速抓取android崩溃日志>:http://www.cn ...
利用pandas库中的read_html方法快速抓取网页中常见的表格型数据
本文转载自:https://www.makcyun.top/web_scraping_withpython2.html 需要学习的地方: (1)read_html的用法作用:快速获取在html中页面 ...
Web Scraper 高级用法——抓取属性信息 | 简易数据分析 16
这是简易数据分析系列的第 16 篇文章. 这期课程我们讲一个用的较少的 Web Scraper 功能--抓取属性信息. 网页在展示信息的时候,除了我们看到的内容,其实还有很多隐藏的信息.我们拿豆瓣电影 ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(3): 抓取amazon.com价格
通过上一篇随笔的处理,我们已经拿到了书的书名和ISBN码.(网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息 ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息及ISBN码
这一篇首先从allitebooks.com里抓取书籍列表的书籍信息和每本书对应的ISBN码. 一.分析需求和网站结构 allitebooks.com这个网站的结构很简单,分页+书籍列表+书籍详情页. ...

随机推荐

洛谷 P4206 [NOI2005]聪聪与可可题解
题面输入数据的第1行为两个整数N和E,以空格分隔,分别表示森林中的景点数和连接相邻景点的路的条数. 第2行包含两个整数C和M,以空格分隔,分别表示初始时聪聪和可可所在的景点的编号. 接下来E行,每 ...
JS数据结构第六篇 --- 二叉树力扣练习题
1.第226题:翻转二叉树递归+迭代两种实现方式: /** 反转二叉树 * Definition for a binary tree node. * function TreeNode(val) { ...
Codeforce Round #574(Div.2)
...
MyCat数据库的基础配置及使用
一.为什么需要分布式数据据库随着计算机和信息技术的迅猛发展,行业应用系统的规模迅速扩大,行业应用所产生的数据量呈爆炸式增长,动辄达到数百TB甚至数百PB的规模,已远远超出传统计算技术和信息系统的处理 ...
Java静态代码块、代码块及构造函数执行顺序
根据以下程序进行分析定义一个父类 package sas.LearnJava; public class ExcuteOrderTest { { System.out.println("我 ...
Python的6种运算符（日记）
学习了许久的Python,我单独总结出了Python中比较常见的6种运算符,感觉略有不全,希望大伙可以一起讨论与研究Python! 一.算术运算符加减 - 乘 * 除 / 取余 % 取整 // 异 ...
C#中使用StreamReader实现文本文件的读取与写入
场景实现一个 TextReader,使其以一种特定的编码从字节流中读取字符. 关注公众号霸道的程序猿获取编程相关电子书.教程推送与免费下载. 大量编程视频教程:https://space.bilib ...
FJUT2019暑假周赛一题解
A.排队问题*-* 题意就是有长度为L的序列,每位的取值可以是'f'或者'm',问不包含'fff'和'fmf'的个数. 打表找规律不难找出递推公式为F[n] = F[n-1] + F[n-3] + ...
【pymongo.errors】Cursor not found
pymongo.errors.CursorNotFound: Cursor not found 故事背景:先从数据库中取得所有数据 db['test'].find(),然后对结果进行for循环,但是当 ...
脱离脚手架来配置、学习 webpack4.x （二）基础搭建loader 配置 css、scss
序上一篇已经把基本架子搭起来了,现在来增加css.scss.自动生成html.css 提前等方面的打包.webpack 默认只能处理js模块,所以其他文件类型需要做下转换,而loader 恰恰是做这 ...

使用Newspaper3k框架快速抓取文章信息

一、框架介绍

https://github.com/codelucas/newspaper

安装方法：

二、功能

多线程文章下载框架

新闻网址识别

从html中提取文本

从html中提取顶部图像

从html中提取所有图像

从文本中提取关键字

从文本中提取摘要

从文本中提取作者

Google趋势术语提取。

使用10种以上语言（英语，中文，德语，阿拉伯语……）