week07 13.1 NewsPipeline之 一 NewsMonitor
我们要重构一下代码
因为我们之前写了utils 我们的NewsPipeline部分也要用到
所以我们把他们单独独立得拿出来




删掉原来的

将requirements。txt也拿出去

现在我们搬家完成
我们修改一下我们backend里面依赖这些的文件
service。py
不在是同级目录下

而是在父一级 叫common的文件夹下

准备工作完成
下面做一下NewsAPI 的 client
这样后边的news monotor就不会被news api限制 不依赖他
他想用哪个api就用哪个api的client调方法就行了
这是模块化的想法实现和接口分开

我们需要一个库requests


不用sudo sudo会全局安装
https://stackoverflow.com/questions/14665330/pip-requirement-already-satisfied

然后再去requirements。txt里面添加

然后我们回来写news_api_client




大部分都支持top排序






然后我们test一下



包大小写搞错了 然后 loads包忘记加了



OK 说明木有问题
完了news_api_client
我们要去做news monitor了
我们这里需要redis


然后我们




但是不在一个文件下
所以要

就可以引入2个了


需要一些常量


指定源头 不指定也是她 默认是她 多了 就写进去

建立一个redis client



他就是地请求api

需要一个库 不需要下载 自己带的


这里有个神奇的注释可以告诉python都按utf-8来进行编码 所有和爬虫的地方 都要用这个注释








一般设置10s 保持心跳而不断线
这个sleep方法 在


下面我来测试一下
首先先打开redis服务

然后
来测试一下我们的


额 名字写错了


名字写错了


成功抓了9条新新闻
10s后

以上就是News Monitor 从api获取新闻摘要 再把他放入 Q里面

week07 13.1 NewsPipeline之 一 NewsMonitor的更多相关文章
- week07 13.4 NewsPipeline之 三 News Deduper
		还是循环将Q2中的东西拿出来 然后查重(去mongodb里面把一天之内的新闻都拿出来,然后把拿到的新的新闻和mongodb里一天内的新闻组一个 tf-idf的对比)可看13.3 相似度检查 如果超过一 ... 
- week07 13.3 NewsPipeline之 三News Deduper之 tf_idf 查重
		我们运行看结果 安装包sklearn 安装numpy 安装scipy 终于可以啦 我们把安装的包都写在文件里面吧 4行4列 轴对称 只需要看一半就可以 横着看 竖着看都行 数值越接近1 表示越相似 我 ... 
- week07 13.2 NewsPipeline之 二 News Fetcher - Xpath
		我们使用Xpath来专门做一个scrapter 我们专门弄个文件夹 里面全部是 各个新闻源(CNN BBC等)的scraper来抓取网站的text内容 主要函数(就是传入text内容的那个url)然后 ... 
- TechEmpower 13轮测试中的ASP.NET Core性能测试
		应用性能直接影响到托管服务的成本,因此公司在开发应用时需要格外注意应用所使用的Web框架,初创公司尤其如此.此外,糟糕的应用性能也会影响到用户体验,甚至会因此受到相关搜索引擎的降级处罚.在选择框架时, ... 
- .NET平台开源项目速览(13)机器学习组件Accord.NET框架功能介绍
		Accord.NET Framework是在AForge.NET项目的基础上封装和进一步开发而来.因为AForge.NET更注重与一些底层和广度,而Accord.NET Framework更注重与机器 ... 
- 转:ORA-15186: ASMLIB error function = [asm_open], error = [1], 2009-05-24 13:57:38
		转:ORA-15186: ASMLIB error function = [asm_open], error = [1], 2009-05-24 13:57:38http://space.itpub. ... 
- IIS启动失败,启动Windows Process Activation Service时,出现错误13:数据无效  ;HTTP 错误 401.2 - Unauthorized 由于身份验证头无效,您无权查看此页
		因为修改过管理员账号的密码后重启服务器导致IIS无法启动,出现已下异常 1.解决:"启动Windows Process Activation Service时,出现错误13:数据无效&quo ... 
- CSharpGL(13)用GLSL实现点光源(point light)和平行光源(directional light)的漫反射(diffuse reflection)
		CSharpGL(13)用GLSL实现点光源(point light)和平行光源(directional light)的漫反射(diffuse reflection) 2016-08-13 由于CSh ... 
- ABP(现代ASP.NET样板开发框架)系列之13、ABP领域层——数据过滤器(Data filters)
		点这里进入ABP系列文章总目录 基于DDD的现代ASP.NET开发框架--ABP系列之13.ABP领域层——数据过滤器(Data filters) ABP是“ASP.NET Boilerplate P ... 
随机推荐
- 关于anguar2微信支付问题
			前端一直都是用angular2做的 但是在做支付时,很头痛 ,支付总是失败,但后没有办法只能是跳转到一个其它的页面进行支付,这也算实现了,但是觉得不好,支付完了以要重新跳回系统,怎么解决??????? ... 
- python3 基础整理
			基础语法 1.python中区分大小写 2.查看关键字用 import keyword print (keyword.kwlist) 3.注释 # 单行注释,多行注释的快捷键是ctr+/,取消注释的 ... 
- MySQL数据库-pymysql模块操作数据库
			pymysql模块是python操作数据库的一个模块 connect()创建数据库链接,参数是连接数据库需要的连接参数使用方式: 模块名称.connect() 参数: host=数据库ip port= ... 
- 将SQL for xml path('')中转义的字符正常显示
			在工作中出现的发送邮件的时候:因为邮件内容中有链接,并且多个拼接在一起的,于是用了for xml path(). 但是,这样显示出来的链接时会将路径中的<,>,&符号转 ... 
- plot
			scatter import pandas as pd df_train=pd.read_excel(r"C:\Users\Liugengxin\Desktop\回归.xlsx") ... 
- Android手机上Audio DSP频率低 memory小的应对措施
			我在前面的文章(Android智能手机上的音频浅析)中说过Android手机上有一块专门用于音频处理的DSP,它的特点是频率低(一般几百MHZ).内部memory小(通常不超过100k word).要 ... 
- 读取Excel的部分问题
			1.office分很多版本,导致Excel连接字符串不同. 2.是否有标题头的问题(在连接字符串中设置) 3.Excel本身删除分数据删除和表格结构删除.普通delete只能删除数据, 还是能读取到表 ... 
- linux下误删目录文件后恢复神器extundelete
			原文链接:https://blog.51cto.com/wzlinux/2052835 参考:https://blog.csdn.net/cwg_1992/article/details/463100 ... 
- kafka consumer防止数据丢失(转)
			http://kane-xie.iteye.com/blog/2225085 kafka最初是被LinkedIn设计用来处理log的分布式消息系统,因此它的着眼点不在数据的安全性(log偶尔丢几条无所 ... 
- DllImport使用
			1.Dll引用路径 (1)exe运行程序所在的目录 (2)System32目录 (3)环境变量目录 (4)自定义路径,如:DllImport(@"C:\OJ\Bin\Judge.dll&qu ... 
