我们运行看结果 安装包sklearn 安装numpy 安装scipy 终于可以啦 我们把安装的包都写在文件里面吧 4行4列 轴对称 只需要看一半就可以 横着看 竖着看都行 数值越接近1 表示越相似 我们通过这个可以将新的新闻(还未加入数据库的新闻)放在左上角 然后mongodb存的老新闻和他比较 如果超一定值 比如0.8 表示相似度高 我们就帮他当成一个新闻 那么这个左上角新的新闻 就会被踢掉  如果相似度很低 说明是新的新闻 那么就 执行命令加入mongodb中来  大概这个意思 0.1269…
还是循环将Q2中的东西拿出来 然后查重(去mongodb里面把一天之内的新闻都拿出来,然后把拿到的新的新闻和mongodb里一天内的新闻组一个 tf-idf的对比)可看13.3 相似度检查 如果超过一定的值 我就认为他是一个老的新闻 丢掉 不插入数据库 吐过相似度低于那个值 我们就认为他是新的新闻 然后插入数据库里面 上面是需要的配置信息 后边mongodb是支持按照时间范围查找数据的 比如一天 设置一个时间的上界和下界 他们之间的时间设置成1天 那么就可以查出一天内的数据 下界就是昨天的时间戳…
我们要重构一下代码 因为我们之前写了utils 我们的NewsPipeline部分也要用到 所以我们把他们单独独立得拿出来 删掉原来的 将requirements.txt也拿出去 现在我们搬家完成 我们修改一下我们backend里面依赖这些的文件 service.py 不在是同级目录下 而是在父一级 叫common的文件夹下 准备工作完成 下面做一下NewsAPI 的 client 这样后边的news monotor就不会被news api限制 不依赖他 他想用哪个api就用哪个api的clie…
我们使用Xpath来专门做一个scrapter 我们专门弄个文件夹 里面全部是 各个新闻源(CNN BBC等)的scraper来抓取网站的text内容 主要函数(就是传入text内容的那个url)然后进行抓取内容 返回 news 一会写具体内容 这个函数主要做3件事 首先 download 这个url 获取html 然后 parse html 成 tree 组合 extract information(提取信息 用Xpath或者后边自动爬内容的 第三方库 newspaper) 这里我们现用Xpa…
0. 前言 在<C# 基础知识系列- 13 常见类库(二)>中,我们介绍了一下DateTime和TimeSpan这两个结构体的内容,也就是C#中日期时间的简单操作.本篇将介绍Guid和Nullable这两个内容. 1. Guid 结构 Guid(Globally Unique Identifier) 全局唯一标识,是一种由算法生成的二进制长度为128位的字符串,但字符串的长度是36其中32位16进制的数字和四个连接符.其作用是用来表示全局唯一标识,当多个系统或者数据量大的时候,用来做唯一标识,…
注:文章原文为Dr. Charles Severance 的 <Python for Informatics>.文中代码用3.4版改写,并在本机测试通过. 13.6 应用程序接口API 现在我们拥有了用HTTP协议在应用程序间互换数据的能力.并且有了用XML或JSON,在应用程序间互发复杂数据的方法. 下一步是用这些技术来定义和记录程序间的协议.程序间的协议通用名是应用程序接口APIs.当我们使用一个API时,通常一个程序先生成可供其它程序使用的服务集,并且发布它的APIs,即访问程序提供的服…
目录 1:数组的定义和创建方式 2:数组的总结 3:for循环遍历数组 4:数组的案例 5:冒泡排序 6:函数的定义 7:函数的参数 8:函数的返回值 复习 <script> /* * * break:在循环中遇到这个关键字,直接跳出当前所在的循环 * continue:在循环中遇到这个关键字,直接进行下一次循环 * 数组:存储一组有序的数据,数据类型可以不一样 * 数组的作用:一次性存储多个数据 * 数组元素:数组中存储的每个数据,叫数组元素,存储了5个数据,有5个数组元素 * 数组的长度:…
作为一个人,我们必须时时刻刻清醒地看待自己,做到不卑不亢才能坚强地活下去. 请肆无忌惮地点赞吧,微信搜索[沉默王二]关注这个在九朝古都洛阳苟且偷生的程序员.本文 GitHub github.com/itwanger 已收录,里面还有我精心为你准备的一线大厂面试题. 题目是我在知乎上看到的,相信也有不少读者朋友看到了.题目很长,但映入眼帘的,只有两个字--不是"网易",是"外包"了. 很想来谈谈这个话题,因为我已经被问过不下六十次这方面的问题:"二哥,面试上…
终于把这些命令全敲了一遍,话说ELK技术栈L和K我今天花了一下午全部搞定,学完后还都是花式玩那种...E却学了四天(当然主要是因为之前上班一直没时间学,还有安装服务时出现的各种error真是让我扎心了,这绝对是我学编程以来针对某个特定技术花的时间最长的一次学习). #删除school索引DELETE /school#静态映射#format日期格式默认:strict_date_optional_time||epoch_millisPUT /school{"settings": {&quo…
writedby 张艳涛 一般我们都知道将web 应用打成war包,放到tomcat的webapp目录下,就是部署了,这是部署方法1 第2种部署方法我们也知道,就是讲web应用的文件夹拷贝到webapp目录下, 这种部署方法就是eclipse的部署方式,不过eclipse会将tomcat 的catalina.base 和catalina.home设置为自己制定的路径,那么webapp就会在指定的目录下,而不是 tomcat安装目录的文件夹下... 第3种部署方式, 对应的代码为 贴下这个admi…