（已实现）相似度到大数据查找之Mysql 文章匹配的一些思路与提高查询速度

需求，最近实现了文章的原创度检测功能，处理思路一是分词之后做搜索引擎匹配飘红，另一方面是量化词组，按文章、段落、句子做数据库查询，功能基本满足实际需求。

接下来，还需要在海量大数据中快速的查找到与一句或者一段话最相关的文章、段落。

上一篇随笔里记录有当时的一些想法，今天下午按想法具体实现并测试了一次，速度比直接分组查询肯定快了很多很多，回顾下我的实现步骤：

压缩"语料库，即提取特征词或词频，做量化处理之后以“列向量”形式保存到数据库；然后按前N组词拼为向量组，以供查询使用，即组合为1到N字的组合，量化后以“行向量”形式保存到数据库（目前是用MYSQL），计算和查询相似度的时候先提取特征，然后量化，再查询各Long型数值字段，速度应该会较一般查询要快一些。

应用举例：[下午实现了具体想法，目前系统正在处理数据中，预计会在八千万行的数据集，相信查询速度应该还可以]

【查询测试】查询以下特征

            Dictionary<string, int> words = new Dictionary<string, int>();
            words.Add("五笔", 1);
            words.Add("拼音", 1);
            words.Add("笔画", 1);
            words.Add("其它", 1);
            words.Add("英盘", 1);
            words.Add("美盘", 1);
            words.Add("法盘", 1);

            //List<Dictionary<int, long>> WordList = new List<Dictionary<int, long>>();

            //for (int i = 0; i < 15; i++)
            //{
            //    WordList.Add(GetWordSecurity(words, i + 1));
            //}
            //直观看数据
            Dictionary<int, long> R1 = GetWordSecurity(words, 1);
            Dictionary<int, long> R2 = GetWordSecurity(words, 2);
            Dictionary<int, long> R3 = GetWordSecurity(words, 3);
            Dictionary<int, long> R4 = GetWordSecurity(words, 4);
            Dictionary<int, long> R5 = GetWordSecurity(words, 5);
            Dictionary<int, long> R6 = GetWordSecurity(words, 6);
            Dictionary<int, long> R7 = GetWordSecurity(words, 7);
            Dictionary<int, long> R8 = GetWordSecurity(words, 8);
            Dictionary<int, long> R9 = GetWordSecurity(words, 9);
            Dictionary<int, long> R10 = GetWordSecurity(words, 10);
            Dictionary<int, long> R11 = GetWordSecurity(words, 11);
            Dictionary<int, long> R12 = GetWordSecurity(words, 12);
            Dictionary<int, long> R13 = GetWordSecurity(words, 13);
            Dictionary<int, long> R14 = GetWordSecurity(words, 14);

【量化数据】我选的是MD5->Long做量化

五笔 -8683246507546018072
拼音 5720075168044685354
笔画 6444854990336207024
其它 -4797408270696495584
英盘 -1741849883950345011
美盘 4116094244106799890
法盘

【查询】根据实际需求（即相关度要求）仅仅只需要取以下列表中的一个值做为查询条件。即，通过分词-做词行向量排列，特征列向量排列将文章映射成ID，这样我们

就可以通过 Select .. From T Where Long1= Value 实现文章相关度的查询【根据相关度要求可随时改变查询字段LongN】

   二字词   Dictionary<int, long> R1 = GetWordSecurity(words, 1);

+  [0] {[1, -2963171339501332718]} System.Collections.Generic.KeyValuePair<int,long>
+  [1] {[2, -2238391517209811048]} System.Collections.Generic.KeyValuePair<int,long>
+  [2] {[3, 4966089295467037960]} System.Collections.Generic.KeyValuePair<int,long>
+  [3] {[4, -6281813915328659238]} System.Collections.Generic.KeyValuePair<int,long>
+  [4] {[5, 922666897348189770]} System.Collections.Generic.KeyValuePair<int,long>
+  [5] {[6, 3978225284094340343]} System.Collections.Generic.KeyValuePair<int,long>
+  [6] {[7, -8610574661558066372]} System.Collections.Generic.KeyValuePair<int,long>
Dictionary<int, long> R2 = GetWordSecurity(words, 2);

以上测试在今天下午全部完成编码及测试，现在我的系统正在做数据抓取和量化处理，初步预计数据集八千万行左右，做了好几年程序，这是咱第一次处理超百万行数据呢。

（已实现）相似度到大数据查找之Mysql 文章匹配的一些思路与提高查询速度的更多相关文章

相似度到大数据查找之Mysql 文章匹配的一些思路与提高查询速度
文章相关度匹配的一些思路---"压缩"预料库,即提取用特征词或词频,量化后以“列向量”形式保存到数据库:按前N组词拼为向量组供查询使用,即组合为1到N字的组合,量化后以“行向量”形 ...
三【相关度相似度查询与计算】相似度到大数据查找之Mysql 文章匹配的一些思路与提高查询速度
记录下,在上2回的数据基础之上,附带一个互信息(MI,Mutual Information)可以计算词之间的相关度标准互信息 MI(X,Y)=log2p(x,y)/p(x)p(y) 值越大于0 则趋 ...
sql处理百万级以上的数据提高查询速度的方法
原文:http://blog.csdn.net/zhengyiluan/article/details/51671599 处理百万级以上的数据提高查询速度的方法: 1.应尽量避免在 where 子句中 ...
《转》sql处理百万级以上的数据提高查询速度的方法
处理百万级以上的数据提高查询速度的方法: 1.应尽量避免在 where 子句中使用!=或<>操作符,否则将引擎放弃使用索引而进行全表扫描. 2.对查询进行优化,应尽量避免全表扫描,首先应考 ...
大数据量时Mysql的优化
(转自网络) 如今随着互联网的发展,数据的量级也是撑指数的增长,从GB到TB到PB.对数据的各种操作也是愈加的困难,传统的关系性数据库已经无法满足快速查询与插入数据的需求.这个时候NoSQL的出现暂时 ...
大数据平台搭建 - Mysql在linux上的安装
一.简介 MySQL是一个关系型数据库系统,由瑞典MySQL AB 公司开发,目前属于 Oracle 旗下产品.MySQL 是最流行的关系型数据库管理系统之一,在 WEB 应用方面,MySQL是最好的 ...
.net core利用MySqlBulkLoader大数据批量导入MySQL
最近用core写了一个数据迁移小工具,从SQLServer读取数据,加工后导入MySQL,由于数据量太过庞大,数据表都过百万,常用的dapper已经无法满足.三大数据库都有自己的大数据批量导入数据的方 ...
如何将大数据保存到 MySql 数据库
1. 什么是大数据 1. 所谓大数据, 就是大的字节数据,或大的字符数据. 2. 标准 SQL 中提供了如下类型来保存大数据类型: 字节数据类型: tinyblob(256B), blob(64K), ...
一文总结高并发大数据量下MySQL开发规范【军规】
在互联网公司中,MySQL是使用最多的数据库,那么在并发量大.数据量大的互联网业务中,如果高效的使用MySQL才能保证服务的稳定呢?根据本人多年运维管理经验的总结,梳理了一些核心的开发规范,希望能给大 ...

随机推荐

Windows下环境变量配置
JAVA_HOME=C:\Program Files\Java\jdk1.6.0_33 PATH+=%JAVA_HOME%\bin; CLASSPATH=.;%JAVA_HOME%\lib\d ...
Unity3D资源存放笔记
文件夹及路径昨天记了一篇AssetBundle学习笔记,那么游戏中的各种资源应该如何存放呢? 在网上一阵搜罗,把笔记记一下. 非特殊名称文件夹非Unity3D指定名称的文件夹中的资源,如果游戏场景 ...
.NET MVC4 ApiController拦截器的使用
目前在公司新开发了一个项目,第一次正式使用.NET MVC4来搭建,用拦截器来处理权限验证. 自定义拦截器需继承ActionFilterAttribute类,重写OnActionExecuting和O ...
从经典问题来看 Copy 方法（转）
来自:Gua | 瓜地链接:https://desgard.com/copy/ 在初学 iOS 的时候,可能会被灌输这么一个常识,切记 NSString 的 property 的修饰变量要写作 c ...
fastjson使用示例
一.fastjson 一款Json处理工具包,包括“序列化”和“反序列化”两部分,它具备如下特征:速度最快,测试表明,fastjson具有极快的性能,超越任其他的Java Json parser.包括 ...
网页标签图片如何保存&下载？
最简单的方法就是鼠标右键,查看网页源代码,ctrl+f输入favicon.ico,一般网站都是这个
iOS8 CLLocationManager 、CLGeocoder获取地理位置
最近在ios8.0使用CLLocationManager定位服务,发现老不能定位,查看设置菜单中的项也是处于未知状态.想起之前都有一个弹出框提示用户是否允许定位,这次一直没有出现了.原来ios8.0下 ...
JavaScript中的Partial Application和Currying
这篇文章是一篇学习笔记,记录我在JS学习中的一个知识点及我对它的理解,知识点和技巧本身并不是我原创的.(引用或参考到的文章来源在文末) 先不解释Partial Application(偏函数应用)和C ...
Aizu 2306 Rabbit Party DFS
Rabbit Party Time Limit: 1 Sec Memory Limit: 256 MB 题目连接 http://acm.hust.edu.cn/vjudge/contest/view. ...
android报错及解决2--Sdcard进行文件的读写操作报的异常
报错描述: 对Sdcard进行文件的读写操作的时候,报java.io.FileNotFoundException: /sdcard/testsd.txt (Permission denied),在往S ...

（已实现）相似度到大数据查找之Mysql 文章匹配的一些思路与提高查询速度

（已实现）相似度到大数据查找之Mysql 文章匹配的一些思路与提高查询速度的更多相关文章

随机推荐

热门专题