相似度到大数据查找之Mysql 文章匹配的一些思路与提高查询速度

文章相关度匹配的一些思路---"压缩"预料库，即提取用特征词或词频，量化后以“列向量”形式保存到数据库；按前N组词拼为向量组供查询使用，即组合为1到N字的组合，量化后以“行向量”形式保存到数据库（目前是用MYSQL），计算和查询相似度的时候先提取特征，然后量化，再查询各Long型数值字段，速度应该会较一般查询要快一些。

应用举例：[这些都是推测，实际希望会有比较好的结果]

假设查询以下特征

            Dictionary<string, int> words = new Dictionary<string, int>();
            words.Add();
            words.Add();
            words.Add();
            words.Add();
            words.Add();
            words.Add();
            words.Add();

            //List<Dictionary<int, long>> WordList = new List<Dictionary<int, long>>();

            //for (int i = 0; i < 15; i++)
            //{
            //    WordList.Add(GetWordSecurity(words, i + 1));
            //}
            //直观看数据
            Dictionary<);
            Dictionary<);
            Dictionary<);
            Dictionary<);
            Dictionary<);
            Dictionary<);
            Dictionary<);
            Dictionary<);
            Dictionary<);
            Dictionary<);
            Dictionary<);
            Dictionary<);
            Dictionary<);
            Dictionary<);

量化数据，可以任选一种方式处理

五笔 -
拼音
笔画
其它 -
英盘 -
美盘
法盘

查询以下数值：

   二字词   Dictionary<);

+  [] {[, -]} System.Collections.Generic.KeyValuePair<int,long>
+  [] {[, -]} System.Collections.Generic.KeyValuePair<int,long>
+  [] {[, ]} System.Collections.Generic.KeyValuePair<int,long>
+  [] {[, -]} System.Collections.Generic.KeyValuePair<int,long>
+  [] {[, ]} System.Collections.Generic.KeyValuePair<int,long>
+  [] {[, ]} System.Collections.Generic.KeyValuePair<int,long>
+  [] {[, -]} System.Collections.Generic.KeyValuePair<int,long>
Dictionary<);

相似度到大数据查找之Mysql 文章匹配的一些思路与提高查询速度的更多相关文章

（已实现）相似度到大数据查找之Mysql 文章匹配的一些思路与提高查询速度
需求,最近实现了文章的原创度检测功能,处理思路一是分词之后做搜索引擎匹配飘红,另一方面是量化词组,按文章.段落.句子做数据库查询,功能基本满足实际需求. 接下来,还需要在海量大数据中快速的查找到与一句 ...
三【相关度相似度查询与计算】相似度到大数据查找之Mysql 文章匹配的一些思路与提高查询速度
记录下,在上2回的数据基础之上,附带一个互信息(MI,Mutual Information)可以计算词之间的相关度标准互信息 MI(X,Y)=log2p(x,y)/p(x)p(y) 值越大于0 则趋 ...
mysql索引提高查询速度
使用索引提高查询速度 1.前言在web开发中,业务模版,业务逻辑(包括缓存.连接池)和数据库这三个部分,数据库在其中负责执行SQL查询并返回查询结果,是影响网站速度最重要的性能瓶颈.本文主要针对My ...
sql处理百万级以上的数据提高查询速度的方法
原文:http://blog.csdn.net/zhengyiluan/article/details/51671599 处理百万级以上的数据提高查询速度的方法: 1.应尽量避免在 where 子句中 ...
《转》sql处理百万级以上的数据提高查询速度的方法
处理百万级以上的数据提高查询速度的方法: 1.应尽量避免在 where 子句中使用!=或<>操作符,否则将引擎放弃使用索引而进行全表扫描. 2.对查询进行优化,应尽量避免全表扫描,首先应考 ...
大数据量时Mysql的优化
(转自网络) 如今随着互联网的发展,数据的量级也是撑指数的增长,从GB到TB到PB.对数据的各种操作也是愈加的困难,传统的关系性数据库已经无法满足快速查询与插入数据的需求.这个时候NoSQL的出现暂时 ...
.net core利用MySqlBulkLoader大数据批量导入MySQL
最近用core写了一个数据迁移小工具,从SQLServer读取数据,加工后导入MySQL,由于数据量太过庞大,数据表都过百万,常用的dapper已经无法满足.三大数据库都有自己的大数据批量导入数据的方 ...
如何将大数据保存到 MySql 数据库
1. 什么是大数据 1. 所谓大数据, 就是大的字节数据,或大的字符数据. 2. 标准 SQL 中提供了如下类型来保存大数据类型: 字节数据类型: tinyblob(256B), blob(64K), ...
大数据平台搭建 - Mysql在linux上的安装
一.简介 MySQL是一个关系型数据库系统,由瑞典MySQL AB 公司开发,目前属于 Oracle 旗下产品.MySQL 是最流行的关系型数据库管理系统之一,在 WEB 应用方面,MySQL是最好的 ...

随机推荐

Eclipse10大快捷键组合
一个Eclipse骨灰级开发者总结了他认为最有用但又不太为人所知的快捷键组合.通过这些组合可以更加容易的浏览源代码,使得整体的开发效率和质量得到提升. Ctrl+Shift+C 快速单行注释也适用于 ...
UOJ #142. 【UER #5】万圣节的南瓜灯并查集
#142. [UER #5]万圣节的南瓜灯 Time Limit: 20 Sec Memory Limit: 256 MB 题目连接 http://uoj.ac/problem/142 Descrip ...
Android与JavaScrip进行交互（二）
一.思路分析经过測试发现,JS中的点击事件仅仅能写一个,假设写了多个,也仅仅会响应第一个,假设写的方法是android端的方法,在web端执行时,后台会报没有定义这种方法的错误.前台点击无响应. 所 ...
java spring 使用注解来实现缓存
这里举例使用spring3.1.4 + ehcache 注解的方式使用cache 是在spring3.1加入的使用方法: 1.ehcache依赖+spring依赖 <!-- ehcache依赖 ...
VS2012新建项目出错：未找到与约束
VS2012中,选择新建linq to sql 类,结果出错: 未找到与约束ContractName Microsoft.VisualStudio.Text.ITextDocumentFactoryS ...
关于设置android:imeOptions属性无效的解决办法
在对Android的EditText控件进行设置时,经常会限定一下输入法的属性,设置右下角为完成或者搜索等,一般都会想到android:imeOptions属性,但是仅仅这么设置通常是无效的,还要搭配 ...
Linux 学习笔记文件权限
* Linux系统会为各种各样的功能创建不同的用户账户,而这些账户并不是真的用户.这些账户称作系统账户,是系统上运行的各种服务进程访问资源用的特殊账户. 所有运行在后台的服务都需要用一个系统用户账户登 ...
数据库SQLite应用
1.导入SQLite库和头文件 #import <sqlite3.h> 2.打开数据库,如果在打开的时候遇到了问题,则关闭它并抛出一个断言错误. sqlite3 * database; i ...
Jquery小实例
1正反选 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF- ...
Cheap CK100 1024 tokens NXP FIX Chip on Eobd2
CK100 is a well-known and cost-effective key programmer for many cars. Some said it is a must for bo ...

相似度到大数据查找之Mysql 文章匹配的一些思路与提高查询速度

相似度到大数据查找之Mysql 文章匹配的一些思路与提高查询速度的更多相关文章

随机推荐

热门专题