文章相关度匹配的一些思路---"压缩"预料库,即提取用特征词或词频,量化后以“列向量”形式保存到数据库:按前N组词拼为向量组供查询使用,即组合为1到N字的组合,量化后以“行向量”形式保存到数据库(目前是用MYSQL),计算和查询相似度的时候先提取特征,然后量化,再查询各Long型数值字段,速度应该会较一般查询要快一些. 应用举例:[这些都是推测,实际希望会有比较好的结果] 假设查询以下特征 Dictionary<string, int> words = new Dictio…
一.大数据简介 大数据是一个很热门的话题,但它是什么时候开始兴起的呢? 大数据[big data]这个词最早在UNIX用户协会的会议上被使用,来自SGI公司的科学家在其文章“大数据与下一代基础架构”[big data and the next wave of infrastress]中用它来描述数据的快速增长.现在一般用4V来表示,及大量[volume].多样[variety].快速[velocity]和价值[value]. 二.大数据时代所面临的问题 1.数据的快速增长使快速处理数据成为了…