转自:http://www.matrix67.com/blog/archives/5044 互联网时代的社会语言学:基于SNS的文本数据挖掘 今年上半年,我在人人网实习了一段时间,期间得到了很多宝贵的数据,并做了一些还算有意义的事情,在这里和大家一块儿分享.感谢人人网提供的数据与工作环境,感谢赵继承博士.詹卫东老师的支持和建议.在这项工作中,我得到了很多与众人交流的机会,特别感谢 OpenParty . TEDxBeijing 提供的平台.本文已发表在了<程序员>杂志,分上下两部分刊于 201…
互联网时代的社会语言学:基于SNS的文本数据挖掘 python实现 https://github.com/jtyoui/Jtyoui/tree/master/jtyoui/word  这是一个无监督训练文本词库与分词 (转载) java实现 https://gitee.com/tyoui/jsns 这个速度要快一点.逻辑比较清楚些(转载) 更多实现见文章末尾: 实现原理如下:(转载)http://www.matrix67.com/blog/archives/5044 今年上半年,我在人人网实习了…
今年上半年,我在人人网实习了一段时间,期间得到了很多宝贵的数据,并做了一些还算有意义的事情,在这里和大家一块儿分享.感谢人人网提供的数据 与工作环境,感谢赵继承博士.詹卫东老师的支持和建议.在这项工作中,我得到了很多与众人交流的机会,特别感谢 OpenParty . TEDxBeijing 提供的平台.本文已发表在了<程序员>杂志,分上下两部分刊于 2012 年 7 月刊和 8 月刊,在此感谢卢鸫翔编辑的辛勤工作.由于众所周知的原因,<程序员>刊出的文章被和谐过(看到后面大家就自动…
题目: 代码如下:#include <iostream> #include <random> #include <algorithm> #include <vector> #include <sstream> int main() { int N, num0, num1, l; std::vector<int>v2;//输入的任意vector,用空格隔开: std::string line; std::getline(std::cin…
微信是个好东西,信息量超大,正能量的东西居多,但信息过载的滋味也很不好受,浏览了一大堆铺天盖地的信息后,关上手机后大脑又重新回到空白.所以还是喜欢用RSS聚合功能,自己去订阅优秀的博客或新闻,当有更新后我很快就可以读到. 1)最早的MobileRSS 以前使用的是iOS上的MobileRSS Pro,可惜在google reader关闭之后,这产品也就不能同步了. 2)Feedly, Reeder 在Google Reader关闭之后,一直再找比较好的RSS阅读器,主要试了Feedly, Ree…
[容斥原理] 对于统计指定排列方案数的问题,一个方案是空间中的一个元素. 定义集合x是满足排列中第x个数的限定条件的方案集合,设排列长度为S,则一共S个集合. 容斥原理的本质是考虑[集合交 或 集合交的补集]和[集合并 或 集合并的补集]之间相互转化的问题. 定义目标函数为f(m),已知函数g(T).(例如已知集合并,则T表示所有T个集合的集合并,通常g(T)=C(n,T)*T个集合的集合并) 当两者都不是补集或两者都是补集时,有f(S)=Σ(-1)|T|-1g(T),其中T为S的非空子集,即奇…
前些日子我打算开了博弈基础,事后想进行总结下 一句话就是分析必胜或必败,异或为0. 以下内容来自转载: Nim游戏的概述: 还记得这个游戏吗?给出n列珍珠,两人轮流取珍珠,每次在某一列中取至少1颗珍珠,但不能在两列中取.最后拿光珍珠的人输.后来,在一份资料上看到,这种游戏称为“拈(Nim)”.据说,它源自中国,经由被贩卖到美洲的奴工们外传.辛苦的工人们,在工作闲暇之余,用石头玩游戏以排遣寂寞.后来流传到高级人士,则用便士(Pennies),在酒吧柜台上玩.最有名的玩法,是把十二枚便士放成3.4.…
转自:WOM 编码与一次写入型存储器的重复使用 (很有趣的算法设计)——来自 Matrix67: The Aha Moments 大神 计算机历史上,很多存储器的写入操作都是一次性的. Wikipedia 的 write once read many 词条里提到了两个最经典的例子,一个是大家熟悉的 CD-R 和 DVD-R ,另一个则是更早的打孔卡片和打孔纸带.在介绍后者时,文章里说:“虽然第一次打孔之后,没有孔的区域还能继续打孔,但这么做几乎没有任何实际用处.”因此,打孔卡片和打孔纸带通常也被…
0. math & code COME ON CODE ON | A blog about programming and more programming. 1. 中文 统计学Computational Statistics in Python 线代启示录 2. 英文 数学证明的维基百科:Pr∞fWiki Wolfram|Alpha: Computational Knowledge Engine:工具网站,自然科学搜索的,可以帮你画图.积分.求解等: Mathematics Stack Exc…
题意: 用K*1的砖块去覆盖N*N的大矩形,问最多能覆盖多少块. 详细证明:(转载自matrix67) Matrix67: The Aha Moments 趣题:用 k × 1 的矩形覆盖 n × n 的正方形棋盘 用 k × 1 的小矩形覆盖一个 n × n 的正方形棋盘,往往不能实现完全覆盖(比如,有时候 n × n 甚至根本就不是 k 的整倍数).不过,在众多覆盖方案中,总有一种覆盖方案会让没有覆盖到的方格个数达到最少,我们就用 m(n, k) 来表示这个数目.求证:不管 n 和 k 是多…