文章转载:http://blog.csdn.net/xiaoxiangzi222/article/details/53483931 jieba “结巴”中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module. Scroll down…
设置n为字符串s的长度.("我是个小仙女") 设置m为字符串t的长度.("我不是个小仙女") 如果n等于0,返回m并退出.如果m等于0,返回n并退出.构造两个向量v0[m+1] 和v1[m+1],串联0..m之间所有的元素. 2 初始化 v0 to 0..m. 3 检查 s (i from 1 to n) 中的每个字符. 4 检查 t (j from 1 to m) 中的每个字符 5 如果 s[i] 等于 t[j],则编辑代价cost为 0:如果 s[i] 不等于…
python 去除停用词 结巴分词 import jieba #stopwords = {}.fromkeys([ line.rstrip() for line in open('stopword.txt') ]) stopwords = {}.fromkeys(['的', '附近']) segs = jieba.cut('北京附近的租房', cut_all=False)final = ''for seg in segs: seg = seg.encode('gbk') if se…