在自然语言处理中,很常见的是要对文本数据进行分词处理.博主是代码小白,目前只是用python作为数据预处理的工具,而按照结巴中文分词的导语:做最好的python中文分词组件“jieba”.因而博主也就在本人的机子上安装了 ubuntu+python2.7+jieba组成的分词组合. 关于安装的博客已经很多了,我把安装好后我自己写的中文分词代码贴出来. 一般情况下,做中文分词之后就会去停用词,所以我直接写到了同一个py文件中. 文件的第五行:自定义的用户词典位置 文件的第十行:停用词词典的位置,自