1,下载 Stanford Word Segmenter软件包;

Download Stanford Word Segmenter version 2014-06-16

2,在eclipse上建立一个Project  StanfordSegmenter。解压Stanford Word Segmenter软件包,将其中的data,arabic,test.sipe.utf8文件夹复制到项目下。

3,添加需要的jar包,seg.jar  ,  stanford-segmenter-3.4-javadoc.jar , stanford-segmenter-3.4-sources.jar.

  步骤:点击Project->Properties->Java Bulid Path->Libraries->Add External Jars

4,在项目下,建一个com.Seg包,在包下建立一个SegDemo.java,将解压出来的SegDemo的内容复制进去。

5,设置运行环境。

运行SegDemo,Run As-> Run Configurations,运行需要传入参数,test.simp.utf8.

由于Stanford-Sementer占用的内存比较大,所以需要设置VM arguments,不然就会超内存。

如果机子是64bit的可以设为,-mx2g。查看解压出来的segment.sh 文件, 可以看到JAVACMD语句的参数设置。

6,运行结果如下,可以看出分词的效果。

7,关联源码,进一步查看分词建模的细节。单步运行观察各个函数的功能。

  7.1 对loadClassifierNoExceptions(也可以其他函数)点击 ctrl+右键观察源码。结果显示Source  not Found.

  

  7.2 关联源码,Attach Source->Extenal File->然后将最开始解压包中的stanford-segmenter-3.4-sources.jar包加进去。

  7.3再次点击,就可以看得源码。

  

8,如果是中文版的eclipse 需要改成英文版的。中文版的没有Attach Source提醒。改变步骤如下:

  8.1在eclipse的安装目录里找到eclipse.ini文件,编辑打开,在文件的后面加上 -Duser.language=en这句话,elipse就变成英文版的了

      

  

9,Stanford NLP 地址

http://nlp.stanford.edu/

Stanford Word Segmenter使用的更多相关文章

  1. Stanford Word Segmenter的特定领域训练

    有没有人自己训练过Stanford Word Segmenter分词器,因为我想做特定领域的分词,但在使用Stanford Word Segmenter分词的时候发现对于我想做的领域的一些词分词效果并 ...

  2. Python自然语言处理工具小结

    Python自然语言处理工具小结 作者:白宁超 2016年11月21日21:45:26 目录 [Python NLP]干货!详述Python NLTK下如何使用stanford NLP工具包(1) [ ...

  3. [Machine Learning] 国外程序员整理的机器学习资源大全

    本文汇编了一些机器学习领域的框架.库以及软件(按编程语言排序). 1. C++ 1.1 计算机视觉 CCV —基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库 OpenCV—它提供C++, C ...

  4. 自然语言处理(NLP)常用开源工具总结(转)

    ..................................内容纯转发+收藏................................... 学习自然语言这一段时间以来接触和听说了好多开 ...

  5. Java自然语言处理NLP工具包

    1. Java自然语言处理 LingPipe LingPipe是一个自然语言处理的Java开源工具包.LingPipe目前已有很丰富的功能,包括主题分类(Top Classification).命名实 ...

  6. NLP 工具类库

    NLPIR http://www.nlpir.org/ HanLP https://github.com/hankcs Apache OpenNLP   https://opennlp.apache. ...

  7. 自然语言处理领域重要论文&资源全索引

    自然语言处理(NLP)是人工智能研究中极具挑战的一个分支.随着深度学习等技术的引入,NLP领域正在以前所未有的速度向前发展.但对于初学者来说,这一领域目前有哪些研究和资源是必读的?最近,Kyubyon ...

  8. [转]NLP Tasks

    Natural Language Processing Tasks and Selected References I've been working on several natural langu ...

  9. WEB-DICT词库计划

    欢迎大家支持晓阳童鞋的词库计划,建立一个庞大的中文词库 地址如下:http://webdict.info/ 什么是WEB-DICT词库计划? WEB-DICT词表计划目标是通过机器学习算法以及人工标注 ...

随机推荐

  1. 豆瓣爬虫小记(lowB版)

    爬虫小记 学习玩python正则之后,想利用正则知识学学网络爬虫. 需求分析 按照自己平时浏览的网页,留意下哪个网页的信息对自己有价值,分析要爬取哪些网页信息.这里我先爬取简单的静态网页,豆瓣网经典电 ...

  2. 《Python网络编程》学习笔记--从例子中收获的计算机网络相关知识

    从之前笔记的四个程序中(http://www.cnblogs.com/take-fetter/p/8278864.html),我们可以看出分别使用了谷歌地理编码API(对URL表示地理信息查询和如何获 ...

  3. Python之Suds库调用WCF实现复杂参数序列化

    今年主要做自动化测技术支持工作,最近一直在做接口自动化这块,前些天在研究将web页面模拟http进行接口自动化,这周杭州那边想测试WCF服务,所以这两天一直在探索.遇到的第一个问题就是服务参数传参序列 ...

  4. MySQL递归的替代方案

    类似查出某个机构下所有的子机构,可用递归的方式实现.但MySQL不支持递归,可以考虑用如下的方式来实现递归调用. 第一种,临时表方式,使用函数每次查出子机构,再可以和其他表联查. 第二种,新建一张表, ...

  5. POJ 2409 Let it Bead [置换群 Polya]

    传送门 题意:$m$种颜色$n$颗珠子,定义旋转和翻转两种置换,求不等价着色数 暴力求每个置换的循环节也许会$T?$ 我们可以发现一些规律: 翻转: $n$为奇数时每个置换有$1+\frac{n-1} ...

  6. selenium+requests访问微博

    import requests from selenium import webdriver from selenium.webdriver.support import expected_condi ...

  7. eslint 入门项目搭建过程

    github 地址 : https://github.com/gebin/eslint-demo 运行该项目 npm install npm start 访问 http://localhost:900 ...

  8. 速卖通AE平台+聚石塔+奇门 完整教程V2

    公司是跨境电商,在阿里马马的速卖通平台上开有店铺,并且基于速卖通开放平台,自主研发了ERP系统,居今已有3年多的时间了,一直很稳定. 今年初,速卖通AE开放平台改版,并入淘宝开放平台中,我们的麻烦就开 ...

  9. 相对路径和绝对路径的问题"/"带不带斜杠

    带有"/"是绝对路径,为项目的上下文目录是从工程开始的路径 不带的话是一个相对路径,相对于执行该代码的目录文件结构

  10. Winform下去除MDI窗体边框

    做项目中间遇到了MDI窗体内边框的问题,经过苦苦寻找,最终得到了解决方案 在Main窗体中调用API // Win32 Constants ; ; private const int WS_BORDE ...