jieba分词/jieba-analysis（java版）

简介

支持分词模式
Search模式，用于对用户查询词分词
Index模式，用于对索引文档分词
特性
支持多种分词模式
全角统一转成半角
用户词典功能
conf 目录有整理的搜狗细胞词库
因为性能原因，最新的快照版本去除词性标注，也希望有更好的 Pull Request 可以提供该功能。

简单使用

获取jieba-analysis

<dependency>

  <groupId>com.huaban</groupId>

  <artifactId>jieba-analysis</artifactId>

  <version>1.0.2</version>

</dependency>

案例

@Test

public void testDemo() {

    JiebaSegmenter segmenter = new JiebaSegmenter();

    String[] sentences =

        new String[] {"这是一个伸手不见五指的黑夜。我叫孙悟空，我爱北京，我爱Python和C++。", "我不喜欢日本和服。", "雷猴回归人间。",

                      "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作", "结果婚的和尚未结过婚的"};

    for (String sentence : sentences) {

        System.out.println(segmenter.process(sentence, SegMode.INDEX).toString());

    }

}

原文链接：https://github.com/huaban/jieba-analysis

我的应用

package com.analysis;

import java.io.BufferedReader;

import java.io.InputStreamReader;

import java.sql.Connection;

import java.sql.DriverManager;

import java.sql.PreparedStatement;

import java.sql.ResultSet;

import java.util.List;

import java.util.UUID;

import org.junit.Before;

import org.junit.Test;

import com.huaban.analysis.jieba.JiebaSegmenter;

import com.huaban.analysis.jieba.JiebaSegmenter.SegMode;

import com.huaban.analysis.jieba.SegToken;

public class jiebaTest {

    private Connection con = null;

    private PreparedStatement pstmt = null;

    /**

     * 连接

     */

    @Before

    public void beforeDemo() throws Exception {

        Class.forName("com.mysql.jdbc.Driver");

        String url = "jdbc:mysql://localhost:3306/test?user=root&password=root";

        con = DriverManager.getConnection(url);

    }

    /**

     * 分词查询测试

     */

    @Test

    public void getDemo() throws Exception {

        BufferedReader br = new BufferedReader(new InputStreamReader(System.in));

        String str = br.readLine();

        String sql = "select * from t_jieba where name = ?";

        pstmt = con.prepareStatement(sql);

        pstmt.setString(1, str);

        ResultSet rs = pstmt.executeQuery();

        while (rs.next()) {

            System.out.println(rs.getInt(1)+"--"+rs.getString(2)+"--"+rs.getString(3)+"--"+rs.getString(4)+"--"+rs.getString(5));

            pstmt.clearParameters();

            String sql1 = "update t_jieba set times = ? where id = ?";

            pstmt = con.prepareStatement(sql1);

            pstmt.setInt(1, 1+ new Integer(rs.getString(5)));

            pstmt.setInt(2, rs.getInt(1));

            pstmt.executeUpdate();

        }

        rs.close();

        pstmt.close();

    }

    /**

     * 分词插入测试

     */

    @Test

    public void addDemo() throws Exception {

        String sql = "insert into t_jieba (name,cid,c_name,times) select ?,?,?,? from DUAL where not EXISTS(select name from t_jieba where name=?)";

        pstmt = con.prepareStatement(sql);

        JiebaSegmenter segmenter = new JiebaSegmenter();

        String[] sentences = new String[] { "大话数据结构", "深入浅出设计模式", "JavaEE开发的颠覆者: Spring Boot实战", "java从入门到放弃" };

        for (String sentence : sentences) {

            //System.out.println(segmenter.process(sentence, SegMode.INDEX).toString());

            String uuid = UUID.randomUUID().toString();

            uuid = uuid.replace("-", "");

            List<SegToken> list = segmenter.process(sentence, SegMode.INDEX);

            for (SegToken segToken : list) {

                String name = segToken.word.trim();

                if (name != null && !"".equals(name)) {

                    pstmt.setString(1, segToken.word);

                    pstmt.setString(2, uuid);

                    pstmt.setString(3, sentence);

                    pstmt.setString(4, "0");

                    pstmt.setString(5, segToken.word);

                    pstmt.executeUpdate();

                    pstmt.clearParameters();

                }

            }

        }

        pstmt.close();

        System.out.println("插入成功！");

    }

}

MyDemo

jieba分词/jieba-analysis（java版）的更多相关文章

jieba分词初学
昨天,做的那个数据分析报告用到了jieba分词.但是只是借用了别人的部分代码.具体函数代表什么还不太明白.今天去官网研究了下..... jieba官网简介 "结巴"中文分词:做最好 ...
Lucene.net(4.8.0) 学习问题记录五: JIEba分词和Lucene的结合，以及对分词器的思考
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...
python环境jieba分词的安装
我的python环境是Anaconda3安装的,由于项目需要用到分词,使用jieba分词库,在此总结一下安装方法. 安装说明======= 代码对 Python 2/3 均兼容 * 全自动安装:`ea ...
python使用matplotlib画图,jieba分词、词云、selenuium、图片、音频、视频、文字识别、人脸识别
一.使用matplotlib画图关注公众号"轻松学编程"了解更多. 使用matplotlib画柱形图 import matplotlib from matplotlib impo ...
转]python 结巴分词(jieba)学习
原文 http://www.gowhich.com/blog/147 主题中文分词Python 源码下载的地址:https://github.com/fxsjy/jieba 演示地址:http:/ ...
jieba分词学习
具体项目在githut里面: 应用jieba库分词 1)利用jieba分词来统计词频: 对应文本为我们队伍的介绍:jianjie.txt: 项目名称:碎片项目描述:制作一个网站,拾起日常碎片,记录生 ...
python 结巴分词(jieba)详解
文章转载:http://blog.csdn.net/xiaoxiangzi222/article/details/53483931 jieba “结巴”中文分词:做最好的 Python 中文分词组件 ...
Python中文分词 jieba
三种分词模式与一个参数以下代码主要来自于jieba的github,你可以在github下载该源码 import jieba seg_list = jieba.cut("我来到北京清华大学& ...
python jieba分词工具
源码地址:https://github.com/fxsjy/jieba 演示地址:http://jiebademo.ap01.aws.af.cm/ 特点 1,支持三种分词模式: a,精确模式,试图将句 ...

随机推荐

安卓开发学习之AutoCompleteTextView
最近在学习安卓开发,开始是看视频学的,基本上是照着老师的操作来,但其实老师也是按照安卓的开发文档来教的,于是决定试试自己看文档来学. 今天学到AutoCompleteTextView,一上来先按照Li ...
Angular4.0引入第三方框架，eg: bootstrap、jquery
最近学习angular4.0,在练习是需要使用jquery和bootstrap.但是查阅了,大多数都是angular2的方法,或者是angular4.0的方法但是不准确.花了一些时间终于捣腾出来了,把 ...
mysql查询出现In aggregated query without GROUP BY, expression #1 of SELECT list contains nonaggregated column 'zhibo.a.id';
出现问题: Error querying database. Cause: com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: In ...
PythonStudy——比较运算符 Comparison operator
1.运算结果为bool类型 print(3 > 5) Output: False 2.可以连比 num = 10 print(1 < num < 20)# 与之上的等价写法是: pr ...
linux kernel driver debug
1. print printk(): never pr_debug(): always good dev_dbg(): prefered when you have a struct device o ...
_Bool and bool
_Bool is the defined before C99. bool has been defined in C99. bool is an alias for _Bool if you inc ...
jQuery基础（三）事件
1.鼠标事件 jQuery鼠标事件之click与dblclick事件 click方法用于监听用户单击操作,dbclick方法用于监听用户双击操作. 方法一:$ele.click() 绑定$ele元素, ...
C166 -MDH
Writing a C logic for moving MDH register contents after MUL instruction http://www.keil.com/forum ...
从头调试stm32 HID
目录: 第1部分:参照“正点原子USB虚拟串口工程移植步骤”移植ST的USB HID工程(失败了): 第2部分:在1的基础上,替换USB HID初始化代码为ST 例程中的代码,编译后根据报错调试(失败 ...
使用pageoffice进行多个文档的合并
提前给test模板文件中手动插入一个书签,因为pageoffice必须有一个书签后,才能在后台进行书签的创建 //多个word文件进行合并 string strCopyFolder = System ...

jieba分词/jieba-analysis（java版）

简介

简单使用

jieba分词/jieba-analysis（java版）的更多相关文章

随机推荐

热门专题