Flink与HanLP集成使用

自然语言处理是机器学习的一个重要分支，在智能翻译、智能问答、舆情监控、ChatOps等都有很好的应用场景，目前比较好的一个开源实现工具是何晗大神的HanLP，主页（http://hanlp.com/），GitHub项目（https://github.com/hankcs/HanLP），何大神还出了一本书《自然语言处理入门》，非常不错。

由于工作需要，我们使用HanLP对监控平台收集到的异常信息进行聚类分析，以便找出导致系统出现故障的可能的根因异常，以下是将HanLP与Flink结合使用时的几个点，愿与感兴趣的同行一起探讨。

一、开发期

1.在pom.xml中引入HanLP的jar包：

        <dependency>

            <groupId>com.hankcs</groupId>

            <artifactId>hanlp</artifactId>

            <version>portable-1.7.6</version>

            <scope>provided</scope>

        </dependency>

二、运行期

假设Flink安装在：/usr/flink

1.将hanlp-1.7.6.jar部署到Flink集群每个安装目录下的lib文件夹中

/usr/flink/lib

2.在Flink安装目录下建立hanlp文件夹（名字可以自己定义）

/usr/flink/hanlp

3.将下载的HanLP需要的data.zip解压后，放到步骤2的文件夹中

/usr/flink/halp/data/.....

【注】HanLP默认是本地文佳加载词典和模型的，如果把data.zip文件传到了其他存储介质，需要实现com.hankcs.hanlp.corpus.io.IIOAdapter接口以在不同的平台（Hadoop、Redis等）上运行HanLP

4.在/etc/profile中建立HANLP_ROOT环境变量，指向步骤2对应的文件夹

export HANLP_ROOT=/usr/flink/hanlp

【注】使用环境变量，可以不需要配置hanlp.properties

5.使设置的环境变量生效

source /etc/profile

Flink与HanLP集成使用的更多相关文章

Flink实战(八) - Streaming Connectors 编程
1 概览 1.1 预定义的源和接收器 Flink内置了一些基本数据源和接收器,并且始终可用.该预定义的数据源包括文件,目录和插socket,并从集合和迭代器摄取数据.该预定义的数据接收器支持写入文件和 ...
【翻译】Flink Table Api & SQL —— 概念与通用API
本文翻译自官网:https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/table/common.html Flink Tabl ...
【翻译】Flink Table Api & SQL —— Table API
本文翻译自官网:Table API https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/table/tableApi.ht ...
开源大数据生态下的 Flink 应用实践
过去十年,面向整个数字时代的关键技术接踵而至,从被人们接受,到开始步入应用.大数据与计算作为时代的关键词已被广泛认知,算力的重要性日渐凸显并发展成为企业新的增长点.Apache Flink(以下简称 ...
如何在 Flink 1.9 中使用 Hive？
Apache Flink 从 1.9.0 版本开始增加了与 Hive 集成的功能,用户可以通过 Flink 来访问 Hive 的元数据,以及读写 Hive 中的表.本文将主要从项目的设计架构.最新进展 ...
flink实时数仓从入门到实战
第一章.flink实时数仓入门一.依赖 <!--Licensed to the Apache Software Foundation (ASF) under oneor more contri ...
重磅！解锁Apache Flink读写Apache Hudi新姿势
感谢阿里云 Blink 团队Danny Chan的投稿及完善Flink与Hudi集成工作. 1. 背景 Apache Hudi 是目前最流行的数据湖解决方案之一,Data Lake Analytics ...
Flink1.9整合Kafka
本文基于Flink1.9版本简述如何连接Kafka. 流式连接器我们知道可以自己来开发Source 和 Sink ,但是一些比较基本的 Source 和 Sink 已经内置在 Flink 里. 预定 ...
《深度访谈：华为开源数据格式 CarbonData 项目，实现大数据即席查询秒级响应》
深度访谈:华为开源数据格式 CarbonData 项目,实现大数据即席查询秒级响应 Tina 阅读数:146012016 年 7 月 13 日 19:00 华为宣布开源了 CarbonData ...

随机推荐

Theia APIs——通过JSON-RPC进行通信
上一篇:Theia APIs——事件通过JSON-PRC进行通信在本节中,我将讲解如何创建后端服务并通过JSON-PRC来连接它. 我将使用debug logging system作为例子来进行讲 ...
Netty快速入门（03）Java NIO 介绍-Buffer
NIO 介绍 NIO,可以说是New IO,也可以说是non-blocking IO,具体怎么解释都可以. NIO 1是在JSR51里面定义的,在JDK1.4中引入,因为BolckingIO不支持高并 ...
Spring中使用注解 @Scheduled执行定时任务
注解@Scheduled 使用方式注解@Scheduled 可以作为一个触发源添加到一个方法中,例如,以下的方法将以一个固定延迟时间5秒钟调用一次执行,这个周期是以上一个调用任务的完成时间为基准,在 ...
Spring Boot从零入门2_核心模块详述和开发环境搭建
目录 1 前言 2 名词术语 3 Spring Boot核心模块 3.1 spring-boot(主模块) 3.2 spring-boot-starters(起步依赖) 3.3 spring-boot ...
ThreadLocal = 本地线程?
一.定义 ThreadLocal是JDK包提供的,从名字来看,ThreadLocal意思就是本地线程的意思. 1.1 是什么? 要想知道他是个啥,我们看看ThreadLocal的源码(基于JDK 1. ...
极简安装 TensorFlow 2.0 GPU
前言之前写了几篇关于 TensorFlow 1.x GPU 版本安装的博客,但几乎没怎么学习过.之前基本在搞 Machine Learning 和 Data Mining 方面的东西,极少用到 NN ...
flink编译支持CDH6.2.0（hadoop3.0.0）
准备工作因为在编译时需要下载许多依赖包,在执行编译前最好先配置下代理仓库 <mirrors> <mirror> <id>nexus-aliyun</id&g ...
初入python，与同学者的第一次见面（小激动）
自2017来,接触python其实已经算是蛮久了,最苦的时光还是刚开始的时候,真的,我感觉编程就是一种感觉,有的时候就像找对象一样,感觉对了,怎么学都是带劲哈哈哈.在这个周围都在学习PHP的环境下,我 ...
Java入门 - 语言基础 - 10.条件语句
原文地址:http://www.work100.net/training/java-if-else.html 更多教程:光束云 - 免费课程条件语句序号文内章节视频 1 概述 2 if...e ...
【python系统学习08】for循环知识点合集
for循环 for简介 [循环]:就是依照某些我们编写的特定规则,重复的做一件事. 当你需要重复的"搬砖"的时候,可以用for循环进行遍历,让机器循环的帮你去"搬砖&qu ...

Flink与HanLP集成使用

Flink与HanLP集成使用的更多相关文章

随机推荐

热门专题