一款基于SVM算法的分布式法律助手
一. 项目简介 与 使用说明
体验网站(适配手机端): http://www.zhuchangwu.com
项目基于 Spring Cloud 、Vue 构建,平台针对需要维权的用户而设计,主要提供如下三个功能模块。
一、提供问答服务模块。
用户可以在本模块中描述一句简短的话,系统将为用户推送出与用户描述相似的问题及答案。
二、罪名推断模块。
用户可以输入一个场景,系统将给用户推送出此场景可能触发的罪名,量刑区间,以及可能触发的法律法规。
三、相似判决文书查询模块。
用户可以将自己的判决文书输入到系统中,系统将会为用户推送相似的判决文书。
主页

问答服务 - 支持前缀匹配,全文检索

罪名推断:
点击主页的案情推断,输入一段场景

点击搜索:得出如下响应

相似文书查询:
将您的文书拷贝进文书查询模块,点击搜索,系统将推送给您往年相似的判决文书

结果如下:

二. 主要技术点
- 前后端分离架构,前端Vue + 后端SpringCloud。
- 基于 ElasticSearch 的搜索提示及全文检索功能为用户提供问答服务。
- 集成机器学习分类算法模型 SVM, 文本分类,推断相关罪名。
- 基于simhash算法,实现相似文本检查。
- Java 与 Python 使用Apache Thrift完成异构RPC调用。
- 使用Docker将SVM模型容器化,可移植性很强。
- 项目部署:静态资源服务器 Nginx。
三. 环境搭建
3.1 后端
地址: https://github.com/zhuchangwu/lawyer-lover-cloud-backend
- 后端SpringCloud版本:Finchley.SR2
- 开发工具: IDEA
- Maven版本: 3.3.9
同学们自行将本项目clone到本地导入idea即可使用。
3.2 前端
前端github地址: https://github.com/zhuchangwu/lawyer-lover-vue-frontend
nodejs版本: v10.14.1
安装命令:
npm install serve
前端代码精简,如果感兴趣可以拉取下来自行开发
鸣谢: 前端贡献者 '集智慧与美貌于一身'的:CamWang
3.3 SVM算法-Docker镜像
推荐: 使用我封装好的SVM算法模型的Docker镜像,目前已经打包发布在云上, 优点如下:
- 基于Docker构建,可移植性很好,同学们可以直接拉取到自己服务器的Docker上,开箱即用。
- 添加了ApacheThrift 依赖,将算法模型封装成了 Thrift - Server ,实现了和 Java-SpringCloud 的异步RPC通信。
如何拉取镜像:
### 1. 启动docker
### 2. 拉取镜像
sudo docker pull registry.cn-beijing.aliyuncs.com/changwu/lawyer:release
使用镜像
# 1. 启动镜像:
docker run --name [指定容器名] -i -t -p 9998:9998 -d [ImageId]
# 2. 进入容器:
docker container exec -it [指定的容器名或者容器的ID] /bin/bash
# 3. 启动模型:
docker run
# 4. 切入目录
cd /home/lawer
# 5. 使用tmux使py在后台运行 , 在bash输入如下命令
tmux
# 6. 进入tmux,在tmux中启动程序 ,模型需要加载大约30s完成启动,在控制台可以看到启动日志
python thrift_server.py
# 7. 模型启动后,可以退出镜像 `exit` 或者直接关闭ssh终端, 模型都会正常运行
# 8. 重新ssh上去之后,执行如下命令,可以看到python程序还在正常执行
tmux attach
鸣谢:liuhuanyong教授: 算法模型来源
3.4 Nginx相关配置
同学们在上线当前项目时推荐使用Nginx服务器代理静态资源 。
当前项目使用Nginx做了如下几点工作,同学们自行可以参照提供的配置项做适当修改。
- Nginx代理Vue打包生成的静态资源。
- 解决前段端的跨域配置。
- 将用户在前端请求转发到后端SpringCloud网关。
nginx相关配置文件路径: /reources/nginx-conf 。
四. ElasticSearch相关
4.1 版本:
推荐使用 6.2.4
因为我针对法律主题,做了的分词器定制化( 拓展了词库 ), 下文有提及。
至于ES的安装本文不再展开了,同学们可以自行百度安装。
4.2 创建Index:实体类->Index
- 问答模块index的建立脚本
PUT /ai_answer_question
{
"mappings": {
"answer_question" : {
"properties" : {
"title" : {
"type": "text",
"analyzer": "ik_max_word",
"fields": { // 添加搜索推荐 suggest
"suggest" : {
"type" : "completion", // 特定的类型
"analyzer": "ik_max_word" // 指定分词器
}
}
},
"content": {
"type": "text",
"analyzer": "ik_max_word"
}
}
}
}
}
另外两个模块的测试类像下面这样写测试类,通过Template无脑创建就行
@RunWith(SpringRunner.class)
@SpringBootTest
public class CrimeTest {
@Autowired
ElasticsearchTemplate template;
@Autowired
CrimeRepository repository;
@Test
public void deleteIndex(){
template.deleteIndex(Crime.class);
}
@Test
public void testCreateIndexAndMapping() {
template.createIndex(Crime.class);
template.putMapping(Crime.class);
}
}
4.3 Ik分词器
推荐我提供的IK分词器: 路径: /resource/ik
原因:
- 拓展中文词库。
- 加入了法律相关的专有名词,提高专业名词的得分率和召回率。
加入了停用词(问候词)
- 这么设计的初衷是考虑到项目中的搜索提供功能, 比如用户输入了 房产XXX ,那么我们将为其进行搜索并提示他有哪些以用户输入关键字开头的词条。
- 如果用户仅仅是输入了: 你好,请问 这类词语将被ES过滤掉,而不理会。
- 如果你觉得不合理,可以去ik/conf中修改相关配置。
五. 数据
下面三个模块的数据挺大的, 就不上传到github了,同学搭建项目时如果需要如下三个模块的测试数据 , 可以扫描下面二维码关注,回复:data 领取后,自行导入ES即可。
相似文书模块依赖的数据:
罪名推断模块依赖的数据:
问答模块依赖的数据:
导入罪名模块测试的方法
@Test
public void add() {
File file = new File("F:\\新建文件夹\\crime.json");
try {
Set<Crime> set = new TreeSet<Crime>(new Comparator<Crime>() {
@Override
public int compare(Crime o1, Crime o2) {
//字符串,则按照asicc码升序排列
return o1.getCrimeName().compareTo(o2.getCrimeName());
}
});
BufferedReader bufferedReader = new BufferedReader(new FileReader(file));
String result = null;
while (((result = bufferedReader.readLine()) != null)) {
Crime crime = JsonUtils.jsonToPojo(result, Crime.class);
set.add(crime);
}
System.out.println(set.size());
for (Crime crime : set) {
repository.save(crime);
}
} catch (Exception e) {
e.printStackTrace();
}
}
六. 联系
可以通过博客联系我:
https://www.cnblogs.com/ZhuChangwu/
欢迎关注微信公众号领取数据,(公众号刚起步,后续会分享整理的面试题) :

一款基于SVM算法的分布式法律助手的更多相关文章
- 基于雪花算法生成分布式ID(Java版)
SnowFlake算法原理介绍 在分布式系统中会将一个业务的系统部署到多台服务器上,用户随机访问其中一台,而之所以引入分布式系统就是为了让整个系统能够承载更大的访问量.诸如订单号这些我们需要它是全局唯 ...
- 基于Twitter的Snowflake算法实现分布式高效有序ID生产黑科技(无懈可击)
参考美团文档:https://tech.meituan.com/2017/04/21/mt-leaf.html Twitter-Snowflake算法产生的背景相当简单,为了满足Twitter每秒上万 ...
- 一种基于Rsync算法的数据库备份方案设计
根据容灾备份系统对备份类别的要求程度,数据库备份系统可以分为数据级备份和应用级备份.数据备份是指建立一个异地的数据备份系统,该系统是对原本地系统关键应用数据实时复制.当出现故障时,可由异地数据系统迅速 ...
- SZhe_Scan碎遮:一款基于Flask框架的web漏洞扫描神器
SZhe_Scan碎遮:一款基于Flask框架的web漏洞扫描神器 天幕如遮,唯我一刀可碎千里华盖,纵横四海而无阻,是谓碎遮 --取自<有匪> 写在前面 这段时间很多时间都在忙着编写该项目 ...
- #研发解决方案#基于Apriori算法的Nginx+Lua+ELK异常流量拦截方案
郑昀 基于杨海波的设计文档 创建于2015/8/13 最后更新于2015/8/25 关键词:异常流量.rate limiting.Nginx.Apriori.频繁项集.先验算法.Lua.ELK 本文档 ...
- 转载:scikit-learn学习之SVM算法
转载,http://blog.csdn.net/gamer_gyt 目录(?)[+] ========================================================= ...
- 基于Apriori算法的Nginx+Lua+ELK异常流量拦截方案 郑昀 基于杨海波的设计文档(转)
郑昀 基于杨海波的设计文档 创建于2015/8/13 最后更新于2015/8/25 关键词:异常流量.rate limiting.Nginx.Apriori.频繁项集.先验算法.Lua.ELK 本文档 ...
- SVM算法实现(一)
关键字(keywords):SVM 支持向量机 SMO算法 实现 机器学习 假设对SVM原理不是非常懂的,能够先看一下入门的视频,对帮助理解非常实用的,然后再深入一点能够看看这几篇入门文章,作者写得挺 ...
- 一步步教你轻松学支持向量机SVM算法之案例篇2
一步步教你轻松学支持向量机SVM算法之案例篇2 (白宁超 2018年10月22日10:09:07) 摘要:支持向量机即SVM(Support Vector Machine) ,是一种监督学习算法,属于 ...
随机推荐
- 学习经典算法—JavaScript篇(一)排序算法
前端攻城狮--学习常用的排序算法 一.冒泡排序 优点: 所有排序中最简单的,易于理解: 缺点: 时间复杂度O(n^2),平均来说是最差的一种排序方式: 因为在默认情况下,对于已经排好序的部分,此排序任 ...
- Java 八种基本类型和基本类型封装类
1.首先,八种基本数据类型分别是:int.short.float.double.long.boolean.byte.char: 它们的封装类分别是:Integer.Short.Float.Doub ...
- python装饰器之函数作用域
1.函数作用域LEGB L:local函数内部作用域 E:enclosing函数内部与内嵌函数之间 G:global全局作用域 B:build-in内置作用域 passline = 60 def fu ...
- vue安卓4.4.2页面打不开的坑
项目上线两三天,有保障说安卓下面页面打不开,所以查了下具体原因,系统版本过低,安卓4.4.2,然后发现本地没有babel-polyfill的包,具体解决方案如下: 1,npm 安装 npm insta ...
- frida入门总结
一.Frida概述 Frida是一款轻量级HOOK框架,可用于多平台上,例如android.windows.ios等. frida分为两部分,服务端运行在目标机上,通过注入进程的方式来 ...
- 迄今为止最硬核的「Java8时间系统」设计原理与使用方法
为了使本篇文章更容易让读者读懂,我特意写了上一篇<任何人都需要知道的「世界时间系统」构成原理,尤其开发人员>的科普文章.本文才是重点,绝对要读,走起! Java平台时间系统的设计方案 几乎 ...
- (转)C++对象的内存布局
原文地址:http://blog.csdn.net/haoel/article/details/3081328 C++ 对象的内存布局 陈皓 http://blog.csdn.net/haoel 前言 ...
- iviewadmin url 加入 Router base #viewDesignAdmin
router/index.js const router = new Router({ routes, base: '/viewDesignAdmin/', mode: 'history' ...
- 网络安全从入门到精通 (第二章-1) Web安全前端基础
本文内容: 前端是什么? 前端代码 HTML CSS JS !!!醋成酒的小墨,促成就的小墨,小墨促成就,!!! 1,前端是什么? 网站一般用两部分组成,前端负责展示,后端负责处理请求. 2,前端代码 ...
- Effective Python读书笔记
有些位置可能翻译理解的不到位,各位看官如有疑问,欢迎留言赐教. Pythonic Thinking 大家经常用Pythonic来形容python语法风格的编程方式:简单优美,没有之一:通过import ...