一款基于SVM算法的分布式法律助手
一. 项目简介 与 使用说明
体验网站(适配手机端): http://www.zhuchangwu.com
项目基于 Spring Cloud 、Vue 构建,平台针对需要维权的用户而设计,主要提供如下三个功能模块。
一、提供问答服务模块。
用户可以在本模块中描述一句简短的话,系统将为用户推送出与用户描述相似的问题及答案。
二、罪名推断模块。
用户可以输入一个场景,系统将给用户推送出此场景可能触发的罪名,量刑区间,以及可能触发的法律法规。
三、相似判决文书查询模块。
用户可以将自己的判决文书输入到系统中,系统将会为用户推送相似的判决文书。
主页

问答服务 - 支持前缀匹配,全文检索

罪名推断:
点击主页的案情推断,输入一段场景

点击搜索:得出如下响应

相似文书查询:
将您的文书拷贝进文书查询模块,点击搜索,系统将推送给您往年相似的判决文书

结果如下:

二. 主要技术点
- 前后端分离架构,前端Vue + 后端SpringCloud。
- 基于 ElasticSearch 的搜索提示及全文检索功能为用户提供问答服务。
- 集成机器学习分类算法模型 SVM, 文本分类,推断相关罪名。
- 基于simhash算法,实现相似文本检查。
- Java 与 Python 使用Apache Thrift完成异构RPC调用。
- 使用Docker将SVM模型容器化,可移植性很强。
- 项目部署:静态资源服务器 Nginx。
三. 环境搭建
3.1 后端
地址: https://github.com/zhuchangwu/lawyer-lover-cloud-backend
- 后端SpringCloud版本:Finchley.SR2
- 开发工具: IDEA
- Maven版本: 3.3.9
同学们自行将本项目clone到本地导入idea即可使用。
3.2 前端
前端github地址: https://github.com/zhuchangwu/lawyer-lover-vue-frontend
nodejs版本: v10.14.1
安装命令:
npm install serve
前端代码精简,如果感兴趣可以拉取下来自行开发
鸣谢: 前端贡献者 '集智慧与美貌于一身'的:CamWang
3.3 SVM算法-Docker镜像
推荐: 使用我封装好的SVM算法模型的Docker镜像,目前已经打包发布在云上, 优点如下:
- 基于Docker构建,可移植性很好,同学们可以直接拉取到自己服务器的Docker上,开箱即用。
- 添加了ApacheThrift 依赖,将算法模型封装成了 Thrift - Server ,实现了和 Java-SpringCloud 的异步RPC通信。
如何拉取镜像:
### 1. 启动docker
### 2. 拉取镜像
sudo docker pull registry.cn-beijing.aliyuncs.com/changwu/lawyer:release
使用镜像
# 1. 启动镜像:
docker run --name [指定容器名] -i -t -p 9998:9998 -d [ImageId]
# 2. 进入容器:
docker container exec -it [指定的容器名或者容器的ID] /bin/bash
# 3. 启动模型:
docker run
# 4. 切入目录
cd /home/lawer
# 5. 使用tmux使py在后台运行 , 在bash输入如下命令
tmux
# 6. 进入tmux,在tmux中启动程序 ,模型需要加载大约30s完成启动,在控制台可以看到启动日志
python thrift_server.py
# 7. 模型启动后,可以退出镜像 `exit` 或者直接关闭ssh终端, 模型都会正常运行
# 8. 重新ssh上去之后,执行如下命令,可以看到python程序还在正常执行
tmux attach
鸣谢:liuhuanyong教授: 算法模型来源
3.4 Nginx相关配置
同学们在上线当前项目时推荐使用Nginx服务器代理静态资源 。
当前项目使用Nginx做了如下几点工作,同学们自行可以参照提供的配置项做适当修改。
- Nginx代理Vue打包生成的静态资源。
- 解决前段端的跨域配置。
- 将用户在前端请求转发到后端SpringCloud网关。
nginx相关配置文件路径: /reources/nginx-conf 。
四. ElasticSearch相关
4.1 版本:
推荐使用 6.2.4
因为我针对法律主题,做了的分词器定制化( 拓展了词库 ), 下文有提及。
至于ES的安装本文不再展开了,同学们可以自行百度安装。
4.2 创建Index:实体类->Index
- 问答模块index的建立脚本
PUT /ai_answer_question
{
"mappings": {
"answer_question" : {
"properties" : {
"title" : {
"type": "text",
"analyzer": "ik_max_word",
"fields": { // 添加搜索推荐 suggest
"suggest" : {
"type" : "completion", // 特定的类型
"analyzer": "ik_max_word" // 指定分词器
}
}
},
"content": {
"type": "text",
"analyzer": "ik_max_word"
}
}
}
}
}
另外两个模块的测试类像下面这样写测试类,通过Template无脑创建就行
@RunWith(SpringRunner.class)
@SpringBootTest
public class CrimeTest {
@Autowired
ElasticsearchTemplate template;
@Autowired
CrimeRepository repository;
@Test
public void deleteIndex(){
template.deleteIndex(Crime.class);
}
@Test
public void testCreateIndexAndMapping() {
template.createIndex(Crime.class);
template.putMapping(Crime.class);
}
}
4.3 Ik分词器
推荐我提供的IK分词器: 路径: /resource/ik
原因:
- 拓展中文词库。
- 加入了法律相关的专有名词,提高专业名词的得分率和召回率。
加入了停用词(问候词)
- 这么设计的初衷是考虑到项目中的搜索提供功能, 比如用户输入了 房产XXX ,那么我们将为其进行搜索并提示他有哪些以用户输入关键字开头的词条。
- 如果用户仅仅是输入了: 你好,请问 这类词语将被ES过滤掉,而不理会。
- 如果你觉得不合理,可以去ik/conf中修改相关配置。
五. 数据
下面三个模块的数据挺大的, 就不上传到github了,同学搭建项目时如果需要如下三个模块的测试数据 , 可以扫描下面二维码关注,回复:data 领取后,自行导入ES即可。
相似文书模块依赖的数据:
罪名推断模块依赖的数据:
问答模块依赖的数据:
导入罪名模块测试的方法
@Test
public void add() {
File file = new File("F:\\新建文件夹\\crime.json");
try {
Set<Crime> set = new TreeSet<Crime>(new Comparator<Crime>() {
@Override
public int compare(Crime o1, Crime o2) {
//字符串,则按照asicc码升序排列
return o1.getCrimeName().compareTo(o2.getCrimeName());
}
});
BufferedReader bufferedReader = new BufferedReader(new FileReader(file));
String result = null;
while (((result = bufferedReader.readLine()) != null)) {
Crime crime = JsonUtils.jsonToPojo(result, Crime.class);
set.add(crime);
}
System.out.println(set.size());
for (Crime crime : set) {
repository.save(crime);
}
} catch (Exception e) {
e.printStackTrace();
}
}
六. 联系
可以通过博客联系我:
https://www.cnblogs.com/ZhuChangwu/
欢迎关注微信公众号领取数据,(公众号刚起步,后续会分享整理的面试题) :

一款基于SVM算法的分布式法律助手的更多相关文章
- 基于雪花算法生成分布式ID(Java版)
SnowFlake算法原理介绍 在分布式系统中会将一个业务的系统部署到多台服务器上,用户随机访问其中一台,而之所以引入分布式系统就是为了让整个系统能够承载更大的访问量.诸如订单号这些我们需要它是全局唯 ...
- 基于Twitter的Snowflake算法实现分布式高效有序ID生产黑科技(无懈可击)
参考美团文档:https://tech.meituan.com/2017/04/21/mt-leaf.html Twitter-Snowflake算法产生的背景相当简单,为了满足Twitter每秒上万 ...
- 一种基于Rsync算法的数据库备份方案设计
根据容灾备份系统对备份类别的要求程度,数据库备份系统可以分为数据级备份和应用级备份.数据备份是指建立一个异地的数据备份系统,该系统是对原本地系统关键应用数据实时复制.当出现故障时,可由异地数据系统迅速 ...
- SZhe_Scan碎遮:一款基于Flask框架的web漏洞扫描神器
SZhe_Scan碎遮:一款基于Flask框架的web漏洞扫描神器 天幕如遮,唯我一刀可碎千里华盖,纵横四海而无阻,是谓碎遮 --取自<有匪> 写在前面 这段时间很多时间都在忙着编写该项目 ...
- #研发解决方案#基于Apriori算法的Nginx+Lua+ELK异常流量拦截方案
郑昀 基于杨海波的设计文档 创建于2015/8/13 最后更新于2015/8/25 关键词:异常流量.rate limiting.Nginx.Apriori.频繁项集.先验算法.Lua.ELK 本文档 ...
- 转载:scikit-learn学习之SVM算法
转载,http://blog.csdn.net/gamer_gyt 目录(?)[+] ========================================================= ...
- 基于Apriori算法的Nginx+Lua+ELK异常流量拦截方案 郑昀 基于杨海波的设计文档(转)
郑昀 基于杨海波的设计文档 创建于2015/8/13 最后更新于2015/8/25 关键词:异常流量.rate limiting.Nginx.Apriori.频繁项集.先验算法.Lua.ELK 本文档 ...
- SVM算法实现(一)
关键字(keywords):SVM 支持向量机 SMO算法 实现 机器学习 假设对SVM原理不是非常懂的,能够先看一下入门的视频,对帮助理解非常实用的,然后再深入一点能够看看这几篇入门文章,作者写得挺 ...
- 一步步教你轻松学支持向量机SVM算法之案例篇2
一步步教你轻松学支持向量机SVM算法之案例篇2 (白宁超 2018年10月22日10:09:07) 摘要:支持向量机即SVM(Support Vector Machine) ,是一种监督学习算法,属于 ...
随机推荐
- Yuchuan_Linux_C编程之一 Vim编辑器的使用
一.整体大纲 二.Vim 编辑器的使用 vi -- vim vim是从vi发展过来的一款文本编辑器 vi a.txt 前提: 安装了vim软件 工作模式: 1. 命令模式 -- 打开 ...
- 最简单易懂的实现CRC16校验
public String getCRC16(byte[] bytes) { //CRC寄存器全为1 int CRC = 0x0000ffff; //多项式校验值 int POLYNOMIAL = 0 ...
- 什么是FHS,Linux的文件系统目录标准是怎样的
Filesystem Hierarchy Standard(文件系统目录标准)的缩写,多数Linux版本采用这种文件组织形式,类似于Windows操作系统中c盘的文件目录,FHS采用树形结构组织文件. ...
- Mysql数据库定时全库备份
如下脚本用于mysql全库定时备份 mysql_dump_script.sh #!/bin/bash #保存备份个数,最多保留4个文件 number=4 #备份保存路径 backup_dir=/db/ ...
- C++ 动态创建链表
#define _CRT_SECURE_NO_WARNINGS #include <iostream> struct Node { int data; Node* next; }; Nod ...
- Python 小技巧:如何实现操作系统兼容性打包?
有一个这样的问题:现要用 setuptools 把一个项目打包成 whl 文件,然后 pip install 在 Windows/Linux 两种操作系统上,但是该项目中有一些依赖库只有 Window ...
- java idea spring mvc 入门 最起码 我8080跑起来了
IDEA建立Spring MVC Hello World 详细入门教程 https://www.cnblogs.com/wormday/p/8435617.html
- vscode如何配置debug,python正则表达式如何匹配括号,关于python如何导入自定义模块
关于vscode如何配置debug的问题: 1.下载安装好python,并且配置好 环境变量 2.https://www.cnblogs.com/asce/p/11600904.html 3.严格按照 ...
- 妈妈再也不担心我面试被Redis问得脸都绿了
长文前排提醒,收藏向前排提醒,素质三连 (转发 + 在看 + 留言) 前排提醒! 前言 Redis 作为一个开源的,高级的键值存储和一个适用的解决方案,已经越来越在构建 「高性能」.「可扩展」 的 W ...
- 批量redis未授权检测工具&批量redis弱口令爆破工具
今天需要然后就百度搜索了一波,然后自己稍微改了一下: #!/usr/bin/python3 # -*- coding: utf-8 -*- """ @Author: 偷来 ...