Python实例:申报项目查重系统设计与实现

作者:白宁超

2017年5月18日17:51:37

摘要:关于查重系统很多人并不陌生,无论本科还是硕博毕业都不可避免涉及论文查重问题,这也对学术不正之风起到一定纠正作用。单位主要针对科技项目申报审核,传统的方式人力物力比较大,且伴随季度性的繁重工作,效率不高。基于此,单位觉得开发一款可以达到实用的智能查重系统。遍及网络文献,终未得到有价值的参考资料,这个也是自然。首先类似知网,paperpass这样的商业公司其毕业申报专利并进行保密,其他科研单位因发展需要也不会开源。笔者就结合NLP相关知识进行设计一款自主的查重系统,首先采用自然语言处理方法主要提出两个模型:科技项目查重的训练模型和科技项目查重的测试模型。其中训练模型主要对数据的清洗预处理及其规约化处理,测试系统也是主查重系统,对其查重原理和性能进行设计实现。最后将其封装成包,PHP或者Java等语言调用即可。(本文原创编著,转载注明出处:Python实例:申报项目查重系统设计与实现

1 开发环境部署


硬件环境:普通台式机或者笔记本一台,可以正常连网,配置不作特别要求

软件环境:win7以上系统,本机采用WIN10 64位系统

开发环境:Sublime + Python3.5(Anaconda)

分词工具:先行的分词工具都可以,本文采用结巴分词

PHP调用环境:WampServer(php开发集成环境)

2 查重系统需要分析


背景:科技相关工作者通过计划项目管理平台进行项目申报,这个过程中存在涉嫌造假,修改本人以往项目等一系列违规操作。为了遏制这种现象,开发一款智能的项目查重系统必然不能或缺。

需求:低版本主要控制申报项目的标题和简介查重问题,实现对相似度较高的项目进行查重。用户提交申报项目后,自动审查是否存在违规行为。

解决:1 从服务器中导出今年真实的申报项目作为训练集(目前采用真实项目2400多个),通过对训练数据集的一系列数据清洗,然后进行语料库构建工作。2 采用文本相似度原理对测试文本进行建模,最后通过文本相似算法的实现,完成查重系统。3 PHP调用python查重文件,实现操作。

问题:1 真实语料规模有所限制,伴随语料扩大效果更好。2 文本相似度多种算法比较,包括:欧几里德距离、余弦定理、皮尔逊相关度、曼哈顿距离、Jaccard系数、gensim相似度等,改进版采用合适的相似度算法。3 对同义词、近义词、稀有词、核心词等权重问题的改进 4 后续改进针对整篇文章和主题识别

3 查重系统设计流程


本查重系统设计分为两大步骤:训练模型和测试模型。

训练模型:

1 首先从数据库中导出原始申报项目核心字段数据,其中subject代表项目课题名称,summary代表课题项目简介。

2 通过算法完成语料标记工作,具体算法原理和实现参见下文,效果如下图:

3 对数据进行预处理,其中包括正则匹配、文本分词、停用词处理、字符串操作、规约化数据等,处理后结果如下:

4 采用余弦相似度进行相似算法处理,最后识别结果如下:

5 PHP调用Python算法的运行结果:

当重复率大于阈值时:

当重复率小于阈值时:

4 科技项目查重训练模型


1 针对路径进行配置,其中源语料为datas.txt,标记处理后保存到同目录下的flagdatas.txt中

2 对原始语料进行标记和简单清洗,之所以采用标记,一方面便于序列化展示,另一方面区分项目名称和简介。

3 保存标记后的语料并统计处理结果

4 对标记数据进行分词处理。本文采用的结巴分词,分词后可以采用两种情况的处理,其一是不带词性标记的处理方式,直接将分词结果与停用词词典进行比对,去除停用词。其二是采用带有词性标注的分词结果,我们然后采用词典和去除词性的方式进行预处理,其中诸如虚词,助词等可以根据业务需求去除。而相对于名词、动词等主要词性,可以通过增加权重的方式进行处理。最终保村分词结果。作为训练语料库即对比语料库。

具体预处理源码如下:

    # 1 针对语料路径进行配置
path="../CheckRepeat/database/OrigCorpus/datas.txt" # 训练语料库
flagpath="../CheckRepeat/database/OrigCorpus/flagdatas.txt" # 语料标记 # 2 对原始语料进行标记和简单清洗
listset="" # 标记后的语料集合
i,j=1,1
with open(path,'r',encoding='utf-8') as f:
for rline in f.readlines():
line = rline.strip().replace(" ","")
if "summary" in line :
listset +="\n"+str(i)+"_"+line
i+=1 # 简介打标签
elif "subject" not in line:
listset +=line
elif "subject" in line:
listset +="\n"+str(j)+"_"+line
j+=1 # 项目题目打标签 # 3 保存标记后语料并统计标记结果
with open(flagpath,'w',encoding='utf-8') as f1:
f1.write(listset.strip())
print("="*70)
print("项目共计标题:"+str(len(listset.split("subject"))-1))
print("项目共计简介:"+str(len(listset.split("summary"))-1))
print("-"*70) # 4 对标记数据进行分词处理
cutpath="../CheckRepeat/database/OrigCorpus/cutdatas.txt" # 保存分词后的结果
cutword(flagpath,cutpath)

其执行2405条数据的性能如下:具体分析发现启动分词工具耗时1.2秒左右,其余耗时量主要是停用词比对时,两个矩阵计算造成的,这个问题可以通过算法改进,缩短耗时。

5 科技项目查重实现(测试)系统


1 接收项目文件(项目名称/项目简介)进行预处理操作,其实这个过程跟模型训练时的预处理算法是一致的。

2 将训练阶段处理后的数据进行处理,分割出项目名称/项目简介,分布存放在两个list中。

3 判断参数是否为空,如果不为空将对应的参数放入验证查重结果。

4 以测试数据和训练的每条数据的词项构建文本向量,通过文本向量的夹角即判断文本相似度,并反馈出结果。本文采用的是python自带的difflib模块进行处理,difflib是python提供的比较序列(string list)差异的模块。实现了三个类:1>SequenceMatcher 任意类型序列的比较 (可以比较字符串)2>Differ 对字符串进行比较3>HtmlDiff 将比较结果输出为html格式.理由是其相对比较成熟,本项目的处理量并不大。倘若处理G级或P级规模的数据,可以考虑使用google的gensim相似度算法,大大提高处理速度,幸运的是该算法也是python自带的一个模块。当然对其原理的理解,建议还是自己实现下。

5 对查重后的结果进行处理,可以保存到本地,也可以直接输出,由于本项目主要提供php调用,切php调用执行py文件之后,对输出结果不能换行处理,所以本项目添加一些html标签和css样式。

查重实现核心源码如下:

def checkfun(namestr):
subject={} # 记录查重结果,键值对,原句+重复率
summary={}
# 找到对比库的历史数据
checkpath ="../CheckRepeat/database/OrigCorpus/cutdatas.txt" # 数据库中对比项目语料库
with open(checkpath,"r",encoding="utf-8") as f:
checklist=[line[:] for line in f.readlines()]
subjectname=[sub for sub in checklist if "subject" in sub] # 项目名称
summaryname=[summ for summ in checklist if "summary" in summ] # 项目简介 if "subject" in namestr:
# 进行项目名称验证操作
for rline in subjectname:
line = ''.join(str(rline).split(' ')[:])
subp = difflib.SequenceMatcher(None,namestr.split('\n')[].replace('subject',''),line).ratio()
subject[line]=float('%.4f'%(subp))
if "summary" in namestr:
# 进行项目简介验证操作
for rline in summaryname:
line = ''.join(str(rline).split(' ')[:])
sump = difflib.SequenceMatcher(None,namestr.split('\n')[].replace('summary',''),line).ratio()
summary[line]=float('%.4f'%(sump)) # 打印检测结果
outreslut=""
sort1=sorted(subject.items(),key=lambda e:e[],reverse=True) #排序
outreslut +="项目名称:"+"*"*+"["+namestr.split('\n')[].replace('subject','') + "]"+"*"*+"的查重结果如下:\n\n"
for item in sort1[:]:
if item[] >= 0.5:
outreslut += "与项目库中\t[<span style=\"color:red\">"+item[].replace("\n",'')+"</span>]\t的相似率最高:<span style=\"color:red\">"+str(item[]) +"</span>\n"
else:
outreslut += "<span style=\"color:green\">没有查出重复的项目简介</span>\n" sort2=sorted(summary.items(),key=lambda e:e[],reverse=True) #排序
outreslut += "\n\n项目简介:"+"*"*+"["+namestr.split('\n')[].replace('summary','') + "]"+"*"*+"的查重结果如下:\n\n"
for item in sort2[:]:
if item[] >= 0.5:
outreslut += "与项目库中\t[<span style=\"color:red\">"+item[].replace("\n",'')+"</span>]\t的相似率最高:<span style=\"color:red\">"+str(item[]) +"</span>\n"
else:
outreslut += "<span style=\"color:green\">没有查出重复的项目简介</span>\n" # 写到文件里面
with open("../CheckRepeat/database/DealCorpus/checkout.txt",'w',encoding='utf-8') as f:
f.write(outreslut)
print(outreslut)

其运行结果如下:

6 PHP调用Python查重系统


1 php调用主要是$program变量下的语句,原理是:

python.exe的绝对路径,空格,调用py的主文件绝对路径,空格,参数1,空格,参数2

2 py文件通过sys相关参数进行接收,sys.argv[0]是py文本名,所以1-n对应你传入的参数如下:

# subject = sys.argv[1]
# summary = sys.argv[2]

3 exec($program,$result,$N)其执行py程序并返回一条字符串,返回结果保存在$result中。$N代表执行是否成功,成功返回1

4  shell_exec($program) 返回py文件所有语句的输出

5 php与py之间存在乱码问题,可以通过mb_convert_encoding ($output,"UTF-8", "GBK")解决

<?php
$name=mb_convert_encoding($_POST['projectname'], "GBK","UTF-8");
$sumb=mb_convert_encoding($_POST['projectsumb'], "GBK","UTF-8");
$program="D:/Users/Administrator/Anaconda3/python E:/pythonSource/CheckArticle/CheckRepeat/checkIndex.py ".$name." ".$sumb.""; #注意使用绝对路径.$name."".$sumb
$output = nl2br(shell_exec($program));
// $program1="D:/Users/Administrator/Anaconda3/python ../CheckRepeat/test.py ".$name." ".$sumb.""; #注意使用绝对路径.$name."".$sumb
// $result1 = shell_exec($program1);
echo mb_convert_encoding ($output,"UTF-8", "GBK");
// if ($output!=null){
// print_r(nl2br(file_get_contents('../CheckRepeat/database/DealCorpus/checkout.txt')));
// }
?>

7 参考文献:


[1] TF-IDF与余弦相似性的应用:http://www.ruanyifeng.com/blog/2013/03/tf-idf.html
[2] 海量数据相似度计算之simhash短文本查找:http://www.lanceyan.com/tag/simhash
[3] 用TF特征向量和simhash指纹计算中文文本的相似度:https://github.com/zyymax/text-similarity
[4] gensim文档相似度判断:http://kekefund.com/2016/05/27/gensim-similarity/
[5] python文本相似度计算:http://www.jianshu.com/p/edf666d3995f
[6] 如何计算两个文档的相似度:https://flystarhe.github.io/2016/08/30/document-similarity/
[7] gensim文档相似度判断:http://kekefund.com/2016/05/27/gensim-similarity/

【NLP】Python实例:基于文本相似度对申报项目进行查重设计的更多相关文章

  1. NLP(九) 文本相似度问题

    多个维度判别文本之间相似度 情感维度 Sentiment/Emotion 感官维度 Sense 特定词的出现 词频 TF 逆文本频率 IDF 构建N个M维向量,N是文档总数,M是所有文档的去重词汇量 ...

  2. Python实例---基于页面的后台管理[简单版]

    后台管理菜单 + 母板[css/content/js] 向后台提交数据[2种]:       1.  模态对话框(数据少操作,且Js复杂):        form表单 :优点:简单,前端提交后后台处 ...

  3. python实例编写(5)--异常处理,截图,用例设计

    一.python的异常处理 异常抛出处理机制: 1.若在运行时发生异常,解释器会查找相应的处理语句(handler) 2.若在当前函数无法找到,就将异常传给上层的调用函数,看是否能处理 3.如果在最外 ...

  4. 自然语言推断(NLI)、文本相似度相关开源项目推荐(Pytorch 实现)

    Awesome-Repositories-for-NLI-and-Semantic-Similarity mainly record pytorch implementations for NLI a ...

  5. 【NLP】Python实例:申报项目查重系统设计与实现

    Python实例:申报项目查重系统设计与实现 作者:白宁超 2017年5月18日17:51:37 摘要:关于查重系统很多人并不陌生,无论本科还是硕博毕业都不可避免涉及论文查重问题,这也对学术不正之风起 ...

  6. python 手把手教你基于搜索引擎实现文章查重

    前言 文章抄袭在互联网中普遍存在,很多博主都收受其烦.近几年随着互联网的发展,抄袭等不道德行为在互联网上愈演愈烈,甚至复制.黏贴后发布标原创屡见不鲜,部分抄袭后的文章甚至标记了一些联系方式从而使读者获 ...

  7. 基于python语言使用余弦相似性算法进行文本相似度分析

    编写此脚本的目的: 本人从事软件测试工作,近两年发现项目成员总会提出一些内容相似的问题,导致开发抱怨.一开始想搜索一下是否有此类工具能支持查重的工作,但并没找到,因此写了这个工具.通过从纸上谈兵到着手 ...

  8. NLP点滴——文本相似度

    [TOC] 前言 在自然语言处理过程中,经常会涉及到如何度量两个文本之间的相似性,我们都知道文本是一种高维的语义空间,如何对其进行抽象分解,从而能够站在数学角度去量化其相似性.而有了文本之间相似性的度 ...

  9. 从0到1,了解NLP中的文本相似度

    本文由云+社区发表 作者:netkiddy 导语 AI在2018年应该是互联网界最火的名词,没有之一.时间来到了9102年,也是项目相关,涉及到了一些AI写作相关的功能,为客户生成一些素材文章.但是, ...

随机推荐

  1. java 知识体系

    java分成J2ME(移动应用开发),J2SE(桌面应用开发),J2EE(Web企业级应用),所以java并不是单机版的,只是面向对象语言.建议如果学习java体系的话可以这样去学习: *第一阶段:J ...

  2. Windows安装Nginx

    环境:Windows 10 Nginx :nginx-1.13.12 安装步骤: 1.下载Nginx 进入官方网站下载页面 https://nginx.org/en/download.html 可以看 ...

  3. Mac上c语言连接mysql遇到的问题

    参照<Beginning Linux Programming>上的例程写了一个连接mysql的c语言小程序connect1.c.但是按照书上的编译命令无法编译.然后经过查阅资料解决了问题. ...

  4. Flask 环境搭建

    引用自:https://www.cnblogs.com/rongtangzi/p/6623122.html #!/bin/env python # _*_coding:utf-8_*_ #!!!!!! ...

  5. Environment error: “CodeBloks can't find compiler executable in your configured search path's for GNU GCC compiler”

    codeblock安装后,提示cant find compiler executable in your configured search paths for GNU GCC Compiler 可能 ...

  6. 针对mysql delete删除表数据后占用空间不变小的问题

    开发环境 Yii1版本 MySQL PHP5.6.27 前言 物流规则匹配日志表记录订单匹配规则相关日志信息,方便管理员维护和查阅不匹配的订单,四个月时间,该日志表数据就有174G,当前,这么大的数据 ...

  7. js获取宽度

    alert(window.screen.width );//浏览设备的分辨率(电脑.手机.平板等) alert(window.screen.availWidth );//浏览设备的实际可用宽度(电脑. ...

  8. poj2186-Popular Cows【Tarjan】+(染色+缩点)(经典)

    <题目链接> 题目大意: 有N(N<=10000)头牛,每头牛都想成为most poluler的牛,给出M(M<=50000)个关系,如(1,2)代表1欢迎2,关系可以传递,但 ...

  9. iOS开发安全

    这篇文章之前自己在公司的技术分享学院发表了.现在发到自己的博客上. 现在很多iOS的app没有做任何的安全防范措施.今天我们就聊聊iOS开发人员平时怎么做才更安全. 一.网络方面 用抓包工具可以抓取手 ...

  10. IdentityServer4-客户端的授权模式原理分析(三)

    在学习其他应用场景前,需要了解几个客户端的授权模式.首先了解下本节使用的几个名词        Resource Owner:资源拥有者,文中称“user”:        Client为第三方客户端 ...