Python实例：申报项目查重系统设计与实现

2017年5月18日17:51:37

摘要：关于查重系统很多人并不陌生，无论本科还是硕博毕业都不可避免涉及论文查重问题，这也对学术不正之风起到一定纠正作用。单位主要针对科技项目申报审核，传统的方式人力物力比较大，且伴随季度性的繁重工作，效率不高。基于此，单位觉得开发一款可以达到实用的智能查重系统。遍及网络文献，终未得到有价值的参考资料，这个也是自然。首先类似知网，paperpass这样的商业公司其毕业申报专利并进行保密，其他科研单位因发展需要也不会开源。笔者就结合NLP相关知识进行设计一款自主的查重系统，首先采用自然语言处理方法主要提出两个模型：科技项目查重的训练模型和科技项目查重的测试模型。其中训练模型主要对数据的清洗预处理及其规约化处理，测试系统也是主查重系统，对其查重原理和性能进行设计实现。最后将其封装成包，PHP或者Java等语言调用即可。（本文原创编著，转载注明出处:Python实例：申报项目查重系统设计与实现）

1 开发环境部署

硬件环境：普通台式机或者笔记本一台，可以正常连网，配置不作特别要求

软件环境：win7以上系统，本机采用WIN10 64位系统

开发环境：Sublime + Python3.5（Anaconda）

分词工具：先行的分词工具都可以，本文采用结巴分词

PHP调用环境：WampServer（php开发集成环境）

2 查重系统需要分析

背景：科技相关工作者通过计划项目管理平台进行项目申报，这个过程中存在涉嫌造假，修改本人以往项目等一系列违规操作。为了遏制这种现象，开发一款智能的项目查重系统必然不能或缺。

需求：低版本主要控制申报项目的标题和简介查重问题，实现对相似度较高的项目进行查重。用户提交申报项目后，自动审查是否存在违规行为。

解决：1 从服务器中导出今年真实的申报项目作为训练集（目前采用真实项目2400多个），通过对训练数据集的一系列数据清洗，然后进行语料库构建工作。2 采用文本相似度原理对测试文本进行建模，最后通过文本相似算法的实现，完成查重系统。3 PHP调用python查重文件，实现操作。

问题：1 真实语料规模有所限制，伴随语料扩大效果更好。2 文本相似度多种算法比较，包括：欧几里德距离、余弦定理、皮尔逊相关度、曼哈顿距离、Jaccard系数、gensim相似度等，改进版采用合适的相似度算法。3 对同义词、近义词、稀有词、核心词等权重问题的改进 4 后续改进针对整篇文章和主题识别

3 查重系统设计流程

本查重系统设计分为两大步骤：训练模型和测试模型。

训练模型：

1 首先从数据库中导出原始申报项目核心字段数据，其中subject代表项目课题名称，summary代表课题项目简介。

2 通过算法完成语料标记工作，具体算法原理和实现参见下文，效果如下图：

3 对数据进行预处理，其中包括正则匹配、文本分词、停用词处理、字符串操作、规约化数据等，处理后结果如下：

4 采用余弦相似度进行相似算法处理，最后识别结果如下：

5 PHP调用Python算法的运行结果：

当重复率大于阈值时：

当重复率小于阈值时：

4 科技项目查重训练模型

1 针对路径进行配置，其中源语料为datas.txt，标记处理后保存到同目录下的flagdatas.txt中

2 对原始语料进行标记和简单清洗，之所以采用标记，一方面便于序列化展示，另一方面区分项目名称和简介。

3 保存标记后的语料并统计处理结果

4 对标记数据进行分词处理。本文采用的结巴分词，分词后可以采用两种情况的处理，其一是不带词性标记的处理方式，直接将分词结果与停用词词典进行比对，去除停用词。其二是采用带有词性标注的分词结果，我们然后采用词典和去除词性的方式进行预处理，其中诸如虚词，助词等可以根据业务需求去除。而相对于名词、动词等主要词性，可以通过增加权重的方式进行处理。最终保村分词结果。作为训练语料库即对比语料库。

具体预处理源码如下：

    # 1 针对语料路径进行配置

    path="../CheckRepeat/database/OrigCorpus/datas.txt" # 训练语料库

    flagpath="../CheckRepeat/database/OrigCorpus/flagdatas.txt" # 语料标记

    # 2 对原始语料进行标记和简单清洗

    listset="" # 标记后的语料集合

    i,j=1,1

    with open(path,'r',encoding='utf-8') as f:

        for rline in f.readlines():

            line = rline.strip().replace(" ","")

            if "summary" in line :

                listset +="\n"+str(i)+"_"+line

                i+=1 # 简介打标签

            elif "subject" not in line:

                listset +=line

            elif "subject" in line:

                listset +="\n"+str(j)+"_"+line

                j+=1 # 项目题目打标签

    # 3 保存标记后语料并统计标记结果

    with open(flagpath,'w',encoding='utf-8') as f1:

        f1.write(listset.strip())

    print("="*70)

    print("项目共计标题:"+str(len(listset.split("subject"))-1))

    print("项目共计简介:"+str(len(listset.split("summary"))-1))

    print("-"*70)

    # 4 对标记数据进行分词处理

    cutpath="../CheckRepeat/database/OrigCorpus/cutdatas.txt" # 保存分词后的结果

    cutword(flagpath,cutpath)

其执行2405条数据的性能如下：具体分析发现启动分词工具耗时1.2秒左右，其余耗时量主要是停用词比对时，两个矩阵计算造成的，这个问题可以通过算法改进，缩短耗时。

5 科技项目查重实现（测试）系统

1 接收项目文件（项目名称/项目简介）进行预处理操作，其实这个过程跟模型训练时的预处理算法是一致的。

2 将训练阶段处理后的数据进行处理，分割出项目名称/项目简介，分布存放在两个list中。

3 判断参数是否为空，如果不为空将对应的参数放入验证查重结果。

4 以测试数据和训练的每条数据的词项构建文本向量，通过文本向量的夹角即判断文本相似度，并反馈出结果。本文采用的是python自带的difflib模块进行处理，difflib是python提供的比较序列(string list)差异的模块。实现了三个类：1>SequenceMatcher 任意类型序列的比较 (可以比较字符串)2>Differ 对字符串进行比较3>HtmlDiff 将比较结果输出为html格式.理由是其相对比较成熟，本项目的处理量并不大。倘若处理G级或P级规模的数据，可以考虑使用google的gensim相似度算法，大大提高处理速度，幸运的是该算法也是python自带的一个模块。当然对其原理的理解，建议还是自己实现下。

5 对查重后的结果进行处理，可以保存到本地，也可以直接输出，由于本项目主要提供php调用，切php调用执行py文件之后，对输出结果不能换行处理，所以本项目添加一些html标签和css样式。

查重实现核心源码如下：

def checkfun(namestr):

    subject={} # 记录查重结果，键值对，原句+重复率

    summary={}

    #  找到对比库的历史数据

    checkpath ="../CheckRepeat/database/OrigCorpus/cutdatas.txt" # 数据库中对比项目语料库

    with open(checkpath,"r",encoding="utf-8") as f:

        checklist=[line[:] for line in f.readlines()]

    subjectname=[sub for sub in checklist if "subject" in sub] # 项目名称

    summaryname=[summ for summ in checklist if "summary" in summ] # 项目简介

    if "subject" in namestr:

        #  进行项目名称验证操作

        for rline in subjectname:

            line = ''.join(str(rline).split(' ')[:])

            subp = difflib.SequenceMatcher(None,namestr.split('\n')[].replace('subject',''),line).ratio()

            subject[line]=float('%.4f'%(subp))

    if "summary" in namestr:

        #  进行项目简介验证操作

        for rline in summaryname:

            line = ''.join(str(rline).split(' ')[:])

            sump = difflib.SequenceMatcher(None,namestr.split('\n')[].replace('summary',''),line).ratio()

            summary[line]=float('%.4f'%(sump))

    #  打印检测结果

    outreslut=""

    sort1=sorted(subject.items(),key=lambda e:e[],reverse=True)   #排序

    outreslut +="项目名称："+"*"*+"["+namestr.split('\n')[].replace('subject','') + "]"+"*"*+"的查重结果如下:\n\n"

    for item in sort1[:]:

        if item[] >= 0.5:

            outreslut += "与项目库中\t[<span style=\"color:red\">"+item[].replace("\n",'')+"</span>]\t的相似率最高：<span style=\"color:red\">"+str(item[]) +"</span>\n"

        else:

            outreslut += "<span style=\"color:green\">没有查出重复的项目简介</span>\n"

    sort2=sorted(summary.items(),key=lambda e:e[],reverse=True)   #排序

    outreslut += "\n\n项目简介："+"*"*+"["+namestr.split('\n')[].replace('summary','') + "]"+"*"*+"的查重结果如下：\n\n"

    for item in sort2[:]:

        if item[] >= 0.5:

            outreslut += "与项目库中\t[<span style=\"color:red\">"+item[].replace("\n",'')+"</span>]\t的相似率最高：<span style=\"color:red\">"+str(item[]) +"</span>\n"

        else:

            outreslut += "<span style=\"color:green\">没有查出重复的项目简介</span>\n"

    #  写到文件里面

    with open("../CheckRepeat/database/DealCorpus/checkout.txt",'w',encoding='utf-8') as f:

        f.write(outreslut)

    print(outreslut)

其运行结果如下：

6 PHP调用Python查重系统

1 php调用主要是$program变量下的语句，原理是：

python.exe的绝对路径，空格，调用py的主文件绝对路径，空格，参数1，空格，参数2

2 py文件通过sys相关参数进行接收，sys.argv[0]是py文本名，所以1-n对应你传入的参数如下：

# subject = sys.argv[1]
# summary = sys.argv[2]

3 exec（$program，$result，$N）其执行py程序并返回一条字符串，返回结果保存在$result中。$N代表执行是否成功，成功返回1

4 shell_exec($program) 返回py文件所有语句的输出

5 php与py之间存在乱码问题，可以通过mb_convert_encoding ($output,"UTF-8", "GBK")解决

<?php

    $name=mb_convert_encoding($_POST['projectname'], "GBK","UTF-8");

    $sumb=mb_convert_encoding($_POST['projectsumb'], "GBK","UTF-8");

    $program="D:/Users/Administrator/Anaconda3/python E:/pythonSource/CheckArticle/CheckRepeat/checkIndex.py ".$name." ".$sumb.""; #注意使用绝对路径.$name."".$sumb

    $output = nl2br(shell_exec($program));

    // $program1="D:/Users/Administrator/Anaconda3/python ../CheckRepeat/test.py ".$name." ".$sumb.""; #注意使用绝对路径.$name."".$sumb

    // $result1 = shell_exec($program1);

    echo mb_convert_encoding ($output,"UTF-8", "GBK");

    // if ($output!=null){

    //     print_r(nl2br(file_get_contents('../CheckRepeat/database/DealCorpus/checkout.txt')));

    // }

?>

7 参考文献：

[1] TF-IDF与余弦相似性的应用：http://www.ruanyifeng.com/blog/2013/03/tf-idf.html
[2] 海量数据相似度计算之simhash短文本查找:http://www.lanceyan.com/tag/simhash
[3] 用TF特征向量和simhash指纹计算中文文本的相似度:https://github.com/zyymax/text-similarity
[4] gensim文档相似度判断:http://kekefund.com/2016/05/27/gensim-similarity/
[5] python文本相似度计算:http://www.jianshu.com/p/edf666d3995f
[6] 如何计算两个文档的相似度:https://flystarhe.github.io/2016/08/30/document-similarity/
[7] gensim文档相似度判断:http://kekefund.com/2016/05/27/gensim-similarity/

【NLP】Python实例：基于文本相似度对申报项目进行查重设计的更多相关文章

NLP（九）文本相似度问题
多个维度判别文本之间相似度情感维度 Sentiment/Emotion 感官维度 Sense 特定词的出现词频 TF 逆文本频率 IDF 构建N个M维向量,N是文档总数,M是所有文档的去重词汇量 ...
Python实例---基于页面的后台管理[简单版]
后台管理菜单 + 母板[css/content/js] 向后台提交数据[2种]: 1. 模态对话框(数据少操作,且Js复杂): form表单 :优点:简单,前端提交后后台处 ...
python实例编写（5）--异常处理，截图，用例设计
一.python的异常处理异常抛出处理机制: 1.若在运行时发生异常,解释器会查找相应的处理语句(handler) 2.若在当前函数无法找到,就将异常传给上层的调用函数,看是否能处理 3.如果在最外 ...
自然语言推断(NLI)、文本相似度相关开源项目推荐(Pytorch 实现)
Awesome-Repositories-for-NLI-and-Semantic-Similarity mainly record pytorch implementations for NLI a ...
【NLP】Python实例：申报项目查重系统设计与实现
Python实例:申报项目查重系统设计与实现作者:白宁超 2017年5月18日17:51:37 摘要:关于查重系统很多人并不陌生,无论本科还是硕博毕业都不可避免涉及论文查重问题,这也对学术不正之风起 ...
python 手把手教你基于搜索引擎实现文章查重
前言文章抄袭在互联网中普遍存在,很多博主都收受其烦.近几年随着互联网的发展,抄袭等不道德行为在互联网上愈演愈烈,甚至复制.黏贴后发布标原创屡见不鲜,部分抄袭后的文章甚至标记了一些联系方式从而使读者获 ...
基于python语言使用余弦相似性算法进行文本相似度分析
编写此脚本的目的: 本人从事软件测试工作,近两年发现项目成员总会提出一些内容相似的问题,导致开发抱怨.一开始想搜索一下是否有此类工具能支持查重的工作,但并没找到,因此写了这个工具.通过从纸上谈兵到着手 ...
NLP点滴——文本相似度
[TOC] 前言在自然语言处理过程中,经常会涉及到如何度量两个文本之间的相似性,我们都知道文本是一种高维的语义空间,如何对其进行抽象分解,从而能够站在数学角度去量化其相似性.而有了文本之间相似性的度 ...
从0到1，了解NLP中的文本相似度
本文由云+社区发表作者:netkiddy 导语 AI在2018年应该是互联网界最火的名词,没有之一.时间来到了9102年,也是项目相关,涉及到了一些AI写作相关的功能,为客户生成一些素材文章.但是, ...

随机推荐

String中根据,(逗号)进行分割
package zhengze; public class StringTest07 { public static void main(String[] args) { String s = &qu ...
【C++ Primer | 19】嵌套类、局部类
嵌套类 #include <iostream> using namespace std; class c1 { public: int a; void foo(); class c2 { ...
Android使用帧动画内存溢出解决方法
Android使用帧动画内存溢出解决方法https://blog.csdn.net/daitu_liang/article/details/52336015https://blog.csdn.net/ ...
C# 关键字const与readonly的区别
尽管你写了很多年的C#的代码,但是可能当别人问到你const与readonly的区别时候,还是会小小的愣一会吧~ 笔者也是在看欧立奇版的<.Net 程序员面试宝典>的时候,才发现自己长久以 ...
【Java】剑指offer(20) 表示数值的字符串
本文参考自<剑指offer>一书,代码采用Java语言. 更多:<剑指Offer>Java实现合集题目请实现一个函数用来判断字符串是否表示数值(包括整数和小数).例如, ...
Flutter中打造多行列列表GridView组件的使用
GridView组件.一个可滚动的二维空间数组. 在使用无限加载滚动列表的时候,最先使用的还是ListView组件.但若是要一行显示2列或者更多列的滚动列表,GridView组件更为方便.如下在向服 ...
Selenium3 + Python3自动化测试系列二——selenium元素定位
一.selenium元素定位 Selenium对网页的控制是基于各种前端元素的,在使用过程中,对于元素的定位是基础,只有准去抓取到对应元素才能进行后续的自动化控制,我在这里将对selenium8种元 ...
使用js在浏览器中禁止右键、审查元素、复制功能
//禁止右键 document.oncontextmenu = function () { return false } //禁止f12 document.onkeydown = function(e ...
BufferedReader的小例子
注意: BufferedReader只能接受字符流的缓冲区,因为每一个中文需要占据两个字节,所以需要将System.in这个字节输入流变为字符输入流,采用: BufferedReader buf = ...
网页图表Highcharts实践教程之认识Highcharts
网页图表Highcharts实践教程之认识Highcharts 认识Highcharts Highcharts是国际知名的一款图表插件.它完全使用Javascript编写实现.其结构清晰,使用简单.开 ...

【NLP】Python实例：基于文本相似度对申报项目进行查重设计