简介

WordNet::Similarity是一个Perl实现的软件包,可以用来计算两个概念(或者word sense)之间的语义相似度,它提供了六种计算相似度和三种计算概念之间关联度的方法,所有的这些方法都是基于WordNet这个词汇数据库。

依附

  • WordNet
  • Digest-SHA1
  • WordNet::QueryData
  • Text-Similarity

下载位置

安装

WordNet

1.  sudo apt-get install tcl8.4-dev
sudo apt-get install tk8.4-dev

2.  ./configure

3.  sudo make

如果出现问题:checking for gawk... no

解决:sudo apt-get install gawk

4.  sudo make install

5.    设置变量

sudo vim /etc/profile

添加:export PATH=$PATH:/usr/local/Wordnet-3.0/bin

退出编译:source /etc/profile

Digest-SHA1

进入相应目录cd path

依次运行如下命令

perl Makefile.PL
make
make test
sudo make install

其他

WordNet::QueryData,Text-Similarity,WordNet::Similarity的安装与Digest-SHA1完全一样

使用

 NLTK之WordNet接口

参照http://www.cnblogs.com/kaituorensheng/p/3149095.html

 

命令行

$ similarity.pl --type WordNet::Similarity::lin car#n#2 bus#n#1

car#n#2 bus#n#1 0.530371390319309 # railway car versus motor coach

$similarity.pl --type WordNet::Similarity::lin car#n bus#n

car#n#1  bus#n#1  0.603649218135011  #返回相似值最高的匹配对

$similarity.pl --type WordNet::Similarity::lin --allsensescar#n bus#n

car#n  bus#n  (all senses)

car#n#1  bus#n#1  0.603649218135011

car#n#2  bus#n#1  0.533827219913664

car#n#1  bus#n#4  0

car#n#3  bus#n#3  0

car#n#4  bus#n#1  0

car#n#2  bus#n#4  0

car#n#5  bus#n#1  0

car#n#5  bus#n#4  0

car#n#3  bus#n#4  0

car#n#4  bus#n#2  0

car#n#5  bus#n#3  0

car#n#3  bus#n#2  0

car#n#4  bus#n#4  0

car#n#2  bus#n#2  0

car#n#5  bus#n#2  0

car#n#1  bus#n#3  0

car#n#3  bus#n#1  0

car#n#2  bus#n#3  0

car#n#1  bus#n#2  0

car#n#4  bus#n#3  0  #加上参数—allsenses 返回所有的匹配

 

脚本

#/usr/bin/perl -w
use WordNet::QueryData;
use WordNet::Similarity::lin; $wnObj = new WordNet::QueryData;
$linObj = new WordNet::Similarity::lin($wnObj);
$value = $linObj -> getRelatedness('car#n#1', 'bus#n#1');
print $value

依靠路径长度的:lch, wup, path

依靠路径长度和最小公共包含(LCS):res, lin, jcn

相似度和关联度的介绍可以参考翻译论文:http://hi.baidu.com/dailyye/item/a2c7fb61ae6ae22769105b18

CPAN地址:http://search.cpan.org/dist/WordNet-Similarity/utils/similarity.pl

WordNet::Similarity的安装和使用的更多相关文章

  1. 基于WordNet的英文同义词、近义词相似度评估及代码实现

    源码地址:https://github.com/XBWer/WordSimilarity 1.确定要解决的问题及意义 在基于代码片段的分类过程中,由于程序员对数据变量名的选取可能具有一定的规范性,在某 ...

  2. nltk安装及wordnet使用详解

    环境:python2.7.10 首先安装pip 在https://pip.pypa.io/en/stable/installing/ 下载get-pip.py 然后执行 python get-pip. ...

  3. 自然语言处理--nltk安装及wordnet使用详解

    环境:python2.7.10 首先安装pip 在https://pip.pypa.io/en/stable/installing/ 下载get-pip.py 然后执行 python get-pip. ...

  4. 自然语言20.1 WordNet介绍和使用 _

    http://blog.csdn.net/ictextr9/article/details/4008703 Wordnet是一个词典.每个词语(word)可能有多个不同的语义,对应不同的sense.而 ...

  5. Elasticsearch中的相似度模型(原文:Similarity in Elasticsearch)

    原文链接:https://www.elastic.co/blog/found-similarity-in-elasticsearch 原文 By Konrad Beiske 翻译 By 高家宝 译者按 ...

  6. Centos 7.3 编译 & 安装 & 测试 facebook faiss

    许多 AI 系统训练完毕,正式上线时的基本操作往往可以抽象为:在高维向量空间中,给定一个向量,寻找与之最相近的 k 个向量.当向量数目异常巨大时,如何快速地执行这一基本操作,便成为 AI 系统在工程应 ...

  7. BinDiff安装使用教程

    一.说明 大概一两年前在<漏洞战争:软件漏洞分析精要>听到bindiff(和补丁比较法),但一直都没去使用.前两天再回头看书感觉需要使用一翻,整个过程下来还是遇到了一些问题,值得记录一番. ...

  8. NLTK之WordNet 接口【转】

    转自:http://www.cnblogs.com/kaituorensheng/p/3149095.html   WordNet是面向语义的英语词典,类似于传统字典.它是NLTK语料库的一部分,可以 ...

  9. NLTK之WordNet 接口

    WordNet是面向语义的英语词典,类似于传统字典.它是NLTK语料库的一部分,可以被这样调用: 更简洁的写法: 1.单词 查看一个单词的同义词集用synsets(); 它有一个参数pos,可以指定查 ...

随机推荐

  1. 微信小程序web-view之动态加载html页面

    官方推出的web-view方便了很多开发人员. 我们在做的时候,经常会想到写一个小程序的page然后通过动态加载web-view的形式来完成其他功能页面的开发. 之前研究web-view的时候发现网上 ...

  2. Maven新建项目产生Could not calculate build plan: Plugin org.apache.maven.plugins:maven-resource

    需要 打开并修改conf/settings.xml,添加如下内容: <!-- 设置本地仓库位置--> <localRepository>F:\maven\repository& ...

  3. MongoDB .Net Driver(C#驱动) - 内嵌数组/嵌入文档的操作(增加、删除、修改、查询(Linq 分页))

    目录 一.前言 1. 运行环境 二.前期准备工作 1. 创建 MongoDBContext MongoDb操作上下文类 2.创建测试类 3.创建测试代码 三.内嵌数组增加元素操作 1.Update.S ...

  4. 瞄一眼,带你走进SparkSQL的世界

    本文由  网易云发布. 作者:范欣欣(本篇文章仅限知乎内部分享,如需转载,请取得作者同意授权.) 最近想来,大数据相关技术与传统型数据库技术很多都是相互融合.互相借鉴的.传统型数据库强势在于其久经考验 ...

  5. python网络编程--线程的方法,线程池

    一.线程的其他方法(Thread其他属性和方法) ident() 获取线程id Thread实例对象的方法 isAlive() 设置线程名 getName() 返回线程名 setName() 设置线程 ...

  6. 【OCP认证12c题库】CUUG 071题库考试原题及答案(28)

    28.choose the best answer Evaluate the following SQL statement: SQL> SELECT promo_id, promo_categ ...

  7. “全栈2019”Java多线程第十章:Thread.State线程状态详解

    难度 初级 学习时间 10分钟 适合人群 零基础 开发语言 Java 开发环境 JDK v11 IntelliJ IDEA v2018.3 文章原文链接 "全栈2019"Java多 ...

  8. “全栈2019”Java异常第十五章:异常链详解

    难度 初级 学习时间 10分钟 适合人群 零基础 开发语言 Java 开发环境 JDK v11 IntelliJ IDEA v2018.3 文章原文链接 "全栈2019"Java异 ...

  9. python --爬虫基础 --爬猫眼top 100 使用 requests 库的基本操作

    import requests import re import json import time def get_page(url): # 获取页数 headers = { 'User-Agent' ...

  10. trunc 函数用法

    转载至:http://blog.csdn.net/aqszhuaihuai/article/details/6303686 1.trunc用于日期,可精确到年,月和日. select trunc(sy ...