虽然说是大作业,也做了好几天,但是完全没有什么实际价值...就是把现有的东西东拼西凑一下,发现跑的特别慢还搞了个多核

写这篇blog纯属是我吃饱了没事干,记录一下装env的蛋疼

首先我们是在python下进行的,虽然python本身有点慢,而且多线程8太行,但是架不住他在处理dictionary的时候简单

同时我们需要的库有lucene(建立索引),pyltp(依存句法粉细),wx(画一个很丑的GUI界面,作业要求的)

我惊奇的发现,只有python3.6才能满足这三个库同时存在...

配置环境:我在阿里云上用竞价方式买了一个计算性ecs.ic5.3xlarge,12核12GB,虽然看起来很贵,但是实际竞价的话一天也就10多块钱(结果硬盘比机器贵...)

首先在tuna源上下载anaconda3-5.2,bash安装

更新pip以后就可以直接pip install pyltp了,但是pyltp还有模型数据要单独下载,百度一下就好了

接下来下载pylucene-8.1.1,解压以后按照网上的步骤安装到python里面

最后 conda install wxpython=4.0.4=py36hc99224d_0 安装wxpython,不指定build的话anaconda自动给升级成python3.7就爆了....

到此环境终于搞定了

首先word collocation,也就是常用词搭配,可以用一句话来解释:“元芳 你 怎么 看”

显然“元芳”,”你“,“怎”么都是修饰看的,也就是说虽然”元芳“和“你”在同一句话里面,而且甚至连在一起,但是他们之间其实是没有什么“搭配”的关系的

这时候可以用到一个叫做依存句法分析的东西,也就是可以把一句话里每个词修饰的到底是另外哪一个词给找出来,这样我们就可以得到一句话里的所有“词语搭配”了

这个东西并不需要我来写,使用哈工大写的极烂但是仅此一家的LTP工具可以简单地分析一下,但是有一说一,确实很慢

现在查询一个词“服务”和它搭配最多的词,我们只要找到所有包含“服务”的句子,然后把这些句子给用ltp分析一下,这样就能找到所有修饰“服务”的词了

我们再把它们统计一下个数,出现越多的说明这种搭配越常见,于是就完事了

但是我们发现实际上运算速度非常的慢,因为需要在线依存句法分析,一分钟大约只能处理10000条句子

所以我又使用了python里的mulitprocessing,用满了所有的12个核心,这样子速度大概提升了10倍左右(因为有大量内存拷贝,占用了很多时间)

同时因为我要在两个process里传递dictionary,然而我经过查找发现mulitprocessing.Queue的大小只有65536Byte(大概),所以我只能传递词典的前150个词左右回去,剩下的词出现次数也并不多,所以去掉了也没有关系,最终结果如下:

暂时先写到这里,有空再补

word collocations中文版(信息检索)的更多相关文章

  1. word双栏排版,最后一页由于分节符造成最后一页是空白页,删除分节符双栏就变成了单栏

    遇到这个问题时,我们把心思都花在了如何“删除”这个空白页. 但是最有效的办法不是“删除”,而是(以word2007为例): Word 2007中文版: 鼠标放在最后一页,点击页面布局①,选择页面布局右 ...

  2. <Python Text Processing with NLTK 2.0 Cookbook>代码笔记

    如下是<Python Text Processing with NLTK 2.0 Cookbook>一书部分章节的代码笔记. Tokenizing text into sentences ...

  3. Python爬虫抓取 python tutorial中文版,保存为word

    看到了中文版的python tutorial,发现是网页版的,刚好最近在学习爬虫,想着不如抓取到本地 首先是网页的内容 查看网页源码后发现可以使用BeautifulSoup来获取文档的标题和内容,并保 ...

  4. Python 资源大全中文版

    Python 资源大全中文版 我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列的资源整理.awesome-python 是 vinta 发起维护的 Python 资源列 ...

  5. JavaScript资源大全中文版(Awesome最新版--转载自张果老师博客)

    JavaScript资源大全中文版(Awesome最新版)   目录 前端MVC 框架和库 包管理器 加载器 打包工具 测试框架 框架 断言 覆盖率 运行器 QA 工具 基于 Node 的 CMS 框 ...

  6. Java资源大全中文版(Awesome最新版)(转载)

    原文地址:http://www.cnblogs.com/best/p/5876559.html 目录 业务流程管理套件 字节码操作 集群管理 代码分析 编译器生成工具 构建工具 外部配置工具 约束满足 ...

  7. 安装部署完office web apps 后,无法浏览Word

    安装部署完office web apps 后,在sharepoint 2010浏览器中浏览Word提示:“由于出现意外错误,Word Web App 无法打开此 文档 进行查看. 要查看此 文档,请在 ...

  8. [No00000C]Word快捷键大全 Word2013/2010/2007/2003常用快捷键大全

    Word对于我们办公来说,是不可缺少的办公软件,因为没有它我们可能无法进行许多任务.所以现在的文员和办公室工作的人,最基础的就是会熟悉的使用Office办公软件.在此,为提高大家Word使用水平,特为 ...

  9. Github优秀java项目集合(中文版) - 涉及java所有的知识体系

    Java资源大全中文版 我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列的资源整理.awesome-java 就是 akullpp 发起维护的 Java 资源列表,内容 ...

随机推荐

  1. LOJ2482 CEOI2017 Mousetrap 二分答案、树形DP

    传送门 表示想不到二分答案qwq 将树看作以陷阱为根.先考虑陷阱和起始点相邻的情况,此时老鼠一定会往下走,而如果管理者此时不做操作,那么一定会选择让操作次数变得最大的一棵子树.设\(f_i\)表示当前 ...

  2. 在windows中使用PuTTy上传下载文件和目录

    打开windows的cmd,使用cd命令切换到PuTTy安装目录 C:\Users\NUC>cd C:\Program Files\PuTTY 在cmd中使用pscp命令上传下载文件 windo ...

  3. (一) CentOS 7 进行 Docker CE 安装

    参考并感谢 官方文档: https://docs.docker.com/install/linux/docker-ce/centos/ 卸载旧版本 # 停止所有正在运行的容器 docker stop ...

  4. String 字符串的==和eqauls区别

    1.对于基本类型来说,==比较的是数据的值,equals方法也是数据的值: 对于引用类型来说,==比较的是引用的地址,equals方法比较的是对象的内容. 2.String是引用类型,用“=”创建字符 ...

  5. stack + positioned

    stack 下套container, 发现最大的显示,小的都没显示, 把所有都套个POSITIONED, 都正常显示了.

  6. php生成一维码以及保存-转载

    地址:http://www.cnblogs.com/ForEvErNoME/archive/2012/04/21/2460944.html 注释掉: //header('Content-Type: i ...

  7. Delphi - 程序运行时不显示主窗体

    // 不显示主窗体 Application.ShowMainForm := False;

  8. SIM800A 建立网络

    SIM800A是一款两频GSM/GPRS模块,为SMT封装.其性能稳定,外观小巧,性价比高 可以低功耗实现语音.SMS和数据信息的传输 数据传输 GPRS class 12:最大85.6 kbps(下 ...

  9. 服务接口,选择rpc还是http?

    从通信内容/功能上看 http应用于web环境,rpc应用于分布式调度从功能上看没有太大区别,很多情况下rpc与消息中间件结合通信实现分布式调度 从用法上看两者都是c/s结构,无太大区别 从实现上看类 ...

  10. MySQL Hardware--FIO压测

    FIO参数 .txt 支持文件系统或者裸设备,-filename=/dev/sda2或-filename=/dev/sdb direct= 测试过程绕过机器自带的buffer,使测试结果更真实 rw= ...