十一之前一直在做“电力领域的词典构建”任务,今天也去聆听了前五支队伍的报告,现结合这段时间来的项目经历,写一下自己的若干心得。

电力领域的词典构建——方法1(非监督学习)

在电力领域词典构建心得1.0中介绍到我们的非监督方法思路主要是:爬取CNKI中关于电力的文献的摘要并提取每一个摘要的关键词,然后利用比赛的原语料中词频的分布筛选排序关键词并得出最后的“电力方面的词典”(此版本前10000词的正确率是0.438)。之后我的优化思路是利用基于比赛语料训练好的词向量进一步筛选之前得出的“电力方面的词典”。但是,最后的结果收效甚微。今天的五支参赛队伍中也有一只队伍使用的方法是“种子词+Word2Vec”,联想到自己方法,我觉得我的非监督方法在想法和方法上有错误。思路上的错误是,在发现“电力方面的词典”的覆盖率只有50%(整个“电力方面的词典”)的情况下,没有积极拓展词典的覆盖率而是采用“Word2Vec”提纯的方法。是我错估了这个方法的效果,因为我做的最好效果是取出前1万词中6%不是电力领域的词,并把后1万种中6%的正确词给提取来放到前一万个中!不得不说这对算法的性能要求很高,确实不是首先的优化方法。同时,我当时只是想尽可能的排除前10000个词中的“非电力词”而没有提升后10000个词中的电力词,这样即使做的再好也只是把前43.8%的词集中到一起而对后6%的词的选拔没有任何帮助!另外在具体的操作过程中,对于前10000个词的筛选,我的种子词是前10000个词本身。可是我的种子词只有43.8%是真正的电力领域的啊!这就是说我的种子词有57%的词是非电力词,43%的词是电力的词而我要用它选出电力词的思路本身就是错的!

基于以上的思路,采用Word2Vec优化的方法出来的结果是不好的!

电力领域的词典构建——方法2(监督学习)

方法2的思路是采用是自动标注数据集加LSTM+crf的方法。其中,我们的语料采用的词典是由方法1得出的。可是不幸的是,我们的词典只覆盖了50%(2万大小)的语料。这样即使我们训练出模型后,我们的结果一定一定会差于43%(前10000词)。但是,我们却没有添加网上的电力词词典直接回标语料(失败!!!)!其次,在使用Bi-LSTM+crf训练语料的时候我们一开始使用的是基于词的标记。这种方法在训练的过程中相对而言没有什么大的问题,但是在标记比赛所给的10000篇语料的时候还是存在很大问题的。主要是分词的错误会减少语料中电力词汇的识别性能且常用分词工具在专业词的切分上效果通常更差!

通过这次比赛感觉,自己在方法和思路上有很多欠缺,希望之后的自己可以越来越好!

“AIIA”杯-国家电网-电力专业领域词汇挖掘的更多相关文章

  1. Python爬虫与一汽项目【一】爬取中海油,邮政,国家电网问题总结

    项目介绍 中国海洋石油是爬取的第一个企业,之后依次爬取了,国家电网,中国邮政,这三家公司的源码并没有多大难度, 采购信息地址: 国家电网电子商务平台 http://ecp.sgcc.com.cn/pr ...

  2. [转]论基于DSSA的软件架构设计与应用

    [摘要]   去年三月份,我所在的公司启动国网电力用户用电信息采集系统项目,我被任命为项目负责人.国网电力用户用电信息采集系统是国家电网公司坚强智能电网建设的一部分.由于公司之前为南网(主要是广东省) ...

  3. 基于HTML5技术的电力3D监控应用(一)

    最近参与了国网计量中心的四线一库自动化检定系统的项目开发,团队封闭开发了大半年终于快到尾声了,整个项目过程实在非常累,我的mentor杨杨老师是这样描述的:累的不想说话了.我估计是我太渴望新知识,整天 ...

  4. 泛在电力物联网建设大纲ppt

    “三型两网”,国家电网在2019年提出的新战略目标.其中,“两网”分别代表着,“坚强智能电网”和“泛在电力物联网”.“坚强智能电网”的概念已经随着特高压的持续建设而被大家渐渐熟知,那么“泛在电力物联网 ...

  5. 通信技术以及5G和AI保障电网安全与网络安全

    摘 要:电网安全是电力的基础,随着智能电网的快速发展,越来越多的ICT信息通信技术被应用到电力网络.本文分析了历史上一些重大电网安全与网络安全事故,介绍了电网安全与网络安全.通信技术与电网安全的关系以 ...

  6. 数据库周刊30丨数据安全法草案将亮相;2020数据库产业报告;云南电网上线达梦;达梦7误删Redo Log;Oracle存储过程性能瓶颈;易鲸捷实践案例……

    摘要:墨天轮数据库周刊第30期发布啦,每周1次推送本周数据库相关热门资讯.精选文章.干货文档. 热门资讯 1.数据安全法草案即将亮相:将确立数据分级分类管理.应急处置制度[摘要]数据安全法草案即将在本 ...

  7. 这十大MCU厂商瓜分着中国市场

    MCU(Micro Control Unit)中文名称为微控制单元,又称单片微型计算机(Single Chip Microcomputer)或者单片机,是指随着大规模集成电路的出现及其发展,将计算机的 ...

  8. LTE230方案示意图

    普天LTE230产品及解决方案   责任编辑:耿鹏飞 2016.12.26 16:42 来源:通信世界网 LTE230 普天   一.LTE230系统特点 (一)系统背景 随着社会的快速发展,能源危机 ...

  9. ID

    id 编辑 身份标识号.账号.唯一编码.专属号码.工业设计.国家简称.法律词汇.通用账户.译码器.软件公司等,各类专有词汇缩写. 身份证,身份识别,是一种身份证明. 中文名 身份证,帐号,工业设计,通 ...

随机推荐

  1. CSS基础-如何用border写三角形?

    1.常用的border的单值属性(border指的是边框.) /*边框样式属性*/ border-style: solid; /*边框颜色*/ border-color: #06a43a; /*边框宽 ...

  2. Python之网路编程之死锁,递归锁,信号量,Event事件,线程Queue

    一.死锁现象与递归锁 进程也是有死锁的 所谓死锁: 是指两个或两个以上的进程或线程在执行过程中,因争夺资源而造成的一种互相等待的现象,若无外力作用, 它们都将无法推进下去.此时称系统处于死锁状态或系统 ...

  3. JVM垃圾回收之CMS收集器

    从前文JVM垃圾回收几种常见算法和常见收集器我们知道,CMS是老年代垃圾收集器.CMS 收集器主要关注系统停顿时间.CMS 是 Concurrent Mark Sweep 的缩写,意为并发标记清除,从 ...

  4. Python:查看解释器的位置

    以前学Python时,有时出现这样的情况:明明记得装了scipy包,怎么打import scipy报错说我没这个包? 问题出在,你的电脑上安装了不止一个Python... 而每安装一个包,仅仅在这个P ...

  5. C++STL中的unique函数

    头文件:#include<iostream> 函数原型:iterator unique(iterator it_1,iterator it_2); 作用:元素去重,即”删除”序列中所有相邻 ...

  6. event.stopPropagation()和event.preventDefault(),return false的区别

    我写公司的官网遇到一个问题,轮播图的上一层有一块内容,用鼠标拖动那块内容的时候下一层的轮播图也会跟着拖动,而上面的那层的内容是不会动的,我想这就是冒泡事件在作祟了吧 跟冒泡事件相关的,我想到三个: 1 ...

  7. php GD库简单使用和封装

    GD库创建图像步骤 <?php //1.创建画布 $width = 300; $height= 200; $image=imagecreatetruecolor($width,$height); ...

  8. java分页原理及分类

    1.使用List接口最终subList()方法实现分页 2.直接使用数据库SQL语句实现分页 3.使用hibernate等框架实现跨数据库的分页 mybatis是面向SQL的,本质上和第二种分页方式相 ...

  9. 一、基础篇--1.1Java基础-抽象类和接口的区别

    抽象类和接口的区别 抽象类和接口在设计层面的区别主要体现在:接口是对动作的抽象,抽象类是对根源.类的抽象.抽象类表示的是,这个对象是什么,接口表示的是,这个对象可以做什么. 比如,男人.女人是人,人是 ...

  10. leetcode-mid-backtracking -46. Permutations-NO

    mycode 没有通过,其实只需要把temp.append改为temp+[nums[i]]即可 def permute(nums): def dfs(res,nums,temp): print(num ...