“AIIA”杯-国家电网-电力专业领域词汇挖掘
十一之前一直在做“电力领域的词典构建”任务,今天也去聆听了前五支队伍的报告,现结合这段时间来的项目经历,写一下自己的若干心得。
电力领域的词典构建——方法1(非监督学习)
在电力领域词典构建心得1.0中介绍到我们的非监督方法思路主要是:爬取CNKI中关于电力的文献的摘要并提取每一个摘要的关键词,然后利用比赛的原语料中词频的分布筛选排序关键词并得出最后的“电力方面的词典”(此版本前10000词的正确率是0.438)。之后我的优化思路是利用基于比赛语料训练好的词向量进一步筛选之前得出的“电力方面的词典”。但是,最后的结果收效甚微。今天的五支参赛队伍中也有一只队伍使用的方法是“种子词+Word2Vec”,联想到自己方法,我觉得我的非监督方法在想法和方法上有错误。思路上的错误是,在发现“电力方面的词典”的覆盖率只有50%(整个“电力方面的词典”)的情况下,没有积极拓展词典的覆盖率而是采用“Word2Vec”提纯的方法。是我错估了这个方法的效果,因为我做的最好效果是取出前1万词中6%不是电力领域的词,并把后1万种中6%的正确词给提取来放到前一万个中!不得不说这对算法的性能要求很高,确实不是首先的优化方法。同时,我当时只是想尽可能的排除前10000个词中的“非电力词”而没有提升后10000个词中的电力词,这样即使做的再好也只是把前43.8%的词集中到一起而对后6%的词的选拔没有任何帮助!另外在具体的操作过程中,对于前10000个词的筛选,我的种子词是前10000个词本身。可是我的种子词只有43.8%是真正的电力领域的啊!这就是说我的种子词有57%的词是非电力词,43%的词是电力的词而我要用它选出电力词的思路本身就是错的!
基于以上的思路,采用Word2Vec优化的方法出来的结果是不好的!
电力领域的词典构建——方法2(监督学习)
方法2的思路是采用是自动标注数据集加LSTM+crf的方法。其中,我们的语料采用的词典是由方法1得出的。可是不幸的是,我们的词典只覆盖了50%(2万大小)的语料。这样即使我们训练出模型后,我们的结果一定一定会差于43%(前10000词)。但是,我们却没有添加网上的电力词词典直接回标语料(失败!!!)!其次,在使用Bi-LSTM+crf训练语料的时候我们一开始使用的是基于词的标记。这种方法在训练的过程中相对而言没有什么大的问题,但是在标记比赛所给的10000篇语料的时候还是存在很大问题的。主要是分词的错误会减少语料中电力词汇的识别性能且常用分词工具在专业词的切分上效果通常更差!
通过这次比赛感觉,自己在方法和思路上有很多欠缺,希望之后的自己可以越来越好!
“AIIA”杯-国家电网-电力专业领域词汇挖掘的更多相关文章
- Python爬虫与一汽项目【一】爬取中海油,邮政,国家电网问题总结
项目介绍 中国海洋石油是爬取的第一个企业,之后依次爬取了,国家电网,中国邮政,这三家公司的源码并没有多大难度, 采购信息地址: 国家电网电子商务平台 http://ecp.sgcc.com.cn/pr ...
- [转]论基于DSSA的软件架构设计与应用
[摘要] 去年三月份,我所在的公司启动国网电力用户用电信息采集系统项目,我被任命为项目负责人.国网电力用户用电信息采集系统是国家电网公司坚强智能电网建设的一部分.由于公司之前为南网(主要是广东省) ...
- 基于HTML5技术的电力3D监控应用(一)
最近参与了国网计量中心的四线一库自动化检定系统的项目开发,团队封闭开发了大半年终于快到尾声了,整个项目过程实在非常累,我的mentor杨杨老师是这样描述的:累的不想说话了.我估计是我太渴望新知识,整天 ...
- 泛在电力物联网建设大纲ppt
“三型两网”,国家电网在2019年提出的新战略目标.其中,“两网”分别代表着,“坚强智能电网”和“泛在电力物联网”.“坚强智能电网”的概念已经随着特高压的持续建设而被大家渐渐熟知,那么“泛在电力物联网 ...
- 通信技术以及5G和AI保障电网安全与网络安全
摘 要:电网安全是电力的基础,随着智能电网的快速发展,越来越多的ICT信息通信技术被应用到电力网络.本文分析了历史上一些重大电网安全与网络安全事故,介绍了电网安全与网络安全.通信技术与电网安全的关系以 ...
- 数据库周刊30丨数据安全法草案将亮相;2020数据库产业报告;云南电网上线达梦;达梦7误删Redo Log;Oracle存储过程性能瓶颈;易鲸捷实践案例……
摘要:墨天轮数据库周刊第30期发布啦,每周1次推送本周数据库相关热门资讯.精选文章.干货文档. 热门资讯 1.数据安全法草案即将亮相:将确立数据分级分类管理.应急处置制度[摘要]数据安全法草案即将在本 ...
- 这十大MCU厂商瓜分着中国市场
MCU(Micro Control Unit)中文名称为微控制单元,又称单片微型计算机(Single Chip Microcomputer)或者单片机,是指随着大规模集成电路的出现及其发展,将计算机的 ...
- LTE230方案示意图
普天LTE230产品及解决方案 责任编辑:耿鹏飞 2016.12.26 16:42 来源:通信世界网 LTE230 普天 一.LTE230系统特点 (一)系统背景 随着社会的快速发展,能源危机 ...
- ID
id 编辑 身份标识号.账号.唯一编码.专属号码.工业设计.国家简称.法律词汇.通用账户.译码器.软件公司等,各类专有词汇缩写. 身份证,身份识别,是一种身份证明. 中文名 身份证,帐号,工业设计,通 ...
随机推荐
- java 乱码
https://blog.csdn.net/qq_27545063/article/details/81138722 https://blog.csdn.net/dachaoa/article/det ...
- Python之面向对象之反射、内置方法
一.静态方法(staticmethod)和类方法(classmethod) 类方法:有个默认参数cls,并且可以直接用类名去调用,可以与类属性交互(也就是可以使用类属性) 静态方法:让类里的方法直接被 ...
- [Usaco2007 Jan]Balanced Lineup排队
[Usaco2007 Jan]Balanced Lineup排队 Time Limit: 5 Sec Memory Limit: 64 MB Submit: 2333 Solved: 1424 Des ...
- scrapy项目1:爬取某培训机构老师信息(spider类)
1.scrapy爬虫的流程,可简单该括为以下4步: 1).新建项目---->scrapy startproject 项目名称(例如:myspider) >>scrapy.cfg为项目 ...
- jenkins启动tomcat失败的解决方法
在网上看了都说是加BUILDID, 但是我加了之后,还是启动不成功. 执行了下面2个步骤: 1.在远程服务器的启动脚本里,用nohup来运行启动命令 nohup ./*.start.${prg}.sh ...
- Oracle-SQL程序优化4
从事一年DBA工作,经验尚浅,但是遇到问题总还是能够解决,今天就谈下我遇到的一个比较奇葩的问题. 运维人员告知我下午过后ETL一直卡住没有继续,那时我以为又是什么兼容性问题引起的,就重跑一下ETL,谁 ...
- Spring Data JPA学习笔记
下面先来介绍一下JPA中一些常用的查询操作: //And --- 等价于 SQL 中的 and 关键字,比如 findByHeightAndSex(int height,char sex): publ ...
- 梯度、Hessian矩阵、平面方程的法线以及函数导数的含义
本文转载自: Xianling Mao的专栏 =========================================================================== 想 ...
- 使用jdk自带的visualVM监控远程监控was
1.登录was控制台https://172.16.87.221:9043/ibm/console/unsecureLogon.jsp服务器--服务器类型--Java 和进程管理---进程定义---Ja ...
- SpringMvc配置自定义视图
1.在dispatcherServlet-servlet.xml配置自定义视图 <!-- 配置视图 BeanNameViewResolver 解析器: 使用视图的名字来解析视图 --> & ...