“AIIA”杯-国家电网-电力专业领域词汇挖掘
十一之前一直在做“电力领域的词典构建”任务,今天也去聆听了前五支队伍的报告,现结合这段时间来的项目经历,写一下自己的若干心得。
电力领域的词典构建——方法1(非监督学习)
在电力领域词典构建心得1.0中介绍到我们的非监督方法思路主要是:爬取CNKI中关于电力的文献的摘要并提取每一个摘要的关键词,然后利用比赛的原语料中词频的分布筛选排序关键词并得出最后的“电力方面的词典”(此版本前10000词的正确率是0.438)。之后我的优化思路是利用基于比赛语料训练好的词向量进一步筛选之前得出的“电力方面的词典”。但是,最后的结果收效甚微。今天的五支参赛队伍中也有一只队伍使用的方法是“种子词+Word2Vec”,联想到自己方法,我觉得我的非监督方法在想法和方法上有错误。思路上的错误是,在发现“电力方面的词典”的覆盖率只有50%(整个“电力方面的词典”)的情况下,没有积极拓展词典的覆盖率而是采用“Word2Vec”提纯的方法。是我错估了这个方法的效果,因为我做的最好效果是取出前1万词中6%不是电力领域的词,并把后1万种中6%的正确词给提取来放到前一万个中!不得不说这对算法的性能要求很高,确实不是首先的优化方法。同时,我当时只是想尽可能的排除前10000个词中的“非电力词”而没有提升后10000个词中的电力词,这样即使做的再好也只是把前43.8%的词集中到一起而对后6%的词的选拔没有任何帮助!另外在具体的操作过程中,对于前10000个词的筛选,我的种子词是前10000个词本身。可是我的种子词只有43.8%是真正的电力领域的啊!这就是说我的种子词有57%的词是非电力词,43%的词是电力的词而我要用它选出电力词的思路本身就是错的!
基于以上的思路,采用Word2Vec优化的方法出来的结果是不好的!
电力领域的词典构建——方法2(监督学习)
方法2的思路是采用是自动标注数据集加LSTM+crf的方法。其中,我们的语料采用的词典是由方法1得出的。可是不幸的是,我们的词典只覆盖了50%(2万大小)的语料。这样即使我们训练出模型后,我们的结果一定一定会差于43%(前10000词)。但是,我们却没有添加网上的电力词词典直接回标语料(失败!!!)!其次,在使用Bi-LSTM+crf训练语料的时候我们一开始使用的是基于词的标记。这种方法在训练的过程中相对而言没有什么大的问题,但是在标记比赛所给的10000篇语料的时候还是存在很大问题的。主要是分词的错误会减少语料中电力词汇的识别性能且常用分词工具在专业词的切分上效果通常更差!
通过这次比赛感觉,自己在方法和思路上有很多欠缺,希望之后的自己可以越来越好!
“AIIA”杯-国家电网-电力专业领域词汇挖掘的更多相关文章
- Python爬虫与一汽项目【一】爬取中海油,邮政,国家电网问题总结
项目介绍 中国海洋石油是爬取的第一个企业,之后依次爬取了,国家电网,中国邮政,这三家公司的源码并没有多大难度, 采购信息地址: 国家电网电子商务平台 http://ecp.sgcc.com.cn/pr ...
- [转]论基于DSSA的软件架构设计与应用
[摘要] 去年三月份,我所在的公司启动国网电力用户用电信息采集系统项目,我被任命为项目负责人.国网电力用户用电信息采集系统是国家电网公司坚强智能电网建设的一部分.由于公司之前为南网(主要是广东省) ...
- 基于HTML5技术的电力3D监控应用(一)
最近参与了国网计量中心的四线一库自动化检定系统的项目开发,团队封闭开发了大半年终于快到尾声了,整个项目过程实在非常累,我的mentor杨杨老师是这样描述的:累的不想说话了.我估计是我太渴望新知识,整天 ...
- 泛在电力物联网建设大纲ppt
“三型两网”,国家电网在2019年提出的新战略目标.其中,“两网”分别代表着,“坚强智能电网”和“泛在电力物联网”.“坚强智能电网”的概念已经随着特高压的持续建设而被大家渐渐熟知,那么“泛在电力物联网 ...
- 通信技术以及5G和AI保障电网安全与网络安全
摘 要:电网安全是电力的基础,随着智能电网的快速发展,越来越多的ICT信息通信技术被应用到电力网络.本文分析了历史上一些重大电网安全与网络安全事故,介绍了电网安全与网络安全.通信技术与电网安全的关系以 ...
- 数据库周刊30丨数据安全法草案将亮相;2020数据库产业报告;云南电网上线达梦;达梦7误删Redo Log;Oracle存储过程性能瓶颈;易鲸捷实践案例……
摘要:墨天轮数据库周刊第30期发布啦,每周1次推送本周数据库相关热门资讯.精选文章.干货文档. 热门资讯 1.数据安全法草案即将亮相:将确立数据分级分类管理.应急处置制度[摘要]数据安全法草案即将在本 ...
- 这十大MCU厂商瓜分着中国市场
MCU(Micro Control Unit)中文名称为微控制单元,又称单片微型计算机(Single Chip Microcomputer)或者单片机,是指随着大规模集成电路的出现及其发展,将计算机的 ...
- LTE230方案示意图
普天LTE230产品及解决方案 责任编辑:耿鹏飞 2016.12.26 16:42 来源:通信世界网 LTE230 普天 一.LTE230系统特点 (一)系统背景 随着社会的快速发展,能源危机 ...
- ID
id 编辑 身份标识号.账号.唯一编码.专属号码.工业设计.国家简称.法律词汇.通用账户.译码器.软件公司等,各类专有词汇缩写. 身份证,身份识别,是一种身份证明. 中文名 身份证,帐号,工业设计,通 ...
随机推荐
- 用java写一个死锁
什么是死锁? 多个线程同时被阻塞,它们中的一个或者全部都在等待某个资源被释放.由于线程被无限期地阻塞,因此程序不可能正常终止. 不适当的使用“synchronized”关键词来管理线程对特定对象的访问 ...
- ZROI 19.07.31 AB班ACM
写在前面:非常感谢cjc和djh两位神仙带我,非常感谢他们给了我一次躺赢的机会. 虽然我被硬点成了代码手,但我写的基本每次都有一堆罚时.然而djh爷全部1A,tql. 题目按照一血时间升序,大致符合难 ...
- Eclipse中对一个项目进行复制粘贴为一个新项目
1:对目标项目执行右键,选择“Copy”,然后在空白处右键,选择“Paste”结果如下图: 2:右键新项目,点击Properties, 3:打开Navigator视图 4:打开.settings文件夹 ...
- MySQL事务以及特征
1.什么是事务? 在现实生活中,我们往往会进行转账操作.转账可以分为两部分完成,转入和转出,只要两部分都完成了才算转账完成.在数据库中,这个过程是由两条sql语句来完成的, 如果任意一方的语句没有执行 ...
- 【NOIP2014模拟8.24】小X 的道路修建
题目 因为一场不小的地震,Y 省n 个城市之间的道路都损坏掉了,省长希望小X 将城市之间的道路重修一遍. 很多城市之间的地基都被地震破坏导致不能修路了,因此可供修建的道路只有m 条.因为施工队伍有限, ...
- kafka——分布式的消息队列系统
总听公司人说kafka kafka... 所以这玩意到底是个啥? 好像是一个高级版的消息队列,什么高吞吐量,数据持久,消息均衡,emmm https://blog.csdn.net/nawenqian ...
- tf.concat( )和tf.stack( )
相同点:都是组合重构数据. 不同点:concat()不改变维数,而stack改变了维数(待定!!!) tf.concat是连接两个矩阵的操作,请注意API版本更改问题,相应参数也发生改变,具体查看AP ...
- linux-ssh加密与https安全-9
非对称加密算法:RSA,DSA/DSS 对称加密算法:AES,RC4,3DES HASH算法:MD5,SHA1,SHA256 hash就是找到一种数据内容和数据存放地址之间的映射关系 (1) 文件校验 ...
- Redis实战(十二)Redis实现分布式锁
序言 SET my_key my_value NX PX milliseconds 资料 如何优雅地用Redis实现分布式锁?
- JMS学习七(ActiveMQ之Topic的持久订阅)
非持久化订阅持续到它们订阅对象的生命周期.这意味着,客户端只能在订阅者活动时看到相关主题发布的消息.如果订阅者不活动,它会错过相关主题的消息.如果花费较大的开销,订阅者可以被定义为durable(持久 ...