十一之前一直在做“电力领域的词典构建”任务,今天也去聆听了前五支队伍的报告,现结合这段时间来的项目经历,写一下自己的若干心得。

电力领域的词典构建——方法1(非监督学习)

在电力领域词典构建心得1.0中介绍到我们的非监督方法思路主要是:爬取CNKI中关于电力的文献的摘要并提取每一个摘要的关键词,然后利用比赛的原语料中词频的分布筛选排序关键词并得出最后的“电力方面的词典”(此版本前10000词的正确率是0.438)。之后我的优化思路是利用基于比赛语料训练好的词向量进一步筛选之前得出的“电力方面的词典”。但是,最后的结果收效甚微。今天的五支参赛队伍中也有一只队伍使用的方法是“种子词+Word2Vec”,联想到自己方法,我觉得我的非监督方法在想法和方法上有错误。思路上的错误是,在发现“电力方面的词典”的覆盖率只有50%(整个“电力方面的词典”)的情况下,没有积极拓展词典的覆盖率而是采用“Word2Vec”提纯的方法。是我错估了这个方法的效果,因为我做的最好效果是取出前1万词中6%不是电力领域的词,并把后1万种中6%的正确词给提取来放到前一万个中!不得不说这对算法的性能要求很高,确实不是首先的优化方法。同时,我当时只是想尽可能的排除前10000个词中的“非电力词”而没有提升后10000个词中的电力词,这样即使做的再好也只是把前43.8%的词集中到一起而对后6%的词的选拔没有任何帮助!另外在具体的操作过程中,对于前10000个词的筛选,我的种子词是前10000个词本身。可是我的种子词只有43.8%是真正的电力领域的啊!这就是说我的种子词有57%的词是非电力词,43%的词是电力的词而我要用它选出电力词的思路本身就是错的!

基于以上的思路,采用Word2Vec优化的方法出来的结果是不好的!

电力领域的词典构建——方法2(监督学习)

方法2的思路是采用是自动标注数据集加LSTM+crf的方法。其中,我们的语料采用的词典是由方法1得出的。可是不幸的是,我们的词典只覆盖了50%(2万大小)的语料。这样即使我们训练出模型后,我们的结果一定一定会差于43%(前10000词)。但是,我们却没有添加网上的电力词词典直接回标语料(失败!!!)!其次,在使用Bi-LSTM+crf训练语料的时候我们一开始使用的是基于词的标记。这种方法在训练的过程中相对而言没有什么大的问题,但是在标记比赛所给的10000篇语料的时候还是存在很大问题的。主要是分词的错误会减少语料中电力词汇的识别性能且常用分词工具在专业词的切分上效果通常更差!

通过这次比赛感觉,自己在方法和思路上有很多欠缺,希望之后的自己可以越来越好!

“AIIA”杯-国家电网-电力专业领域词汇挖掘的更多相关文章

  1. Python爬虫与一汽项目【一】爬取中海油,邮政,国家电网问题总结

    项目介绍 中国海洋石油是爬取的第一个企业,之后依次爬取了,国家电网,中国邮政,这三家公司的源码并没有多大难度, 采购信息地址: 国家电网电子商务平台 http://ecp.sgcc.com.cn/pr ...

  2. [转]论基于DSSA的软件架构设计与应用

    [摘要]   去年三月份,我所在的公司启动国网电力用户用电信息采集系统项目,我被任命为项目负责人.国网电力用户用电信息采集系统是国家电网公司坚强智能电网建设的一部分.由于公司之前为南网(主要是广东省) ...

  3. 基于HTML5技术的电力3D监控应用(一)

    最近参与了国网计量中心的四线一库自动化检定系统的项目开发,团队封闭开发了大半年终于快到尾声了,整个项目过程实在非常累,我的mentor杨杨老师是这样描述的:累的不想说话了.我估计是我太渴望新知识,整天 ...

  4. 泛在电力物联网建设大纲ppt

    “三型两网”,国家电网在2019年提出的新战略目标.其中,“两网”分别代表着,“坚强智能电网”和“泛在电力物联网”.“坚强智能电网”的概念已经随着特高压的持续建设而被大家渐渐熟知,那么“泛在电力物联网 ...

  5. 通信技术以及5G和AI保障电网安全与网络安全

    摘 要:电网安全是电力的基础,随着智能电网的快速发展,越来越多的ICT信息通信技术被应用到电力网络.本文分析了历史上一些重大电网安全与网络安全事故,介绍了电网安全与网络安全.通信技术与电网安全的关系以 ...

  6. 数据库周刊30丨数据安全法草案将亮相;2020数据库产业报告;云南电网上线达梦;达梦7误删Redo Log;Oracle存储过程性能瓶颈;易鲸捷实践案例……

    摘要:墨天轮数据库周刊第30期发布啦,每周1次推送本周数据库相关热门资讯.精选文章.干货文档. 热门资讯 1.数据安全法草案即将亮相:将确立数据分级分类管理.应急处置制度[摘要]数据安全法草案即将在本 ...

  7. 这十大MCU厂商瓜分着中国市场

    MCU(Micro Control Unit)中文名称为微控制单元,又称单片微型计算机(Single Chip Microcomputer)或者单片机,是指随着大规模集成电路的出现及其发展,将计算机的 ...

  8. LTE230方案示意图

    普天LTE230产品及解决方案   责任编辑:耿鹏飞 2016.12.26 16:42 来源:通信世界网 LTE230 普天   一.LTE230系统特点 (一)系统背景 随着社会的快速发展,能源危机 ...

  9. ID

    id 编辑 身份标识号.账号.唯一编码.专属号码.工业设计.国家简称.法律词汇.通用账户.译码器.软件公司等,各类专有词汇缩写. 身份证,身份识别,是一种身份证明. 中文名 身份证,帐号,工业设计,通 ...

随机推荐

  1. php基于websocket实现的在线聊天室

    听说websocket技术可以实现 1.

  2. Spring的概述

    1 Spring是什么? Spring是分层的Java SE/EE应用的full-stack的轻量级开源框架,以IOC(控制反转)和AOP(面向切面编程)为内核,提供了展现层SpringMVC和持久层 ...

  3. 移动端 使用 vConsole调试

    前言 用vue 写移动端代码,有个报名页面 就在iOS 9下出现问题,vue的循环渲染都正常,一开始的数据也能取到.证明不是vue的兼容性问题 但是在用户点击按钮发现不能点击进入跳转 工具 推荐使用  ...

  4. SP Flash Tool版本对应MTK处理器型号(SP Flash Tool 版本速查)

    SP Flash Tool v3.1224.0.100 MT6516,MT6573,MT6573,MT6575,MT6575,MT6577, SP Flash Tool v3.1332.0.187 M ...

  5. pt-archiver使用记录

    pt-archiver使用记录 功能:将MySQL表中的行存档到另一个表或文件中用法:pt-archiver [OPTIONS] --source DSN --where WHERE ; trunca ...

  6. Linux shell 下简单的进度条实现

    Linux shell 下简单的进度条实现 [root@db145 ~]# cat print_process.sh function Proceess(){ spa='' i= ] do print ...

  7. FJOI2017 day2游记

    day0 早上复习了一下凸包,lct的板子,发现现在的我好菜鸡啊,做题基本上还得看题解,自己不是很能分析出来. 下午去看考场,在附中机房又写了一遍lct,然后a掉了文理分科完就回去了. 回家的路上走在 ...

  8. nuget push 程序包到nuget服务器时报错 406 (Not Acceptable)

    1.在window服务器上部署nuget服务器时,发布包时出现请求报错 406 (Not Acceptable) 验证用户名.密码正确的情况下,还是出现上面错误.后面跟踪服务器日志,发现window\ ...

  9. 指定文件或文件夹直接提交到svn指定目录

    我这里先说两种方法第一种:1.先将那个目录checkout下来2.将要添加的文件或者文件夹放到这个目录中3.右击文件执行svn菜单中的add命令4.右击文件执行svn菜单中的commit命令第二种:如 ...

  10. CodeChef-----February Challenge 2018---Broken Clock(极坐标+三角函数递推+矩阵快速幂)

    链接:  https://www.codechef.com/FEB18/problems/BROCLK Broken Clock Problem Code: BROCLK Chef has a clo ...