目前对中文分词精度影响最大的主要是两方面:未登录词的识别和歧义切分. 据统计:未登录词中中文姓人名在文本中一般只占2%左右,但这其中高达50%以上的人名会产生切分错误.在所有的分词错误中,与人名有关的错误占到了将近90%,这中国人名都是根据人的想法起的名字,有很大的随意性,并且数量巨大,规律也不尽相同. 1.理论简介 命名实体识别(Named Entities Recognition, NER)是自然语言处理(Natural LanguageProcessing, NLP)的一个基础任务.其目的…
版权声明:本文由文智原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/133 来源:腾云阁 https://www.qcloud.com/community [文智背后的奥秘]系列篇——基于CRF的人名识别 文智 标签: 人名识别 , 文智分析 2016-10-09 11:06:20 1378 一.命名实体识别 命名实体识别的主要任务就是从输入文本中把含有特定意义的词或者词组挑出来.命名实体根据其特点可以分为两大类,一类是…
很久没有写博客了,一些读者也经常问问一些问题,不过最近我确实也很忙,除了处理日常工作外,平常主要的时间也花在了继续研究微软的实体框架(EntityFramework)方面了.这个实体框架加入了很多特性(例如LINQ等),目前也已经应用的比较成熟了,之所以一直没有整理成一个符合自己开发模式的实体框架,是因为这个框架和原来我的基于EnterpriseLibrary的模式还是有很大的不同,不过实体框架推出来也很久了,目前也去到了EntityFramework6了,听说7也快出来了. 随着我自己参考阅读…
一.课程介绍 明人不说暗话,跟着阿笨一起学玩WebApi!开发提供数据的WebApi服务,最重要的是数据的安全性.那么对于我们来说,如何确保数据的安全将会是需要思考的问题.在ASP.NETWebService服务中可以通过SoapHead验证机制来实现,那么在ASP.NET WebApi中我们应该如何保证我们的接口安全呢?如果您对本次分享课程<ASP.NET WebApi 基于分布式Session方式实现Token签名认证>感兴趣的话,那么请跟踪阿笨一起学习吧. 1.1.本次分享课程包含知识点…
一.课程介绍 明人不说暗话,跟着阿笨一起学玩WebApi!开发提供数据的WebApi服务,最重要的是数据的安全性.那么对于我们来说,如何确保数据的安全将会是需要思考的问题.在ASP.NETWebService服务中可以通过SoapHead验证机制来实现,那么在ASP.NET WebApi中我们应该如何保证我们的接口安全呢?如果您对本次分享课程<ASP.NET WebApi 基于分布式Session方式实现Token签名认证>感兴趣的话,那么请跟踪阿笨一起学习吧. 1.1.本次分享课程包含知识点…
摘要:本文充分利用SOA架构松耦合的特点,通过规范统一网络接口实现业务系统整合,既提升系统安全性,又简化资源访问操作,具有重要的理论和现实意义. 统一身份认证旨在将分散在各个信息系统中的用户和权限资源进行统一集中管理,提升系统安全性,简化资源访问操作.各家金融机构的业务系统由于开发时期不同,支撑技术各不相同,系统环境彼此独立,统一身份认证体系需要面对跨平台.跨系统的巨大挑战.近年来,面向服务架构SOA(Service Oriented Architecture)技术为松散集成业务系统的统一身份认…
[目的]鱼类识别对渔业资源的开发利用有着重要的意义.针对海底环境恶劣.拍摄环境亮度低.场景模糊的实际情况导致海底观测视频品质差,视频中的鱼类识别难的问题以及现有鱼类识别方法存在的鱼类标注数据集过少导致训练的深度模型准确度不高的问题. [方法]本文提出了一种基于百度EasyDL定制化图像识别平台的海底鱼类识别方法.首先使用伽马校正法和暗通道先验算法对图片数据进行预处理,提高图片亮度和清晰度,接着利用百度EasyDL定制化图像识别平台构建初鱼类识别模型,再使用数据增强等方法对模型进行调优,提高模型识…
百度为何开源深度机器学习平台?   有一系列领先优势的百度却选择开源其深度机器学习平台,为何交底自己的核心技术?深思之下,却是在面对业界无奈时的远见之举.   5月20日,百度在github上开源了其深度机器学习平台.此番发布的深度机器学习开源平台属于“深盟”的开源组织,其核心开发者来自百度深度学习研究院(IDL),微软亚洲研究院.华盛顿大学.纽约大学.香港科技大学,卡耐基·梅陇大学等知名公司和高校. 通过这一开源平台,世界各地的开发者们可以免费获得更优质和更容易使用的分布式机器学习算法源码,从…
HanLP中人名识别分析 在看源码之前,先看几遍论文<基于角色标注的中国人名自动识别研究> 关于命名识别的一些问题,可参考下列一些issue: 名字识别的问题 #387 机构名识别错误 关于层叠HMM中文实体识别的过程 HanLP参考博客: 词性标注 层叠HMM-Viterbi角色标注模型下的机构名识别 分词 在HMM与分词.词性标注.命名实体识别中说: 分词:给定一个字的序列,找出最可能的标签序列(断句符号:[词尾]或[非词尾]构成的序列).结巴分词目前就是利用BMES标签来分词的,B(开头…
HanLP中人名识别分析详解 在看源码之前,先看几遍论文<基于角色标注的中国人名自动识别研究> 关于命名识别的一些问题,可参考下列一些issue: l ·名字识别的问题 #387 l ·机构名识别错误 l ·关于层叠HMM中文实体识别的过程 HanLP参考博客: 词性标注 层叠HMM-Viterbi角色标注模型下的机构名识别 分词 在HMM与分词.词性标注.命名实体识别中说: 分词:给定一个字的序列,找出最可能的标签序列(断句符号:[词尾]或[非词尾]构成的序列).结巴分词目前就是利用BMES…