从完成一个简单的『手写数字识别任务』开始,快速了解飞桨框架 API 的使用方法. 模型开发 『手写数字识别』是深度学习里的 Hello World 任务,用于对 0 ~ 9 的十类数字进行分类,即输入手写数字的图片,可识别出这个图片中的数字. 本任务用到的数据集为 MNIST 手写数字数据集,用于训练和测试模型.该数据集包含 60000 张训练图片. 10000 张测试图片.以及对应的分类标签文件,每张图片上是一个 0 ~ 9 的手写数字,分辨率为 28 * 28. 环境配置 直接去飞桨AI S…
提速1000倍,预测延迟少于1ms,百度飞桨发布基于ERNIE的语义理解开发套件 11月5日,在『WAVE Summit+』2019 深度学习开发者秋季峰会上,百度对外发布基于 ERNIE 的语义理解开发套件,旨在为企业级开发者提供更领先.高效.易用的 ERNIE 应用服务,全面释放 ERNIE 的工业化价值,其中包含 ERNIE 轻量级解决方案,提速 1000倍! 今年 7 月,百度发布持续学习语义理解框架 ERNIE 2.0,在共计 16 个中英文任务上超越BERT.XLNET,取得了 SO…
​ 参考文章: 深度剖析知识增强语义表示模型--ERNIE_财神Childe的博客-CSDN博客_ernie模型 ERNIE_ERNIE开源开发套件_飞桨 https://github.com/PaddlePaddle/ERNIE/blob/develop/README.zh.md 1.背景介绍 近年来,语义表示(language representation)技术的发展,使得 "预训练-微调" 作为解决NLP任务的一种新的范式开始出现.一个通用的表示能力强的模型被选择为语义表示模型,…
开放域实体抽取泛用工具 https://github.com/magicdict/FDDC 更新时间 2018年7月16日 By 带着兔子去旅行 开发这个工具的起源是天池大数据竞赛,FDDC2018金融算法挑战赛02-A股上市公司公告信息抽取.这个比赛是针对金融公告开展的信息抽取比赛.在参赛过程中,萌生出一个念头,是否能够开发出一个泛用的信息抽取工具呢? 信息抽取是NLP里的一个实用内容.该工具的目标是打造一个泛用的自动信息抽取工具.使得没有任何基础的用户,可以通过简单的步骤提取文档(PDF,H…
在安装完scrapy以后,相信大家都会跃跃欲试想定制一个自己的爬虫吧?我也不例外,下面详细记录一下定制一个scrapy工程都需要哪些步骤.如果你还没有安装好scrapy,又或者为scrapy的安装感到头疼和不知所措,可以参考下前面的文章安装python爬虫scrapy踩过的那些坑和编程外的思考.这里就拿博客园来做例子吧,抓取博客园的博客列表并保存到json文件. 环境:CentOS 6.0 虚拟机 scrapy(如未安装可参考安装python爬虫scrapy踩过的那些坑和编程外的思考) 1.创建…
背景 近几年以深度学习技术为核心的人工智能得到广泛的关注,无论是学术界还是工业界,它们都把深度学习作为研究应用的焦点.而深度学习技术突飞猛进的发展离不开海量数据的积累.计算能力的提升和算法模型的改进.本文主要介绍深度学习技术在文本领域的应用,文本领域大致可分为4个维度:词.句子.篇章.系统级应用. 词.分词方面,从最经典的前后向匹配到条件随机场(Conditional Random Field,CRF)序列标注,到现在Bi-LSTM+CRF模型,已经不需要设计特征,从字粒度就能做到最好的序列标注…
于遇到了项目中实体类嵌套多层子级实体集合,并且子级实体集合的数据需要提交保存到数据库中的问题.针对此情况需要进行一些特殊的处理才可以将整个 实体类及子级实体集合数据提交表单到控制器中,解决的方法是根据MVC视图中表单的命名规则来设置正确的子级实体集合所属的表单控件name属性,从而来 获取提交的集合数据. 在说明如何将表单中实体的子级实体集合数据提交到控制器中的问题前,我们需要了解MVC的对于数组和列表集合的表单提交方式(点击此链接进行查看). 定义多层嵌套实体和假设场景 首先我们根据情况进行分…
得知李航老师的<统计学习方法>出了第二版,我第一时间就买了.看了这本书的目录,非常高兴,好家伙,居然把主题模型都写了,还有pagerank.一路看到了马尔科夫蒙特卡罗方法和LDA主题模型这里,被打击到了,满满都是数学公式.LDA是目前为止我见过最复杂的模型了. 找了培训班的视频看,对LDA模型有了大致的认识.下面总结一点东西. 1.LDA与PLSA的联系 LDA模型和PLSA的联系非常紧密,都是概率模型(LSA是非概率模型),是利用概率生成模型对文本集合进行主题分析的无监督学习方法. 不同在于…
原文:数据仓库之抽取数据:openrowset函数带bulk操作符的用法 在做数据仓库时,最重要的就是ETL的开发,而在ETL开发中的第一步,就是要从原OLTP系统中抽取数据到过渡区中,再对这个过渡区中的数据进行转换,最后把经过处理的干净的数据加载到数据仓库中. 目标数据库是sql server,通过openrowset函数带bulk操作符的用法,导入.导出.更新数据. 带bulk操作符的方式相对于其他方式来说,速度更快. 使用方法: 第1种用法: openrowset (     bulk 要…
​2019年,国内人工智能领域的投融资热情大幅降低,相当数量的AI企业彻底消失在了历史的长河中,“人工智能寒潮已至”甚至成为行业年度热词. 与前几年创业与投资热情齐头并进的盛况相比,近段时间的AI行业显然萧条了很多. 究其原因,“AI落地难”要负主要责任. 从自动化时代到智能化时代,人工智能创造的价值在不断增长.与此同时,业务场景的精细度与复杂度也在不断提升,为人工智能技术的落地带来一系列挑战. 以国内人工智能企业为例.目前国内几个较大的人工智能独角兽企业,商业化落地主要集中在金融.安防监控.手…