作者:蒋天园 Date:2020-04-16 来源:SA-SSD:阿里达摩院最新3D检测力作(CVPR2020) Brief 来自CVPR2020的研究工作,也是仅仅使用Lidar数据进行3D检测的文章,CVPR2020接收的几篇文章中,采用LiDar作为网络结构输入的已经已经多于采用图像和lidar的结合,从一方面讲,lidar数据由于包含了现实场景中的几何结构而比双目信息包含更加精确的信息.同时受到的外界条件的影响也相应的越小. 这是一篇来自港理工和阿里达摩院的合作文章 文章链接:http:…
9月26日,在2019年杭州云栖大会上,阿里云发布了RPA最新V3.4版本,全新升级了增加诸如录屏审计.JAVA应用录制能力.达摩院OCR内置组件.语法检查与智能提示能力增强等功能. RPA全名称Robotic Process Automation,中文名叫机器人流程自动化,在信息化时代的助推下,市场反响愈演愈烈.现场,阿里云智能高级技术专家申峰再次明确了阿里云RPA的定位,即专业.智能.被集成. 在“专业性”上,阿里云RPA在产品上提供行业顶级的稳定精准的“录制”能力,丰富的SDK,便捷式的编…
目录 声学模型 GRU-CTC DFCNN DFSMN 语言模型 n-gram CBHG 数据集 本文搭建一个完整的中文语音识别系统,包括声学模型和语言模型,能够将输入的音频信号识别为汉字. 声学模型使用了应用较为广泛的递归循环网络中的GRU-CTC的组合,除此之外还引入了科大讯飞提出的DFCNN深度全序列卷积神经网络,也将引入阿里的架构DFSMN. 语言模型有传统n-gram模型和基于深度神经网络的CBHG网络结构,该结构是谷歌用于TTS任务中的tacotron系统,本文中将该系统部分结构移植…
目录 基于keras的中文语音识别 音频文件特征提取 文本数据处理 数据格式处理 构建模型 模型训练及解码 aishell数据转化 该项目github地址 基于keras的中文语音识别 该项目实现了GRU-CTC中文语音识别,所有代码都在gru_ctc_am.py中,包括: 音频文件特征提取 文本数据处理 数据格式处理 构建模型 模型训练及解码 之外还包括将aishell数据处理为thchs30数据格式,合并数据进行训练.代码及数据放在gen_aishell_data中. 默认数据集为thchs…
今天上午,阿里巴巴云栖大会在杭州开幕,第一条重磅消息是阿里首席技术官张建锋宣布成立达摩院,在全球各地建立实验室,3年内投入千亿在全球建立实验室.和高校建立研究所.建立全球研究中心等事务. 该院由全球实验室.高校联合研究所.全球前沿创新研究计划三大部分组成,主要研究方向包括量子计算.机器学习.基础算法.网络安全.视觉计算.自然语言处理.下一代人机交互.芯片技术.传感器技术.嵌入式系统等,涵盖机器智能.智联网.金融科技等多个产业领域. 在张建锋的表述中,阿里巴巴达摩院是为物联网领域提供基础科学研发,…
word中怎样把文档里的中文以及中文字符全选? 参考: 百度 案例: 有个文档是中英文混杂的 现在需要把中文以及中文字符全部设置成别的颜色 应该怎样操作? 有80多页 别说让我一个一个的设置 以word2010为例操作步骤如下: 1.启动word,打开要操作的文档: 2.按ctrl+h快捷键打开查找和替换对话框,点击查找选项卡: 3.查找内容输入[!^1-^127],点击更多按钮,勾选下方选项使用通配符: 4.点击在以下项中查找,弹出菜单选择主文档: 5.效果如下图:…
摘要: 当学术大家遇到技术大拿,会碰撞出怎样的火花?为进一步加深产学研学术交流,阿里云将于ICDE 2019大会期间(4月9日)举办以“云时代的数据库”为主题的技术专场(Workshop) 作为全球数据库领域三大顶级学术会议之一,ICDE 2019(第35届数据工程国际学术会议)即将于4月8日-11日在中国澳门召开.ICDE是美国电子与电气工程师协会(IEEE)所主办的最高级别数据库会议,深受数据库及相关领域的学者欢迎. 阿里云已集结豪华参会阵容,由阿里巴巴集团副总裁.达摩院数据库首席科学家.阿…
最炫的技术新知.最热门的大咖公开课.最有趣的开发者活动.最实用的工具干货,就在<开发者必读>! 每日集成开发者社区精品内容,你身边的技术资讯管家. 每日头条 阿里开源新一代 AI 算法模型,由达摩院90后科学家研发 近日,阿里 AI 开源了新一代人机对话模型 ESIM.该算法模型提出两年多,已被包括谷歌.facebook 在内的国际学术界在200多篇论文中引用,更曾在国际顶级对话系统评测大赛(DSTC7)上获得双料冠军,将人机对话准确率的世界纪录提升至94.1%. 最强干货 淘宝 TypeSc…
操作系统:Windows10 Python版本:3.9.2 vosk是一个离线开源语音识别工具,它可以识别16种语言,包括中文. 这里记录下使用vosk进行中文识别的过程,以便后续查阅. vosk地址:https://alphacephei.com/vosk/ 使用vosk-server进行语音识别 使用docker启动vosk服务 1.获取vosk [root@host32 ~]# docker search alphacep NAME DESCRIPTION STARS OFFICIAL A…
最近打算研究一下语音识别,但是发现网上很少有C#的完整代码,就把自己的学习心得放上来,和大家分享一下. 下载API: 1)SpeechSDK51.exe                   (67.0 MB) 2)SpeechSDK51LangPack.exe     (81.0 MB) API可以不下载,但是如果你的VS是英文版,但是想使用中文的语音,那你就需要下载API,按顺序安装好. (PS:我的VS是英文的,不能说中文,为了这个我纠结了一上午.API下载地址,感谢:XAF ,http:/…