滴滴AI Labs斩获国际机器翻译大赛中译英方向世界第三

桔妹导读:深耕人工智能领域,致力于探索AI让出行更美好的滴滴AI Labs再次斩获国际大奖,这次获奖的项目是什么呢?一起来看看详细报道吧! 近日,由国际计算语言学协会ACL(The Association for Computational Linguistics)举办的世界最具影响力的机器翻译大赛 WMT2020发布了所有团队今年提交的Primary Submission的结果.通过官方提供的Reference数据以及评估脚本,每个参赛队伍可以评估所有参赛队伍的最终BLEU成绩,滴滴AI La…

【转载】NeurIPS 2018 | 腾讯AI Lab详解3大热点：模型压缩、机器学习及最优化算法

原文:NeurIPS 2018 | 腾讯AI Lab详解3大热点:模型压缩.机器学习及最优化算法导读 AI领域顶会NeurIPS正在加拿大蒙特利尔举办.本文针对实验室关注的几个研究热点,模型压缩.自动机器学习.机器学习与最优化算法,选取23篇会议上入选的重点论文进行分析解读,与大家分享.Enjoy! NeurIPS (Conference on Neural Information Processing Systems,神经信息处理系统进展大会)与ICML并称为神经计算和机器学习领域两大顶级学…

AI时代，还不了解大数据？

如果要问最近几年,IT行业哪个技术方向最火?一定属于ABC,即AI + Big Data + Cloud,也就是人工智能.大数据和云计算. 这几年,随着互联网大潮走向低谷,同时传统企业纷纷进行数字化转型,基本各个公司都在考虑如何进一步挖掘数据价值,提高企业的运营效率.在这种趋势下,大数据技术越来越重要.所以,AI时代,还不了解大数据就真的OUT了! 相比较AI和云计算,大数据的技术门槛更低一些,而且跟业务的相关性更大.我个人感觉再过几年,大数据技术将会像当前的分布式技术一样,变成一项基本的技能要…

MSSS攝影大賽計劃書（第三版）

比賽內容:對香港的城市風景以及自然風光的攝影預期成果: 提升同學對香港的認識,鼓勵學生走出大學學園去瞭解香港,同時豐富會員的課餘活動,培養同學的興趣愛好比賽時間:4月1-15日最後作品提交時間:4月15日晚上11點比賽人數:50 比賽規則: 比賽為雙軌制,可以自由拍攝提交作品: 跟隨預設的一些活動進行攝影,並提交作品. 與行山俱樂部合作,組織一到兩次預設的活動.已確認活動: 大美督-沙田騎行(4月8日或9日) 路線:大美督 → 大埔海濱公園 → 吐露港單車徑 → 白石角海濱長廊 →…

ApacheCN 大数据译文集 20211206 更新

PySpark 大数据分析实用指南零.前言一.安装 Pyspark 并设置您的开发环境二.使用 RDD 将您的大数据带入 Spark 环境三.Spark 笔记本的大数据清理和整理四.将数据汇总成有用的报告五.强大的 MLlib 探索性数据分析六.使用 SparkSQL 构建大数据结构七.转换和动作八.不变设计九.避免打乱和降低操作成本十.以正确的格式保存数据十一.使用 Spark 键/值应用编程接口十二.测试 ApacheSpark 作业十三.利用 Spark 图形接…

AI 也开源：50 大开源 AI 项目（转）

这些开源AI项目专注于机器学习.深度学习.神经网络及其他应用场合. 自IT界早期以来,研制出能像人类那样“思考”的机器一直是研究人员的一大目标.在过去几年,计算机科学家们在人工智能(AI)领域已取得了巨大进展,如今这项技术日益普及开来. 事实上,Gartner预测“到2020年,AI技术实际上将普遍出现在几乎每一个新的软件产品和服务中.”IDC预测,2017年企业界在AI技术上的开支将达到125亿美元,比2016年增长逾59.3%.这股强劲的增长势头可能会一直持续到2020年,到时收入有望达到4…

记录一次MySQL两千万数据的大表优化解决过程，提供三种解决方案（转）

问题概述使用阿里云rds for MySQL数据库(就是MySQL5.6版本),有个用户上网记录表6个月的数据量近2000万,保留最近一年的数据量达到4000万,查询速度极慢,日常卡死.严重影响业务. 问题前提:老系统,当时设计系统的人大概是大学没毕业,表设计和sql语句写的不仅仅是垃圾,简直无法直视.原开发人员都已离职,到我来维护,这就是传说中的维护不了就跑路,然后我就是掉坑的那个!!! 我尝试解决该问题,so,有个这个日志. 方案概述方案一:优化现有mysql数据库.优点:不影响现有业务…

大数据学习笔记之Hadoop（三）：MapReduce&YARN

文章目录一 MapReduce概念 1.1 为什么要MapReduce 1.2 MapReduce核心思想 1.3 MapReduce进程 1.4 MapReduce编程规范(八股文) 1.5 MapReduce程序运行流程分析二 MapReduce理论篇 2.1 Writable序列化 2.1.1 常用数据序列化类型 2.1.2 自定义bean对象实现序列化接口 2.2 InputFormat数据切片机制 2.2.1 FileInputFormat切片机制 2.2.2 CombineTex…

提高Asp.Net应用程序性能的十大方法(译感)

译完了提高Asp.Net应用程序的十大方法这篇文章,仔细想其中提到的每一条,在这里结合我的项目来谈谈.第一条:返回多个结果集因为我的项目中所有对数据库的访问的sql语句都是通过调用存储过程实现的,所以基本上都是用一个存储过程完成返回多个结果集,来得到自己想要的数据.满足!!第二条:对数据进行分页我写了一个通用的分页存储过程,用于对显示的数据进行分页,参照了原来Dino Esposito 的分页思想写的,写成了一篇项目总结发表在CSDN上.经过几个项目后,发现分页的效率取决于用于分页的条件,一般情…

（大数据工程师学习路径）第三步 Git Community Book----高级技能

一.创建新的空分支 1.创建新的空分支在偶尔的情况下,你可能会想要保留那些与你的代码没有共同祖先的分支.例如在这些分支上保留生成的文档或者其他一些东西.如果你需要创建一个不使用当前代码库作为父提交的分支,你可以用如下的方法创建一个空分支: git symbolic-ref HEAD refs/heads/newbranch rm .git/index git clean -fdx <do work> git add your files git commit -m 'Initial comm…

（大数据工程师学习路径）第三步 Git Community Book----中级技能（下）

一.追踪分支 1.追踪分支在Git中‘追踪分支’是用于联系本地分支和远程分支的. 如果你在’追踪分支'(Tracking Branches)上执行推送(push)或拉取(pull)时,它会自动推送(push)或拉取(pull)到关联的远程分支上. 如果你经常要从远程仓库里拉取(pull)分支到本地,并且不想很麻烦的使用"git pull "这种格式; 那么就应当使用‘追踪分支'(Tracking Branches). git clone‘命令会自动在本地建立一个'master'分支,…

（大数据工程师学习路径）第三步 Git Community Book----Git介绍

一.git诞生同生活中的许多伟大事件一样,Git 诞生于一个极富纷争大举创新的年代.1991年,Linus创建了开源的Linux,并且有着为数众多的参与者.虽然有世界各地的志愿者为Linux编写代码,但是绝大多数的 Linux 内核维护工作都花在了提交补丁和保存归档的繁琐事务上(1991-2002年间).在这期间,所有的源代码都是由Linus手工合并.因为Linus坚定地反对CVS和SVN,这些集中式的版本控制系统(集中式和分布式我们会在接下来的内容讲解)不但速度慢,而且必须联网才能使用.虽然…

以慕课网日志分析为例-进入大数据Spark SQL的世界

下载地址.请联系群主第1章初探大数据本章将介绍为什么要学习大数据.如何学好大数据.如何快速转型大数据岗位.本项目实战课程的内容安排.本项目实战课程的前置内容介绍.开发环境介绍.同时为大家介绍项目中涉及的Hadoop.Hive相关的知识第2章 Spark及其生态圈概述 Spark作为近几年最火爆的大数据处理技术,是成为大数据工程师必备的技能之一.本章将从如下几个方面对Spark进行一个宏观上的介绍:Spark产生背景.特点.发展史.Databricks官方调查结果.Spark与Hadoop…

【慕课网实战】九、以慕课网日志分析为例进入大数据 Spark SQL 的世界

即席查询普通查询 Load Data1) RDD DataFrame/Dataset2) Local Cloud(HDFS/S3) 将数据加载成RDDval masterLog = sc.textFile("file:///home/hadoop/app/spark-2.1.0-bin-2.6.0-cdh5.7.0/logs/spark-hadoop-org.apache.spark.deploy.master.Master-1-hadoop001.out")val workerLog…

【慕课网实战】一、以慕课网日志分析为例进入大数据 Spark SQL 的世界

课程整套CDH相关的软件下载地址:http://archive.cloudera.com/cdh5/cdh/5/ cdh-5.7.0 生产或者测试环境选择对应CDH版本时,一定要采用尾号是一样的版本 http://hadoop.apache.org/ 对于Apache的顶级项目来说,projectname.apache.org Hadoop: hadoop.apache.org Hive: hive.apache.org Spark: spark.apache.org HBase: hbas…

厉害了，PS大神真的能改变世界！

今天要介绍的这位PS大神名叫 Katrina Yu 她的操作真的神了不管多普通的场景她都能帮你改头换面在后院破旧的椅子上喝着咖啡一转眼就骑着魔法扫帚飞上了天,与月亮肩并肩看原图还以为是在梦游呢 P 完后,就化身仙女拿着仙女棒了手拎着几个漆桶,一转眼就在大草原上刷彩虹在河边钓鱼算啥在屋顶钓才酷呀随便往椅子上一站换个背景就很美在哪看书,都没有比在屋顶上看书来得有劲椅子也是个好东西借助它能完成各式各样的美梦一张张梦幻又惊奇的后期照片让人看完不禁赞叹 PS 真的能改…

以某课网日志分析为例进入大数据 Spark SQL 的世界

第1章初探大数据本章将介绍为什么要学习大数据.如何学好大数据.如何快速转型大数据岗位.本项目实战课程的内容安排.本项目实战课程的前置内容介绍.开发环境介绍.同时为大家介绍项目中涉及的Hadoop.Hive相关的知识第2章 Spark及其生态圈概述 Spark作为近几年最火爆的大数据处理技术,是成为大数据工程师必备的技能之一.本章将从如下几个方面对Spark进行一个宏观上的介绍:Spark产生背景.特点.发展史.Databricks官方调查结果.Spark与Hadoop的对比.Spark开发…

大数据学习——linux常用命令（三）

三文件操作 1创建文件 touch somefile.txt 创建一个空文件somefile.txt > 重定向操作符 echo "woshiwoa"> some.txt 将woshiwoa写入到some.txt 文件中,如果文件不存在则会创建出来 echo "www.baidu.com" >> some.txt 将文字追加在文件后面,不会覆盖原文件内容. ll >2.txt 将ll的内容写入到2.txt(先创建2.txt,再查看ll…

大数据学习笔记之Zookeeper（三）：Zookeeper理论篇（二）

文章目录 3.1 数据结构 3.2 节点类型 3.3 特点 3.4 选举机制 3.5 stat结构体 3.6 监听器原理 3.1 数据结构 ZooKeeper数据模型的结构与Unix文件系统很类似,整体上可以看作是一棵树,每个节点称做一个ZNode. 很显然zookeeper集群自身维护了一套数据结构.这个存储结构是一个树形结构,其上的每一个节点,我们称之为"znode",每一个znode默认能够存储1MB的数据,每个ZNode都可以通过其路径唯一标识 3.2 节点类型 1)Znode…

Cocos Creator | 飞刀大乱斗开发教程系列（三）

预览效果具体内容 ■ 这一期,主要讲解游戏过程中,通过触摸滑动,控制人物的运动方向,以及游戏过程中,人物运动区域的控制.如下图,人物通过滑动控制运动方向,即是往哪个方向滑动,人物就往哪个方向移动.人物只限定在下图蓝色边界内运动. 边界的实现 ■ 游戏运动区域使用一张背景图,精灵修改成 TILED 模式,根据需要,可以修改背景的大小,改变整个游戏的区域,边界使用一张边界纹理,同样使用 TILED 模式,进行翻转.修改大小.调整位置,以达到上述界面效果. ■ 所有玩家的人物,都放到背景下的一个…

（大数据工程师学习路径）第三步 Git Community Book----基本用法（下）

一.比较提交 - Git Diff 1.比较提交 - Git Diff 你可以用 git diff 来比较项目中任意两个版本的差异. $ git diff master..test 上面这条命令只显示两个分支间的差异,如果你想找出‘master’,‘test’的共有父分支和'test'分支之间的差异,你用3个'.'来取代前面的两个'.' . $ git diff master...test git diff 是一个难以置信的有用的工具,可以找出你项目上任意两点间的改动,或是用来查看别人提交进来…

（大数据工程师学习路径）第三步 Git Community Book----Git基本用法（上）

一.git的初始化 1.Git 配置使用Git的第一件事就是设置你的名字和email,这些就是你在提交commit时的签名. $ git config --global user.name "Scott Chacon" $ git config --global user.email "schacon@gmail.com" 执行了上面的命令后,会在家目录(/home)下建立一个叫.gitconfig 的文件(该文件问隐藏文件,需要使用ls -al查看到). 内容一…

【慕课网实战】八、以慕课网日志分析为例进入大数据 Spark SQL 的世界

用户行为日志:用户每次访问网站时所有的行为数据(访问.浏览.搜索.点击...) 用户行为轨迹.流量日志日志数据内容: 1)访问的系统属性: 操作系统.浏览器等等 2)访问特征:点击的url.从哪个url跳转过来的(referer).页面上的停留时间等 3)访问信息:session_id.访问ip(访问城市)等 2013-05-19 13:00:00 http://www.taobao.com/17/?tracker_u=1624169&type=1 B58W4…

【慕课网实战】七、以慕课网日志分析为例进入大数据 Spark SQL 的世界

用户: 方便快速从不同的数据源(json.parquet.rdbms),经过混合处理(json join parquet), 再将处理结果以特定的格式(json.parquet)写回到指定的系统(HDFS.S3)上去 Spark SQL 1.2 ==> 外部数据源API 外部数据源的目的 1)开发人员:是否需要把代码合并到spark中???? weibo --jars 2)用户读:spark.read.format(format) …

【慕课网实战】六、以慕课网日志分析为例进入大数据 Spark SQL 的世界

DataFrame它不是Spark SQL提出的,而是早起在R.Pandas语言就已经有了的. A Dataset is a distributed collection of data:分布式的数据集 A DataFrame is a Dataset organized into named columns. 以列(列名.列的类型.列值)的形式构成的分布式数据集,按照列赋予不同的名称 student id:int name:string city:string It is conc…

【慕课网实战】五、以慕课网日志分析为例进入大数据 Spark SQL 的世界

提交Spark Application到环境中运行spark-submit \--name SQLContextApp \--class com.imooc.spark.SQLContextApp \--master local[2] \/home/hadoop/lib/sql-1.0.jar \/home/hadoop/app/spark-2.1.0-bin-2.6.0-cdh5.7.0/examples/src/main/resources/people.json 注意:1)To use a…

【慕课网实战】四、以慕课网日志分析为例进入大数据 Spark SQL 的世界

文本文件进行统计分析:id, name, age, city1001,zhangsan,45,beijing1002,lisi,35,shanghai1003,wangwu,29,tianjin....... table定义:personcolumn定义: id:int name:string age: int city:stringhive:load data sql: query.... Hive: 类似于sql的Hive QL语言, sql==>mapreduce 特点:mapreduce…