桔妹导读:深耕人工智能领域,致力于探索AI让出行更美好的滴滴AI Labs再次斩获国际大奖,这次获奖的项目是什么呢?一起来看看详细报道吧! 近日,由国际计算语言学协会ACL(The Association for Computational Linguistics)举办的世界最具影响力的机器翻译大赛 WMT2020发布了所有团队今年提交的Primary Submission的结果.通过官方提供的Reference数据以及评估脚本,每个参赛队伍可以评估所有参赛队伍的最终BLEU成绩,滴滴AI La…
原文:NeurIPS 2018 | 腾讯AI Lab详解3大热点:模型压缩.机器学习及最优化算法 导读 AI领域顶会NeurIPS正在加拿大蒙特利尔举办.本文针对实验室关注的几个研究热点,模型压缩.自动机器学习.机器学习与最优化算法,选取23篇会议上入选的重点论文进行分析解读,与大家分享.Enjoy! NeurIPS (Conference on Neural Information Processing Systems,神经信息处理系统进展大会)与ICML并称为神经计算和机器学习领域两大顶级学…
如果要问最近几年,IT行业哪个技术方向最火?一定属于ABC,即AI + Big Data + Cloud,也就是人工智能.大数据和云计算. 这几年,随着互联网大潮走向低谷,同时传统企业纷纷进行数字化转型,基本各个公司都在考虑如何进一步挖掘数据价值,提高企业的运营效率.在这种趋势下,大数据技术越来越重要.所以,AI时代,还不了解大数据就真的OUT了! 相比较AI和云计算,大数据的技术门槛更低一些,而且跟业务的相关性更大.我个人感觉再过几年,大数据技术将会像当前的分布式技术一样,变成一项基本的技能要…
比賽內容:對香港的城市風景以及自然風光的攝影 預期成果: 提升同學對香港的認識,鼓勵學生走出大學學園去瞭解香港,同時豐富會員的課餘活動,培養同學的興趣愛好 比賽時間:4月1-15日 最後作品提交時間:4月15日 晚上11點 比賽人數:50 比賽規則: 比賽為雙軌制,可以 自由拍攝提交作品: 跟隨預設的一些活動進行攝影,並提交作品. 與行山俱樂部合作,組織一到兩次預設的活動.已確認活動: 大美督-沙田騎行(4月8日或9日) 路線:大美督 → 大埔海濱公園 → 吐露港單車徑 → 白石角海濱長廊 →…
PySpark 大数据分析实用指南 零.前言 一.安装 Pyspark 并设置您的开发环境 二.使用 RDD 将您的大数据带入 Spark 环境 三.Spark 笔记本的大数据清理和整理 四.将数据汇总成有用的报告 五.强大的 MLlib 探索性数据分析 六.使用 SparkSQL 构建大数据结构 七.转换和动作 八.不变设计 九.避免打乱和降低操作成本 十.以正确的格式保存数据 十一.使用 Spark 键/值应用编程接口 十二.测试 ApacheSpark 作业 十三.利用 Spark 图形接…
这些开源AI项目专注于机器学习.深度学习.神经网络及其他应用场合. 自IT界早期以来,研制出能像人类那样“思考”的机器一直是研究人员的一大目标.在过去几年,计算机科学家们在人工智能(AI)领域已取得了巨大进展,如今这项技术日益普及开来. 事实上,Gartner预测“到2020年,AI技术实际上将普遍出现在几乎每一个新的软件产品和服务中.”IDC预测,2017年企业界在AI技术上的开支将达到125亿美元,比2016年增长逾59.3%.这股强劲的增长势头可能会一直持续到2020年,到时收入有望达到4…
问题概述 使用阿里云rds for MySQL数据库(就是MySQL5.6版本),有个用户上网记录表6个月的数据量近2000万,保留最近一年的数据量达到4000万,查询速度极慢,日常卡死.严重影响业务. 问题前提:老系统,当时设计系统的人大概是大学没毕业,表设计和sql语句写的不仅仅是垃圾,简直无法直视.原开发人员都已离职,到我来维护,这就是传说中的维护不了就跑路,然后我就是掉坑的那个!!! 我尝试解决该问题,so,有个这个日志. 方案概述 方案一:优化现有mysql数据库.优点:不影响现有业务…
文章目录 一 MapReduce概念 1.1 为什么要MapReduce 1.2 MapReduce核心思想 1.3 MapReduce进程 1.4 MapReduce编程规范(八股文) 1.5 MapReduce程序运行流程分析 二 MapReduce理论篇 2.1 Writable序列化 2.1.1 常用数据序列化类型 2.1.2 自定义bean对象实现序列化接口 2.2 InputFormat数据切片机制 2.2.1 FileInputFormat切片机制 2.2.2 CombineTex…
译完了提高Asp.Net应用程序的十大方法这篇文章,仔细想其中提到的每一条,在这里结合我的项目来谈谈.第一条:返回多个结果集因为我的项目中所有对数据库的访问的sql语句都是通过调用存储过程实现的,所以基本上都是用一个存储过程完成返回多个结果集,来得到自己想要的数据.满足!!第二条:对数据进行分页我写了一个通用的分页存储过程,用于对显示的数据进行分页,参照了原来Dino Esposito 的分页思想写的,写成了一篇项目总结发表在CSDN上.经过几个项目后,发现分页的效率取决于用于分页的条件,一般情…
一.创建新的空分支 1.创建新的空分支 在偶尔的情况下,你可能会想要保留那些与你的代码没有共同祖先的分支.例如在这些分支上保留生成的文档或者其他一些东西.如果你需要创建一个不使用当前代码库作为父提交的分支,你可以用如下的方法创建一个空分支: git symbolic-ref HEAD refs/heads/newbranch rm .git/index git clean -fdx <do work> git add your files git commit -m 'Initial comm…
一.追踪分支 1.追踪分支 在Git中‘追踪分支’是用于联系本地分支和远程分支的. 如果你在’追踪分支'(Tracking Branches)上执行推送(push)或拉取(pull)时,它会自动推送(push)或拉取(pull)到关联的远程分支上. 如果你经常要从远程仓库里拉取(pull)分支到本地,并且不想很麻烦的使用"git pull "这种格式; 那么就应当使用‘追踪分支'(Tracking Branches). git clone‘命令会自动在本地建立一个'master'分支,…
一.git诞生 同生活中的许多伟大事件一样,Git 诞生于一个极富纷争大举创新的年代.1991年,Linus创建了开源的Linux,并且有着为数众多的参与者.虽然有世界各地的志愿者为Linux编写代码,但是绝大多数的 Linux 内核维护工作都花在了提交补丁和保存归档的繁琐事务上(1991-2002年间).在这期间,所有的源代码都是由Linus手工合并.因为Linus坚定地反对CVS和SVN,这些集中式的版本控制系统(集中式和分布式我们会在接下来的内容讲解)不但速度慢,而且必须联网才能使用.虽然…
下载地址.请联系群主 第1章 初探大数据 本章将介绍为什么要学习大数据.如何学好大数据.如何快速转型大数据岗位.本项目实战课程的内容安排.本项目实战课程的前置内容介绍.开发环境介绍.同时为大家介绍项目中涉及的Hadoop.Hive相关的知识 第2章 Spark及其生态圈概述 Spark作为近几年最火爆的大数据处理技术,是成为大数据工程师必备的技能之一.本章将从如下几个方面对Spark进行一个宏观上的介绍:Spark产生背景.特点.发展史.Databricks官方调查结果.Spark与Hadoop…
即席查询普通查询 Load Data1) RDD DataFrame/Dataset2) Local Cloud(HDFS/S3) 将数据加载成RDDval masterLog = sc.textFile("file:///home/hadoop/app/spark-2.1.0-bin-2.6.0-cdh5.7.0/logs/spark-hadoop-org.apache.spark.deploy.master.Master-1-hadoop001.out")val workerLog…
课程整套CDH相关的软件下载地址:http://archive.cloudera.com/cdh5/cdh/5/ cdh-5.7.0 生产或者测试环境选择对应CDH版本时,一定要采用尾号是一样的版本   http://hadoop.apache.org/ 对于Apache的顶级项目来说,projectname.apache.org Hadoop: hadoop.apache.org Hive: hive.apache.org Spark: spark.apache.org HBase: hbas…
今天要介绍的这位PS大神 名叫 Katrina Yu 她的操作真的神了 不管多普通的场景 她都能帮你改头换面 在后院破旧的椅子上喝着咖啡 一转眼就骑着魔法扫帚 飞上了天,与月亮肩并肩 看原图还以为是在梦游呢 P 完后,就化身仙女拿着仙女棒了 手拎着几个漆桶,一转眼 就在大草原上刷彩虹 在河边钓鱼算啥 在屋顶钓才酷呀 随便往椅子上一站 换个背景就很美 在哪看书,都没有比 在屋顶上看书来得有劲 椅子也是个好东西 借助它能完成各式各样的美梦 一张张梦幻又惊奇的后期照片 让人看完不禁赞叹 PS 真的能改…
第1章 初探大数据 本章将介绍为什么要学习大数据.如何学好大数据.如何快速转型大数据岗位.本项目实战课程的内容安排.本项目实战课程的前置内容介绍.开发环境介绍.同时为大家介绍项目中涉及的Hadoop.Hive相关的知识 第2章 Spark及其生态圈概述 Spark作为近几年最火爆的大数据处理技术,是成为大数据工程师必备的技能之一.本章将从如下几个方面对Spark进行一个宏观上的介绍:Spark产生背景.特点.发展史.Databricks官方调查结果.Spark与Hadoop的对比.Spark开发…
三 文件操作 1创建文件 touch somefile.txt 创建一个空文件somefile.txt > 重定向操作符 echo "woshiwoa"> some.txt 将woshiwoa写入到some.txt 文件中,如果文件不存在则会创建出来 echo "www.baidu.com" >> some.txt 将文字追加在文件后面,不会覆盖原文件内容. ll >2.txt 将ll的内容写入到2.txt(先创建2.txt,再查看ll…
文章目录 3.1 数据结构 3.2 节点类型 3.3 特点 3.4 选举机制 3.5 stat结构体 3.6 监听器原理 3.1 数据结构 ZooKeeper数据模型的结构与Unix文件系统很类似,整体上可以看作是一棵树,每个节点称做一个ZNode. 很显然zookeeper集群自身维护了一套数据结构.这个存储结构是一个树形结构,其上的每一个节点,我们称之为"znode",每一个znode默认能够存储1MB的数据,每个ZNode都可以通过其路径唯一标识 3.2 节点类型 1)Znode…
预览效果 ​ 具体内容 ■ 这一期,主要讲解游戏过程中,通过触摸滑动,控制人物的运动方向,以及游戏过程中,人物运动区域的控制.如下图,人物通过滑动控制运动方向,即是往哪个方向滑动,人物就往哪个方向移动.人物只限定在下图蓝色边界内运动. 边界的实现 ■ 游戏运动区域使用一张背景图,精灵修改成 TILED 模式,根据需要,可以修改背景的大小,改变整个游戏的区域,边界使用一张边界纹理,同样使用 TILED 模式,进行翻转.修改大小.调整位置,以达到上述界面效果. ■ 所有玩家的人物,都放到背景下的一个…
一.比较提交 - Git Diff 1.比较提交 - Git Diff 你可以用 git diff 来比较项目中任意两个版本的差异. $ git diff master..test 上面这条命令只显示两个分支间的差异,如果你想找出‘master’,‘test’的共有父分支和'test'分支之间的差异,你用3个'.'来取代前面的两个'.' . $ git diff master...test git diff 是一个难以置信的有用的工具,可以找出你项目上任意两点间 的改动,或是用来查看别人提交进来…
一.git的初始化 1.Git 配置 使用Git的第一件事就是设置你的名字和email,这些就是你在提交commit时的签名. $ git config --global user.name "Scott Chacon" $ git config --global user.email "schacon@gmail.com" 执行了上面的命令后,会在家目录(/home)下建立一个叫.gitconfig 的文件(该文件问隐藏文件,需要使用ls -al查看到). 内容一…
用户行为日志:用户每次访问网站时所有的行为数据(访问.浏览.搜索.点击...)     用户行为轨迹.流量日志   日志数据内容: 1)访问的系统属性: 操作系统.浏览器等等 2)访问特征:点击的url.从哪个url跳转过来的(referer).页面上的停留时间等 3)访问信息:session_id.访问ip(访问城市)等   2013-05-19 13:00:00     http://www.taobao.com/17/?tracker_u=1624169&type=1      B58W4…
用户:     方便快速从不同的数据源(json.parquet.rdbms),经过混合处理(json join parquet),     再将处理结果以特定的格式(json.parquet)写回到指定的系统(HDFS.S3)上去   Spark SQL 1.2 ==> 外部数据源API   外部数据源的目的 1)开发人员:是否需要把代码合并到spark中????     weibo     --jars   2)用户     读:spark.read.format(format)      …
DataFrame它不是Spark SQL提出的,而是早起在R.Pandas语言就已经有了的.   A Dataset is a distributed collection of data:分布式的数据集 A DataFrame is a Dataset organized into named columns. 以列(列名.列的类型.列值)的形式构成的分布式数据集,按照列赋予不同的名称   student id:int name:string city:string   It is conc…
提交Spark Application到环境中运行spark-submit \--name SQLContextApp \--class com.imooc.spark.SQLContextApp \--master local[2] \/home/hadoop/lib/sql-1.0.jar \/home/hadoop/app/spark-2.1.0-bin-2.6.0-cdh5.7.0/examples/src/main/resources/people.json 注意:1)To use a…
文本文件进行统计分析:id, name, age, city1001,zhangsan,45,beijing1002,lisi,35,shanghai1003,wangwu,29,tianjin....... table定义:personcolumn定义: id:int name:string age: int city:stringhive:load data sql: query.... Hive: 类似于sql的Hive QL语言, sql==>mapreduce 特点:mapreduce…
前置要求: 1)Building Spark using Maven requires Maven 3.3.9 or newer and Java 7+ 2)export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m"   mvn编译命令: ./build/mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -DskipTests clean package     前提:需要对maven有…
MapReduce的局限性: 1)代码繁琐: 2)只能够支持map和reduce方法: 3)执行效率低下: 4)不适合迭代多次.交互式.流式的处理:   框架多样化: 1)批处理(离线):MapReduce.Hive.Pig 2)流式处理(实时): Storm.JStorm 3)交互式计算:Impala   学习.运维成本无形中都提高了很多   ===> Spark   ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~   BDAS:Berkeley…
学习记录day03   字符串可以直接切片,But字符串不可修改 字符串修改:生成了一个新的字符串 LIst修改,在原基础上修改(原内存上)     集合是一个无序的,不重复的数据组合,它的主要作用如下:   去重,把一个列表变成集合,就自动去重了 关系测试,测试两组数据之前的交集.差集.并集等关系 dict\list\set.. 全用 x in ..计算,,dict.has_key等已废   文件: fp = open() #文件句柄,文件句柄里存的内容: 文件信息.在磁盘上的开始位置.内存等…