公告 ApacheCN 项目的最终目标:五年内备份并翻译 Github 上的所有教程(其实快被我们啃完了,剩下的不多了). 警告各位培训班:对 ApacheCN 宣传文章的举报,也将视为对 ApacheCN 的挑衅.我们不像友社那么好欺负,自己看着办. CDNDrive 有适配 FB,Twi 和 Ins 的计划,时间未定. 我们的机器学习群(915394271)正式改名为"AI+财务提升"群,望悉知. 请关注我们的公众号"ApacheCN",回复"教程/路…
公告 我们的群共享文件有备份到 IPFS 的计划,具体时间待定. 我们的机器学习群(915394271)正式改名为财务提升群,望悉知. 请关注我们的公众号"ApacheCN",回复"教程/路线/比赛/报告/技术书/课程/轻小说/漫画/新知"来获取更多资源. 我们正在招募项目负责人,完成三次贡献可以申请,请联系片刻(529815144).几十个项目等你来申请和参与,不装逼的朋友,我们都不想认识. CDNDrive 第二次扩容完毕,新增了 3 个图床. "开源…
公告 我们的群共享文件有备份到 IPFS 的计划,具体时间待定. 我们的机器学习群(915394271)正式改名为财务提升群,望悉知. 请关注我们的公众号"ApacheCN",回复"教程/路线/比赛/报告/技术书/课程/轻小说/漫画/新知"来获取更多资源. 我们正在招募项目负责人,完成三次贡献可以申请,请联系片刻(529815144).几十个项目等你来申请和参与,不装逼的朋友,我们都不想认识. CDNDrive 第二次扩容完毕,新增了 3 个图床. "开源…
公告 我们始终与所有创作者站在一起,为创作自由而战.我们还会提供一切必要的技术支持. 我们全力支持科研开源(DOCX)计划.希望大家了解这个倡议,把这个倡议与自己的兴趣点结合,做点力所能及的事情. 我们的部分文档已备份到 PYPI.NPM 和 Docker,详情请查看各个文档 README 中的"下载"一节. ApacheCN 项目的最终目标:五年内备份并翻译 Github 上的所有教程(其实快被我们啃完了,剩下的不多了). 警告各位培训班:对 ApacheCN 宣传文章的举报,也将视…
公告 ApacheCN 翻译预计将于半年内恢复. 我们的开源项目必须有中文的 README,如果是文档类项目,必须全部中文,否则将会被清理.请大家贡献项目时一定要留意. 我们目标是[财务自由+情感自由+技术普及],始终没有变过.如果你与我们的目标相同,请加入我们的财务情感交流群(915394271). 我们始终与所有创作者站在一起,为创作自由而战.我们还会提供一切必要的技术支持. 我们全力支持科研开源(DOCX)计划.希望大家了解这个倡议,把这个倡议与自己的兴趣点结合,做点力所能及的事情. 请关…
特约赞助商 公告 我们愿意普及区块链技术,但前提是互利互惠.我们有大量技术类学习资源,也有大量的人需要这些资源.如果能借助区块链技术存储和分发,我们就能将它们普及给我们的受众. 我们正在招募项目负责人,完成三次贡献可以申请,请联系片刻(529815144).几十个项目等你来申请和参与,不装逼的朋友,我们都不想认识. BiliDriveEx 修复完成,接下来我们会多适配几个图床. "开源互助联盟"已终止,我们对此表示抱歉和遗憾.除非特地邀请,我们不再推广他人的任何项目. 我们接受&quo…
公告 我们正在招募项目负责人,完成三次贡献可以申请,请联系片刻(529815144).几十个项目等你来申请和参与,不装逼的朋友,我们都不想认识. 薅资本主义羊毛的 CDNDrive 计划正式启动! 我们的所有非技术内容和活动,从现在开始会使用 iBooker 这个名字. "开源互助联盟"已终止,我们对此表示抱歉和遗憾.除非特地邀请,我们不再推广他人的任何项目. 欢迎大家在我们平台上投放广告.如果你希望在我们的专栏.文档或邮件中投放广告,请准备好各种尺寸的图片和专属链接,联系咸鱼(103…
公告 我们的机器学习群(915394271)正式改名为财务提升群,望悉知. 请关注我们的公众号"ApacheCN",回复"教程/路线/比赛/报告/技术书/课程/轻小说/漫画/新知"来获取更多资源. 我们愿意普及区块链技术,但前提是互利互惠.我们有大量技术类学习资源,也有大量的人需要这些资源.如果能借助区块链技术存储和分发,我们就能将它们普及给我们的受众. 我们正在招募项目负责人,完成三次贡献可以申请,请联系片刻(529815144).几十个项目等你来申请和参与,不装…
注意 请贡献者查看参与方式,然后直接在 ISSUE 中认领. 翻译/校对三个文档就可以申请当负责人,我们会把你拉进合伙人群.翻译/校对五个文档的贡献者,可以申请实习证明. 请私聊片刻(529815144).咸鱼(1034616238).或飞龙(562826179)来领取以上奖励. 翻译校对活动 可解释的机器学习[校对] 参与方式:https://github.com/apachecn/interpretable-ml-book-zh/blob/master/CONTRIBUTING.md 整体进…
公告 我们的所有非技术内容和活动,从现在开始会使用 iBooker 这个名字. "开源互助联盟"已终止,我们对此表示抱歉和遗憾.除非特地邀请,我们不再推广他人的任何项目. 公众号自动回复已更新,添加了"轻小说/知识星球"关键词. 我们近期将所有内容备份到 Gitee,欢迎访问 Gitee@ApacheCN. 欢迎大家在我们平台上投放广告.如果你希望在我们的专栏.文档或邮件中投放广告,请准备好各种尺寸的图片和专属链接,联系咸鱼(1034616238). 为了能够将开源…
关于大数据,一看就懂,一懂就懵. 一.概述 本文介绍如何搭建hadoop分布式集群环境,前面文章已经介绍了如何搭建hadoop单机环境和伪分布式环境,如需要,请参看:大数据Hadoop学习之搭建hadoop平台(2.1).hadoop独立环境和伪分布式环境都无法发挥hadoop的价值,若想利用hadoop进行一些有价值的工作,必须搭建hadoop分布式集群环境. 下文以三台虚拟机为基础搭建集群环境,系统版本为CentOS-7,虚拟机地址分别为:192.168.1.106.192.168.1.10…
c#中@标志的作用   参考微软官方文档-特殊字符@,地址 https://docs.microsoft.com/zh-cn/dotnet/csharp/language-reference/tokens/verbatim 1.在变量名前加@,可以告诉编译器,@后的就是变量名.主要用于变量名和C#关键字重复时使用. string[] @for = { "John", "James", "Joan", "Jamie" }; fo…
第一节 初识 Flink 在数据激增的时代,催生出了一批计算框架.最早期比较流行的有MapReduce,然后有Spark,直到现在越来越多的公司采用Flink处理.Flink相对前两个框架真正做到了高吞吐,低延迟,高性能. 1. Flink 是什么? 1) Flink 的发展历史 在 2010 年至 2014 年间,由柏林工业大学.柏林洪堡大学和哈索普拉特纳研究所联合发起名为"Stratosphere:Information Management on the Cloud"研究项目,该…
Spark主要的编程语言是Scala,选择Scala是因为它的简洁性(Scala可以很方便在交互式下使用)和性能(JVM上的静态强类型语言).Spark支持Java编程,但对于使用Java就没有了Spark-Shell这样方便的工具,其它与Scala编程是一样的,因为都是JVM上的语言,Scala与Java可以互操作,Java编程接口其实就是对Scala的封装. 大数据未来几年发展的重点方向,大数据战略已经在十八届五中全会上作为重点战略方向,中国在大数据方面才刚刚起步,但是在美国已经产生了上千亿…
最近公司在写一个课程<大数据运维实训课>,分为4个部分,linux实训课.Python开发.hadoop基础知识和项目实战.这门课程主要针对刚从学校毕业的学生去应聘时不会像一个小白菜一样被刷掉.老大让我负责编写Python开发这块,让一个运维同学去写书???心中一万只草泥马奔腾而过,吐槽过后工作还是要继续,想起自己学习Python时候,一整套课程或者是人家的博客学下来,到最后总是会忘掉以前的一些东西,无非是自己没有实操,习题量不够.所谓天道酬勤,用大量的题海战术来巩固知识点,到最后闭着眼睛也能…
关于大数据,一看就懂,一懂就懵. 大数据的发展也有些年头了,如今正走在风口浪尖上,作为小白,我也来凑一份热闹. 大数据经过多年的发展,有着不同的实现方案和分支,不过,要说大数据实现方案中的翘楚,那就是Hadoop了,因其开源.稳定等因素,受到了业界的承认和欢迎,那我们就来窥视一下Hadoop. 一.什么是Hadoop? 1. Hadoop是Apache软件基金组织的一个顶级项目,是开发可靠.可扩展.分布式计算的开源软件. Apache Hadoop软件库是一个框架,允许在使用简单编程模型的计算机…
Scala简单介绍 Scala(Scala Language的简称)语言是一种能够执行于JVM和.Net平台之上的通用编程语言.既可用于大规模应用程序开发,也可用于脚本编程,它由由Martin Odersk于2001开发.2004年開始程序执行在JVM与.Net平台之上.由于其简洁.优雅.类型安全的编程模式而受到关注. Scala的创建者——Martin Odersk 在Scala的创建之初,并没有怎么引起重视,随着Apache Spark和Apache Kafka这样基于Scala的大数据框架…
FusionInsight大数据开发 FusionInsight HD是一个大数据全栈商用平台,支持各种通用大数据应用场景. 技能需求 扎实的编程基础 Java/Scala/python/SQL/shell常见命令 掌握FusionInsight 熟悉业务开发 大数据应用开发流程 业务分析和方案设计 应用开发 应用调试 应用部署 应用开发关键点 账号 安全认证 场景约束 应用开发指南--调试 常规手段 协助资料 保障团队 总结: 认证是应用开发的关键点,要根据业务需求,申请合适账号,完成安全认证…
引言 随着计算机系统在处理能力.存储能力等方面,特别是计算机软件技术的不断提高,使得信息处理技术得到飞速发展. 数据处理主要分为两大类:联机事物处理OLTP.联机分析处理OLAP.OLTP也就是传统的关系型数据库应用,主要功能是基本的.日常的事务处理操作,对响应时间要求非常高,是一种面向应用的生产系统.OLAP是基于数据仓库的面向主题的信息分析处理过程. 什么是数据仓库 与传统关系型数据库不同的是,数据仓库储存的是历史数据,针对数据仓库系统的查询大都非常复杂,特别消耗系统资源,对系统的可扩展能力…
 关于大数据,一看就懂,一懂就懵. 一.简介 Hadoop的平台搭建,设置为三种搭建方式,第一种是"单节点安装",这种安装方式最为简单,但是并没有展示出Hadoop的技术优势,适合初学者快速搭建:第二种是"伪分布式安装",这种安装方式安装了Hadoop的核心组件,但是并没有真正展示出Hadoop的技术优势,不适用于开发,适合学习:第三种是"全分布式安装",也叫做"分布式安装",这种安装方式安装了Hadoop的所有功能,适用于开…
大数据介绍 什么是大数据以及有什么特点 大数据:是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合. 大数据是一种方法论:“一切都被记录,一切都被数字化,从数据中寻找需求,寻找知识,发掘价值”. 大数据技术:指从各种各样类型的数据中快速获得有价值信息的能力. 大数据的特点:数据体量巨大.数据类型繁多.价值密度低.产生和处理速度快 新的大数据处理平台: 开源:Hadoop.Spark(Apache).Atorm(Twitter).MongoDb 商用:IBM PureData…
仅从技术上讲大数据.人工智能都包含工程.算法两方面内容: 一.大数据: 工程: 1)云计算,核心是怎么管理大量的计算机.存储.网络. 2)核心是如何管理数据:代表是分布式存储,HDFS 3)核心是如何实现算法能够处理大量数据:MapReduce.迭代计算(Spark).流计算(Strom) 算法: 1)统计学派:回归.方差分析.假设验证... 2)机器学习学派:决策树.聚类.关联模式挖掘... 推荐书籍:<数据挖掘概念与技术> 二.人工智能: 工程: 1)云计算,核心是怎么管理大量的计算机.存…
  ​前言 相信很多Java开发者都对大数据有一定的了解,随着大数据时代的到来,也有很多Java程序员想要转行大数据.大数据技术中大多数平台使用的都是Java语言,因此,对于大数据技术的学习来说,Java程序员已经占尽了先机.但是很多人对大数据该怎么学,学哪些内容和方向不是很了解,下面就给大家来详细讲一下. 本文分三大方面详细的讲如何学大数据: 大数据方向工作介绍 大数据工程师的技能要求 大数据学习路径 一.大数据方向工作介绍 大数据方向的工作目前分为三个主要方向: 01.大数据工程师 02.数…
hadoop 创始人 DogCutting 高效,可扩展性,高容错性,价格低廉的大数据软件处理架构 主要应用于数据分析.数据实时查询.数据挖掘领域 HDFS(HadoopDistributeFileSystem 分布式文件系统) 总结:从字面意思我们可以简单理解为:hadoop是用来处理大数据的,HDFS是用来存储大数据的. -*-hadoop项目结构-*- MapReduce 主要用于离线计算 Tez (DAG计算)基于YAN之上生成无向循环图,优化计算 Spark 和Mapreduce相似在…
环境变量与文件查找 本节介绍环境变量的作用与用法,及几种搜索文件的方法.学会这些技巧高效地使用 Linux. 一.环境变量 1.变量 要解释环境变量,得先明白变量是什么,准确的说应该是 Shell 变量,所谓变量就是计算机中用于记录一个值(不一定是数值,也可以是字符或字符串)的符号,而这些符号将用于不同的运算处理中.通常变量与值是一对一的关系,可以通过表达式读取它的值赋值给其它变量,也可以直接指定数值赋值给任意变量.为了便于运算和处理,大部分的编程语言会区分变量的类型,用于分别记录数值.字符或者…
一 为什么需要消息系统 1.解耦 允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束. 2.冗余 消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险.许多消息队列所采用的"插入-获取-删除"范式中,在把一个消息从队列中删除之前,需要你的处理系统明确的指出该消息已经被处理完毕,从而确保你的数据被安全的保存直到你使用完毕. 3.扩展性 因为消息队列解耦了你的处理过程,所以增大消息入队和处理的频率是很容易的,只要另外增加处理过程即可. 4.灵活性…
一.MySQL权限管理 账户权限信息被存储在mysql数据库的user.db.host.tables_priv.columns_priv和procs_priv表中. GRANT和REVOKE语句所用的涉及权限的名称显示在下表,还有在授权表中每个权限的表列名称和每个权限有关的上下文. 当从早期的没有CREATE VIEW.SHOW VIEW.CREATE ROUTINE.ALTER ROUTINE和EXECUTE权限的版本的MySQL中升级时,要想使用这些权限,你必须使用MySQL分发提供的mys…
准备 在正式开始本内容之前,需要先从github下载相关代码,搭建好一个名为mysql_shiyan的数据库(有三张表:department,employee,project),并向其中插入数据. 具体操作如下,首先输入命令进入Desktop: cd Desktop 然后再输入命令,下载代码: git clone http://git.shiyanlou.com/shiyanlou/SQL4 下载完成后,输入“cd ~”(注意有空格)退回到原先目录,然后输入命令开启MySQL服务并使用root用…
一.数据库和SQL介绍 数据库(Database)是按照数据结构来组织.存储和管理数据的仓库,它的产生距今已有六十多年.随着信息技术和市场的发展,数据库变得无处不在:它在电子商务.银行系统等众多领域都被广泛使用,且成为其系统的重要组成部分. 数据库用于记录数据,使用数据库记录数据可以表现出各种数据间的联系,也可以很方便地对所记录的数据进行增.删.改.查等操作. 结构化查询语言(Structured Query Language)简称SQL,是上世纪70年代由IBM公司开发,用于对数据库进行操作的…
介绍 虽然我们这一节的标题是正则表达式,但实际这一节只是介绍grep,sed,awk这三个命令,而正则表达式作为这三个命令的一种使用方式(命令输出中可以包含正则表达式).正则表达式本身的内容很多,要把它说明清楚需要单独一门课程来实现,不过我们这一节中涉及到的相关内容通常也能够满足很多情况下的需求了. 想要更深入地学习使用正则表达式,在这里 正则表达式基础. 一.正则表达式 什么是正则表达式呢? 正则表达式,又称正规表示式.正规表示法.正规表达式.规则表达式.常规表示法(英语:Regular Ex…