大数据入门第一天——基础部分之Linux基础（环境准备与先导知识）

一.Linux环境安装 1.VM的安装参考Linux环境搭建随笔:http://www.cnblogs.com/jiangbei/p/7248054.html 2.CentOS的安装同参考上述随笔,此处不再赘述 3.网络基础配置相关的IP基础知识参考之前随笔:http://www.cnblogs.com/jiangbei/p/8056116.html 具体网络配置参考Linux基础相关随笔(请使用NAT模式) 这里需要补充的是使用IP与主机名的映射(hosts文件),这样就可以使用主机名而…

大数据入门到精通1--大数据环境下的基础文件HDFS 操作

1.使用hdfs用户或者hadoop用户登录 2.在linux shell下执行命令 hadoop fs -put '本地文件名' hadoop fs - put '/home/hdfs/sample/sample.txt' hadoop fs -ls / 列出具体的文件名. hadoop fs -get ‘/home/spark/data/*’ 从文件系统中获得数据到本地 hadoop fs -cat 查看文件内容 hadoop fs -rm -R 递归删除 hadoop fs -mv …

大数据入门：Hadoop安装、环境配置及检测

目录 1.导包Hadoop包 2.配置环境变量 3.把winutil包拷贝到Hadoop bin目录下 4.把Hadoop.dll放到system32下 5.检测Hadoop是否正常安装 5.1在maven项目中检测,将配置文件放入resource包下 5.2然后通过一个简单的wordcount程序检测Hadoop是否安装成功 5.3保存好之后,写程序: 5.4最后我们打开输出文件查看: 6.容易出现的错误: 6.1.导包错误 6.2.输出文件存在 6.3.环境搭建或配置等错误 @ Hadoop…

大数据入门基础系列之Hadoop1.X、Hadoop2.X和Hadoop3.X的多维度区别详解（博主推荐）

不多说,直接上干货! 在前面的博文里,我已经介绍了大数据入门基础系列之Linux操作系统简介与选择大数据入门基础系列之虚拟机的下载.安装详解大数据入门基础系列之Linux的安装详解大数据入门基础系列之远程连接工具下载和安装详解大数据入门基础系列之Apache版本的hadoop集群详细部署搭建(包括HA和非HA)(包括单节点.3节点.5节点) 大数据入门基础系列之CDH版本的hadoop集群详细部署搭建(3节点) 大数据入门基础系列之ClouderManager版本的hadoop集群详细…

CentOS6安装各种大数据软件第一章：各个软件版本介绍

相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础软件的安装 CentOS6安装各种大数据软件第四章:Hadoop分布式集群配置 CentOS6安装各种大数据软件第五章:Kafka集群的配置 CentOS6安装各种大数据软件第六章:HBase分布式集群的配置 CentOS6安装各种大数据软件第七章:Flume安装与配置 CentOS6安装各…

大数据应用之Windows平台Hbase客户端Eclipse开发环境搭建

大数据应用之Windows平台Hbase客户端Eclipse开发环境搭建大数据应用之Windows平台Hbase客户端Eclipse环境搭建-Java版作者:张子良版权所有,转载请注明出处引子: 大数据的场景下,NoSql型数据库的优势不言而喻,但是涉及NoSQL数据库的实际动手开发的东西多是Linux平台,大多语焉不详,至于Windows平台介绍的东西就更少了,而且大多无法运行.本文就Windows平台基于Eclipse搭建Hbase环境客户端开发环境做一个介绍.另外基于Thrift实…

大数据技术之_16_Scala学习_04_函数式编程-基础+面向对象编程-基础

第五章函数式编程-基础5.1 函数式编程内容说明5.1.1 函数式编程内容5.1.2 函数式编程授课顺序5.2 函数式编程介绍5.2.1 几个概念的说明5.2.2 方法.函数.函数式编程和面向对象编程关系分析图5.2.3 函数式编程小结5.3 为什么需要函数5.4 函数的定义5.4.1 函数的定义5.4.2 快速入门案例5.5 函数的调用机制5.5.1 函数的调用过程5.5.2 函数的递归调用5.5.3 递归练习题5.6 函数注意事项和细节讨论5.7 函数练习题5.8 过程5.8.1 基本概念…

Tushare金融大数据入门

Tushare金融大数据社区,是一个免费提供各类金融数据和区块链数据的平台 ,旨在助力智能投资与创新型投资. 积分数据千万条,积分第一条目前,提供的数据包含股票.基金.期货.债券.外汇.行业大数据,以及数字货币行情等区块链数据的全数据品类的金融大数据平台,这些数据在用户积分满足的情况下,统统都免费.因为,积分极度容易获取的原因,所以基本上可以算作免费. 不过,其中还是有部分数据会有些限制,好在大部分的数据,只要120积分就可以有权限调用,但是在权限会有所限制,积分越多,调取的速度越快.这个也…

大数据入门第二十五天——elasticsearch入门

一.概述推荐路神的ES权威指南翻译:https://es.xiaoleilu.com/010_Intro/00_README.html 官网:https://www.elastic.co/cn/products/elasticsearch 精品博文:https://blog.csdn.net/laoyang360/article/details/52244917 1.es是什么官网的中文介绍: Elasticsearch 是一个分布式的 RESTful 风格的搜索和数据分析引擎,能够解决不断…

大数据入门第二十二天——spark（一）入门与安装

一.概述 1.什么是spark 从官网http://spark.apache.org/可以得知: Apache Spark™ is a fast and general engine for large-scale data processing. 主要的特性有: Speed:快如闪电(HADOOP的100倍+) Easy to Use:Scala——Perfect.Python——Nice.Java——Ugly.R Generality:Spark内核上可以跑Spark SQL.Spark S…

大数据入门第六天——HDFS详解

一.概述 1.HDFS中的角色 Block数据: HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128M,之前的版本中是64M 基本存储单位,一般大小为64M(配置大的块主要是因为:1)减少搜寻时间,一般硬盘传输速率比寻道时间要快,大的块可以减少寻道时间:2)减少管理块的数据开销,每个块都需要在NameNode上有对应的记录:3)对数据块进行读写,减少建立网络的连接成本) 一个大文件会被拆分成…

Java 程序员的大数据入门指南

项目 GitHub 地址:https://github.com/heibaiying/BigData-Notes ✒️ 前言大数据常用技术栈思维导图大数据常用软件安装指南一.Hadoop 分布式文件存储系统--HDFS 分布式计算框架--MapReduce 集群资源管理器--YARN Hadoop单机伪集群环境搭建 Hadoop集群环境搭建 HDFS常用Shell命令 HDFS Java API的使用基于Zookeeper搭建Hadoop高可用集群二.Hive Hive简介及核心概念…

大数据小项目之电视收视率企业项目09--hive环境搭建

Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据.它架构在Hadoop之上,总归为大数据,并使得查询和分析方便.并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行. 术语“大数据”是大型数据集,其中包括体积庞大,高速,以及各种由与日俱增的数据的集合.使用传统的数据管理系统,它是难以加工大型数据.因此,Apache软件基金会推出了一款名为Hadoop的解决大数据管理和处理难题的框架. 安装mysql http://www.centoscn.com/my…

新闻网大数据实时分析可视化系统项目——2、linux环境准备与设置

1.Linux系统常规设置 1)设置ip地址使用界面修改ip比较方便,如果Linux没有安装操作界面,需要使用命令:vi /etc/sysconfig/network-scripts/ifcfg-eth0 来修改ip地址,然后重启网络服务service network restart即可. 2)创建用户大数据项目开发中,一般不直接使用root用户,需要我们创建新的用户来操作,比如kfk. a)创建用户命令:adduser kfk b)设置用户密码命令:passwd kfk 3)文件中设置主机…

【Hadoop离线基础总结】linux基础增强

linux基础增强查找命令 grep命令 (print lines matching a pattern) 概述: grep命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来格式: grep [option] pattern [file] 使用实例: ps -ef | grep sshd ->查找指定ssh服务进程 ps - report a snapshot of the current processes. 显示当前进程 -ef To see every p…

【Linux基础总结】Linux基本环境

Linux基本环境对Linux的基础认识虚拟机进入终端: [root@hadoop-senior Desktop] # 用户名主机名所在目录名称 #:表示当前用户属于root用户,超级管理员用户对系统进行配置管理的时候,需要使用root用户 $:表示用户是普通用户(Mac OS的终端是%) 在Linux系统下,查看IP地址的命令: # ifconfig 类似于windows系统的:ipconfig 自动获取IP地址好处是可以连接互联网自动获取IP地址有时会改变,当我们需要设置固…

大数据入门第二天——基础部分之zookeeper（下）

一.集群自启动脚本 1.关闭zk [root@localhost bin]# jps Jps QuorumPeerMain [root@localhost bin]# //kill或者stop都是可以的 2.远程执行命令 [root@localhost bin]# /bin/zkServer.sh start root@192.168.137.138's password: JMX enabled by default Using config: /opt/zookeeper/zookeeper…

大数据入门第二天——基础部分之zookeeper（上）

一.概述 1.是什么? 根据凡技术必登其官网的原则,我们先去官网瞅一瞅:http://zookeeper.apache.org/ Apache ZooKeeper is an effort to develop and maintain an open-source server which enables highly reliable distributed coordination 分布式:一个业务分拆多个子业务,部署在不同的服务器上集群:同一个业务,部署在多个服务器上形象的说: 小饭店…

大数据入门到精通11-spark dataframe 基础操作

// dataframe is the topic 一.获得基础数据.先通过rdd的方式获得数据 val ny= sc.textFile("data/new_york/")val header=ny.firstval filterNY =ny.filter(listing=>{ listing.split(",").size==14 && listing!=header }) //因为后面多是按照表格的形式来处理dataframe,所以这里增加…

零基础大数据入门教程：Java调用阿里云短信通道服务

这里我们使用SpringBoot 来调用阿里通信的服务. 阿里通信,双11.收到短信,日发送达6亿条.保障力度非常高. 使用的步骤: 1.1. 第一步:需要开通账户 1.2. 第二步:阅读接口文档 1.2.1. 秘钥管理 1.2.2. 短信签名 1.2.3. 短信模板 1.3. SDK 这个由阿里云提供. 编译与打包. 打包到本地仓库,或者公司局域网内的私服地址. Maven打包 1.4. 第三步:创建SpringBoot工程,导入依赖  <depende…

大数据入门第二十二天——spark（二）RDD算子（1）

一.RDD概述 1.什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行计算的集合.RDD具有数据流模型的特点:自动容错.位置感知性调度和可伸缩性.RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度. 2.RDD属性 1)一组分片(Partition),即数据集的基本组成单位.对于RDD来说,每个分片都会被一个计算任务处…

零基础学习云计算及大数据DBA集群架构师【Linux系统配置及网络配置2015年12月30日周三】

/Mon *************摘要************** 计划任务 )一次性计划任务服务:atd 命令:at 服务存放文件:/etc/init.d/atd 系统配置文件:/etc/at.deny 程序缓存文件:/var/spool/at )周期性计划任务服务:cron/crond 命令:crontab 服务存放文件:/etc/init.d/crond 系统配置文件:/etc/cron.deny /etc/crontab 程序缓存文件:/var/spool/cron/* /var/…

大数据入门到精通2--spark rdd 获得数据的三种方法

通过hdfs或者spark用户登录操作系统,执行spark-shell spark-shell 也可以带参数,这样就覆盖了默认得参数 spark-shell --master yarn --num-executors 2 --executor-memory 2G --driver-memory 1536M 默认值得设置一般在/etc/spark/conf/spark-env.sh里面设置一.通过array数组自动获得 1.枚举生成数组 val arr=Array(1,2,3,4,5,6,7)…

大数据入门到精通12--spark dataframe 注册成hive 的临时表

一.获得最初的数据并形成dataframe val ny= sc.textFile("data/new_york/")val header=ny.firstval filterNY =ny.filter(listing=>{ listing.split(",").size==14 && listing!=header })val nyMap= filterNY.map(listing=>{ val listingInfo=listing.…

大数据入门到精通8-spark RDD 复合key 和复合value 的map reduce操作

一.做基础数据准备这次使用fights得数据. scala> val flights= sc.textFile("/user/hdfs/data/Flights/flights.csv")flights: org.apache.spark.rdd.RDD[String] = /user/hdfs/data/Flights/flights.csv MapPartitionsRDD[3] at textFile at <console>:24 scala> val…

大数据入门到精通7--对复合value做reducebykey

培训系列7--对复合value做reduce 1.做基础数据准备 val collegesRdd= sc.textFile("/user/hdfs/CollegeNavigator.csv")val header= collegesRdd.first val headerlessRdd= collegesRdd.filter( line=>{ line!= header } ) 2.做map数据 val typeMapCount= headerlessRdd.map(line=&…

大数据入门第二十五天——logstash入门

一.概述 1.logstash是什么根据官网介绍: Logstash 是开源的服务器端数据处理管道,能够同时从多个来源采集数据.转换数据,然后将数据发送到您最喜欢的 “存储库” 中.(我们的存储库当然是 Elasticsearch.) //属于elasticsearch旗下产品(JRuby开发,开发者曾说如果他知道有scala,就不会用jruby了..) 也就是说,它是flume的“后浪”,它解决了“前浪”flume的数据丢失等问题! 2.基础结构输入:采集各种来源数据过滤:实时解析转…

大数据入门第二十四天——SparkStreaming（一）入门与示例

一.概述 1.什么是spark streaming Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream processing of live data streams. 中文的简明介绍如下: Spark Streaming类似于Apache Storm,用于流式数据的处理.根据其官方文档介绍,Spark Streami…

大数据入门第二十二天——spark（三）自定义分区、排序与查找

一.自定义分区 1.概述默认的是Hash的分区策略,这点和Hadoop是类似的,具体的分区介绍,参见:https://blog.csdn.net/high2011/article/details/68491115 2.实现 package cn.itcast.spark.day3 import java.net.URL import org.apache.spark.{HashPartitioner, Partitioner, SparkConf, SparkContext} import s…

大数据入门第九天——MapReduce详解（六）MR其他补充

一.自定义in/outputFormat 1.需求现有一些原始日志需要做增强解析处理,流程: 1. 从原始日志文件中读取数据 2. 根据日志中的一个URL字段到外部知识库中获取信息增强到原始日志 3. 如果成功增强,则输出到增强结果目录:如果增强失败,则抽取原始数据中URL字段输出到待爬清单目录 1374609560.11 1374609560.16 1374609560.16 1374609560.16 110 5 8615038208365 460023383869133 86964200…

【大数据入门第一天——基础部分之Linux基础（环境准备与先导知识）】的更多相关文章