写这篇文章的目的是总结自己学习大数据的经验,以为自己走了很多弯路,从迷茫到清晰,真的花费了很多时间,希望这篇文章能帮助到后面学习的人。

一、配置思路

安装linux虚拟机--->创建三台虚拟机--->配置Hadoop环境--->配置zookeeper--->配置HBase--->配置mysql--->配置hive--->配置sqoop

上面的过程只是简要的,中间还有一些小的配置过程,我没有写出,后面详细的配置过程中会提到。

二、详细配置过程

1.安装linux虚拟机--->创建三台虚拟机--->配置Hadoop环境--->配置zookeeper

查看b站视频【大数据开发入门】开课吧Hadoop从0到精通详解教程,2021年最新全套_哔哩哔哩_bilibili

跟着视频做到P16就可以了(windows的话从P6到P16)

视频里用到的资源可以添加评论区的公众号免费获取

2.配置HBase

查看b站视频尚硅谷HBase教程(hbase框架快速入门)_哔哩哔哩_bilibili

跟着视频做P7和P8就可以了

比较基础全面的HBase数据库增删改查常用命令操作 - 岁月如歌_九 - 博客园 (cnblogs.com)

3.配置mysql

查看b站视频2020年最新大数据教程|全程实操从零学习掌握HDP集群【黑马程序员】_哔哩哔哩_bilibili

跟着视频做P4就可以了

mysql-connecter下载 MySQL :: Download Connector/J

跟着视频做P8

4.配置hive

查看csdn(30条消息) Hadoop3系列——(四)Hive安装_qq_41622603的博客-CSDN博客

hive3.1.2下载 Apache Download Mirrors

5.配置sqoop

查看博客园Sqoop学习之路 (一) - 扎心了,老铁 - 博客园 (cnblogs.com)

三、配置过程可能遇到的问题

1.hbase shell命令进不去(30条消息) hbase shell命令进不去_lin443514407lin的专栏-CSDN博客

2.hive不嫩插入数据

报错是Permission denied

先退出hive;

在root里进入hadoop,命令是:su hadoop

然后再进入hive就可以插入了

3.为什么我不用Ambari配置

因为Ambari需要的运行内存太多了,我之前用Ambari配置过至少三次,不断调整内存,都失败了

所以电脑配置不够的(8g及以下的)还是老老实实按照这个方法配置吧

四、hive对数据进行操作

主要看后面几步(30条消息) 利用hive进行分析,将hive分析结果利用sqoop技术存储到mysql数据库中,可视化结果_ITwangxiaoxu的博客-CSDN博客

五、配置过程经验总结

在下载文件的时候csdn上都有,但是要钱,其实大可不必下载那样的,在一些教程下面都会有资源获取的途径

一些官网正式发布的文件只要搜下载XXX教程就可以知道怎么从官网下载了

大数据学习之路又之从小白到用sqoop导出数据的更多相关文章

  1. Qt 学习之路 2(57):可视化显示数据库数据

    Qt 学习之路 2(57):可视化显示数据库数据(skip) 豆子 2013年6月26日 Qt 学习之路 2 26条评论 前面我们用了两个章节介绍了 Qt 提供的两种操作数据库的方法.显然,使用QSq ...

  2. 大数据学习之路(1)Hadoop生态体系结构

    Hadoop的核心是HDFS和MapReduce,hadoop2.0还包括YARN. Hadoop1.x的生态系统: Hadoop2.x引入YARN: HDFS(Hadoop分布式文件系统)源自于Go ...

  3. 大数据学习之路——MySQL基础(一)——MySQL的基础知识与常见操作

    一.存储引擎 1.含义 存储引擎是数据库底层软件组织,数据库管理系统(DBMS)使用数据引擎进行创建.查询.更新和删除数据.不同的存储引擎提供不同的存储机制.索引技巧.锁定水平等功能,使用不同的存储引 ...

  4. Spark学习之路 (九)SparkCore的调优之数据倾斜调优

    摘抄自:https://tech.meituan.com/spark-tuning-pro.html 数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Sp ...

  5. Spark学习之路 (九)SparkCore的调优之数据倾斜调优[转]

    调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题--数据倾斜,此时Spark作业的性能会比期望差很多.数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的 ...

  6. sqoop导出数据|Hive|HDFS和脚本编写

    导出数据 在Sqoop中,“导出”概念指:从大数据集群(HDFS,HIVE,HBASE)向非大数据集群(RDBMS)中传输数据,叫做:导出,即使用export关键字. HIVE/HDFS到RDBMS ...

  7. sqoop导出数据

    export是HDFS里的文件导出到RDBMS的工具,不能从hive.hbase导出数据,且HDFS文件只能是文本格式.如果要把hive表数据导出到RDBMS,可以先把hive表通过查询写入到一个临时 ...

  8. 1.131.15 Sqoop导出数据Export使用

    一.export 1.export概述 export工具将一组文件从HDFS导入到RDBMS.目标表必须已经存在于数据库中.根据用户指定的分隔符读取输入文件并将其解析为一组记录, 只有map: [ro ...

  9. 大数据学习之路------借助HDP SANDBOX开始学习

    一开始... 一开始知道大数据这个概念的时候,只是感觉很高大上,引起了我的兴趣.当时也不知道,这个东西是做什么的,有什么用,当然现在看来也是很模糊的样子,但是的确比一开始强了不少. 所以学习的过程可能 ...

随机推荐

  1. LeetCode-063-不同路径 II

    不同路径 II 题目描述:一个机器人位于一个 m x n 网格的左上角 (起始点在下图中标记为"Start" ). 机器人每次只能向下或者向右移动一步.机器人试图达到网格的右下角( ...

  2. Eureka单机&集群配置

    目录 Eureka是什么 自我保护机制 版本选择 服务搭建 创建项目 导入GAV坐标 application启动类添加注解 配置yml 启动项目 集群配置 修改上面的yml 打jar包到另外一台电脑O ...

  3. tp5 webupload文件上传至七牛云

    1:composer安装: composer require qiniu/php-sdk 2: 配置使用: 在tp5.1的配置文件app.php中配置七牛云的参数 'qiniu' => [ 'a ...

  4. MYSQL安装后自带用户的作用

    user表中host列的值的意义%                   匹配所有主机localhost      localhost不会被解析成IP地址,直接通过UNIXsocket连接127.0.0 ...

  5. Netty异步Future源码解读

    本文地址: https://juejin.im/post/5df771ee6fb9a0161d743069 说在前面 本文的 Netty源码使用的是 4.1.31.Final 版本,不同版本会有一些差 ...

  6. [差分数组] LeetCode789 得分最高的最小轮调

    LeetCode 得分最高的最小轮调 今天当然CV了因为今天比较忙,所以直接走算法,因为什么都不做的话并不符合社会主义核心价值观,今天小学一手查分数组. 题目:并不存在CV了还写什么题解 算法背景: ...

  7. HIve的基本使用

    WHERE从表中筛选行: SELECT从表中查询指定的列: group by在列上做聚合. -- 假设数据文件的内容,字段之间以ASCII 001(ctrl-A)分隔,行之间以换行分隔. CREATE ...

  8. Python函数-5 生成器

    生成器有时候,序列或集合内的元素的个数非常巨大,如果全制造出来并放入内存,对计算机的压力是非常大的.比如,假设需要获取一个10**20次方如此巨大的数据序列,把每一个数都生成出来,并放在一个内存的列表 ...

  9. 网络传输中的各种加密算法+SSL+CA证书详解

    1. 数据传输分类 在互联网上数据传输有两种:明文传输和加密传输.明文传输的协议有:ftp.http.smtp.telnet.但是为了数据的完整性和安全性,所以后来引用了加密等相关手段来保证数据的安全 ...

  10. Python tkinter库将matplotlib图表显示在GUI窗口上,并实时更新刷新数据

    代码 1 ''' 2 使用matplotlib创建图表,并显示在tk窗口 3 ''' 4 import matplotlib.pyplot as plt 5 from matplotlib.pylab ...