大数据学习之路又之从小白到用sqoop导出数据
写这篇文章的目的是总结自己学习大数据的经验,以为自己走了很多弯路,从迷茫到清晰,真的花费了很多时间,希望这篇文章能帮助到后面学习的人。
一、配置思路
安装linux虚拟机--->创建三台虚拟机--->配置Hadoop环境--->配置zookeeper--->配置HBase--->配置mysql--->配置hive--->配置sqoop
上面的过程只是简要的,中间还有一些小的配置过程,我没有写出,后面详细的配置过程中会提到。
二、详细配置过程
1.安装linux虚拟机--->创建三台虚拟机--->配置Hadoop环境--->配置zookeeper

查看b站视频【大数据开发入门】开课吧Hadoop从0到精通详解教程,2021年最新全套_哔哩哔哩_bilibili
跟着视频做到P16就可以了(windows的话从P6到P16)
视频里用到的资源可以添加评论区的公众号免费获取
2.配置HBase
查看b站视频尚硅谷HBase教程(hbase框架快速入门)_哔哩哔哩_bilibili
跟着视频做P7和P8就可以了
比较基础全面的HBase数据库增删改查常用命令操作 - 岁月如歌_九 - 博客园 (cnblogs.com)
3.配置mysql

查看b站视频2020年最新大数据教程|全程实操从零学习掌握HDP集群【黑马程序员】_哔哩哔哩_bilibili
跟着视频做P4就可以了
mysql-connecter下载 MySQL :: Download Connector/J
跟着视频做P8
4.配置hive

查看csdn(30条消息) Hadoop3系列——(四)Hive安装_qq_41622603的博客-CSDN博客
hive3.1.2下载 Apache Download Mirrors
5.配置sqoop
查看博客园Sqoop学习之路 (一) - 扎心了,老铁 - 博客园 (cnblogs.com)
三、配置过程可能遇到的问题
1.hbase shell命令进不去(30条消息) hbase shell命令进不去_lin443514407lin的专栏-CSDN博客
2.hive不嫩插入数据
报错是Permission denied
先退出hive;
在root里进入hadoop,命令是:su hadoop
然后再进入hive就可以插入了
3.为什么我不用Ambari配置
因为Ambari需要的运行内存太多了,我之前用Ambari配置过至少三次,不断调整内存,都失败了
所以电脑配置不够的(8g及以下的)还是老老实实按照这个方法配置吧
四、hive对数据进行操作
主要看后面几步(30条消息) 利用hive进行分析,将hive分析结果利用sqoop技术存储到mysql数据库中,可视化结果_ITwangxiaoxu的博客-CSDN博客
五、配置过程经验总结
在下载文件的时候csdn上都有,但是要钱,其实大可不必下载那样的,在一些教程下面都会有资源获取的途径
一些官网正式发布的文件只要搜下载XXX教程就可以知道怎么从官网下载了
大数据学习之路又之从小白到用sqoop导出数据的更多相关文章
- Qt 学习之路 2(57):可视化显示数据库数据
Qt 学习之路 2(57):可视化显示数据库数据(skip) 豆子 2013年6月26日 Qt 学习之路 2 26条评论 前面我们用了两个章节介绍了 Qt 提供的两种操作数据库的方法.显然,使用QSq ...
- 大数据学习之路(1)Hadoop生态体系结构
Hadoop的核心是HDFS和MapReduce,hadoop2.0还包括YARN. Hadoop1.x的生态系统: Hadoop2.x引入YARN: HDFS(Hadoop分布式文件系统)源自于Go ...
- 大数据学习之路——MySQL基础(一)——MySQL的基础知识与常见操作
一.存储引擎 1.含义 存储引擎是数据库底层软件组织,数据库管理系统(DBMS)使用数据引擎进行创建.查询.更新和删除数据.不同的存储引擎提供不同的存储机制.索引技巧.锁定水平等功能,使用不同的存储引 ...
- Spark学习之路 (九)SparkCore的调优之数据倾斜调优
摘抄自:https://tech.meituan.com/spark-tuning-pro.html 数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Sp ...
- Spark学习之路 (九)SparkCore的调优之数据倾斜调优[转]
调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题--数据倾斜,此时Spark作业的性能会比期望差很多.数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的 ...
- sqoop导出数据|Hive|HDFS和脚本编写
导出数据 在Sqoop中,“导出”概念指:从大数据集群(HDFS,HIVE,HBASE)向非大数据集群(RDBMS)中传输数据,叫做:导出,即使用export关键字. HIVE/HDFS到RDBMS ...
- sqoop导出数据
export是HDFS里的文件导出到RDBMS的工具,不能从hive.hbase导出数据,且HDFS文件只能是文本格式.如果要把hive表数据导出到RDBMS,可以先把hive表通过查询写入到一个临时 ...
- 1.131.15 Sqoop导出数据Export使用
一.export 1.export概述 export工具将一组文件从HDFS导入到RDBMS.目标表必须已经存在于数据库中.根据用户指定的分隔符读取输入文件并将其解析为一组记录, 只有map: [ro ...
- 大数据学习之路------借助HDP SANDBOX开始学习
一开始... 一开始知道大数据这个概念的时候,只是感觉很高大上,引起了我的兴趣.当时也不知道,这个东西是做什么的,有什么用,当然现在看来也是很模糊的样子,但是的确比一开始强了不少. 所以学习的过程可能 ...
随机推荐
- JDK下载安装与环境变量配置【全网最新】
1.下载安装JDK 下载地址:(https://www.oracle.com/java/technologies/downloads/) 最好选择解压版,解压即可(说删就删) 解压:例如我解压目录为 ...
- deepin 字符集安装
deepin字符集安装 编辑 目录介绍 /usr/share/i18n/charmaps 这个目录下存放了该Linux操作系统可用字符集的安装包,如果你的操作系统上没有安装某个字符集可以到这个目录下寻 ...
- JZ-023-二叉搜索树的后序遍历序列
二叉搜索树的后序遍历序列 题目描述 输入一个整数数组,判断该数组是不是某二叉搜索树的后序遍历的结果.如果是则返回true,否则返回false.假设输入的数组的任意两个数字都互不相同. 题目链接: 二叉 ...
- Goland 时间转换的那些事
Goland 时间转换的那些事 在项目的开发过程中遇到的一个很有意思的时间转换问题 例子 假设有一个需求,是从数据库获取到了一个时间,然后需要把时间延后一天,再返回时间戳 得到伪代码 t := &qu ...
- 对于处理datetime数据类型的一些常用方法:
datetime数据类型常用方法: 在项目中从数据库中取出数据后通常需要先绘制图像进行数据的观察,此过程中使用到的方法: 1.时间数据类似于 2022-03-23 14:21:45 可以先转换为dat ...
- 命令行安装django以及新建项目及应用
1:安装django项目,使用pip命令进行安装,默认安装的是最高版本,可以使用pip install django==1.1.11进行指定版本安装 2:新建django项目 2.1:首先切换到创建项 ...
- matlab语法基础(处理一点数据)
1.声明函数,返回参数data,函数名为simutrack function data=simutrack(x0,y0) 2.%用于标注,注释 3.平方 ^2 4.二维零矩阵 [0 0;0 0] 5. ...
- MySQL配置主从分离
主服务器 192.168.176.110 从服务器 192.168.176.120 主数据库操作(ip:192.168.176.110) 配置MySQL主服务器的配置文件 [root@localho ...
- OpenCv基础_四
Harris角点检测 理解 内部点:蓝框所示,无论滑动窗口水平滑动还是竖直滑动,框内像素值都不会发生大的变化 边界点:黑框所示,滑动窗口沿着某一个方向滑动框内像素点不会发生大的改变,但是沿着另一个方向 ...
- kubernetes允许master调度
1,让 Master 也当作 Node 使用 (1)如果想让 Pod 也能调度到在 Master(本样例即 localhost.localdomain)上,可以执行如下命令使其作为一个工作节点: 注意 ...