近期在处理mongoDB 数据的时候,遇到了非常奇怪的格式,账号密码的日志都追加在一条记录里面,要取一个密码的时长和所有密码的平均时长就非常繁琐. 用了各种迭代计算,非常困难,而且printschema出来结构也是不规范的. 和同事一起研究后用了StructType 效率非常高. 代码如下: import java.sql.{DriverManager, ResultSet} import mongoDb_foundation_data20180913.url import org.apache…
package com.test; import java.util.ArrayList; import java.util.List; import java.util.Map; import org.apache.spark.Partitioner; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD;…
先来一个问题,也是面试中常问的: Spark为什么会流行? 原因1:优秀的数据模型和丰富计算抽象 Spark 产生之前,已经有MapReduce这类非常成熟的计算系统存在了,并提供了高层次的API(map/reduce),把计算运行在集群中并提供容错能力,从而实现分布式计算. 虽然MapReduce提供了对数据访问和计算的抽象,但是对于数据的复用就是简单的将中间数据写到一个稳定的文件系统中(例如HDFS),所以会产生数据的复制备份,磁盘的I/O以及数据的序列化,所以在遇到需要在多个计算之间复用中间结果的操…
Exception : . The full response is { , "codeName" : "Location28799" } at com.mongodb.connection.ProtocolHelper.getCommandFailureException(ProtocolHelper.java:) at com.mongodb.connection.CommandProtocol.execute(CommandProtocol.java:) at…
[error] at com.mongodb.connection.CommandProtocol.execute(CommandProtocol.java:) [error] at com.mongodb.connection.DefaultServer$DefaultServerProtocolExecutor.execute(DefaultServer.java:) [error] at com.mongodb.connection.DefaultServerConnection.exec…
1. 引子**** 有人在某个专注SQL的公众号留言如下: 这个留言触碰到一个非常敏感的问题:搞关系型数据库还有前途吗?现在都2020年了,区块链正火热,AI人才已经"过剩",大数据都成了稀松平常的萝卜白菜,你却还在搞SQL Server? 你还在搞SQL? 你就是那个被时代淘汰的人! 2. 原因 最近10年,数据管理领域的变化可谓精彩纷呈.什么Hadoop, Spark,MemcacheDB, Redis, Vertica, HANA, Cassandra, MongoDB, Inf…
1. 简介 是一个分布式, 高容错的 实时计算框架 Storm进程常驻内存, 永久运行 Storm数据不经过磁盘, 在内存中流转, 通过网络直接发送给下游 流式处理(streaming) 与 批处理(batch) 批处理(batch): MapReduce 微批处理(MircroBatch): Spark (性能上近似 Streaming, 但是还是有所不及) 流(streaming): Storm, Flink(其实Flink也可以做批处理) Storm MapReduce 流式处理 批处理…
环境要求: 1.编程语言版本python3: 2.系统:win10; 3.浏览器:Chrome68.0.3440.75:(如果不是最新版有可能影响到程序执行) 4.chromedriver2.41 注意点:pip3 install 命令必须在管理员权限下才能有效下载! 一.安装python3 不是本文重点,初学者,建议上百度搜索,提供几个思路: 1.官网:https://www.python.org/   IDE:pycharm 2.anaconda安装后自带python 等等. 二.配置环境变…
一.reduce和reduceByKey: 二.:RDD 的算子总结 RDD 的算子大部分都会生成一些专用的 RDD map, flatMap, filter 等算子会生成 MapPartitionsRDD coalesce, repartition 等算子会生成 CoalescedRDD 常见的 RDD 有两种类型 转换型的 RDD, Transformation 动作型的 RDD, Action 常见的 Transformation 类型的 RDD map flatMap filter gr…
一 环境: spark-: hive-; scala-; hadoop--cdh-; jdk-1.8; mongodb-2.4.10; 二.数据情况: MongoDB数据格式{    "_id" : ObjectId("5ba0569cafc9ec432bd310a3"),    "id" : 7,    "name" : "7mongoDBi am using mongodb now",    "…