SparkStreaming python 读取kafka数据将结果输出到单个指定本地文件

# -*- coding: UTF-8 -*-

#!/bin/env python3

# filename readFromKafkaStreamingGetLocation.py

import IP

from pyspark import SparkContext

from pyspark.streaming import StreamingContext

from pyspark.streaming.kafka import KafkaUtils

import datetime

class KafkaMessageParse:

    def extractFromKafka(self,kafkainfo):

        if type(kafkainfo) is tuple and len(kafkainfo) == 2:

            return kafkainfo[1]

    def lineFromLines(self,lines):

        if lines is not None and len(lines) > 0:

            return lines.strip().split("\n")

    def messageFromLine(self,line):

        if line is not None and "message" in line.keys():

            return line.get("message")

    def ip2location(self,ip):

        result = []

        country = 'country'

        province = 'province'

        city = 'city'

        ipinfo = IP.find(ip.strip())

        try:

            location = ipinfo.split("\t")

            if len(location) == 3:

                country = location[0]

                province = location[1]

                city = location[2]

            elif len(location) == 2:

                country = location[0]

                province = location[1]

            else:

                pass

        except Exception:

            pass

        result.append(ip)

        result.append(country)

        result.append(province)

        result.append(city)

        return result

    def vlistfromkv(self, strori, sep1, sep2):

        resultlist = []

        fields = strori.split(sep1)

        for field in fields:

            kv = field.split(sep2)

            resultlist.append(kv[1])

        return resultlist

    def extractFromMessage(self, message):

        if message is not None and len(message) > 1:

            if len(message.split("\u0001")) == 8:

                resultlist = self.vlistfromkv(message, "\x01", "\x02")

                source = resultlist.pop()

                ip = resultlist.pop()

                resultlist.extend(self.ip2location(ip))

                resultlist.append(source)

                result = "\x01".join(resultlist)

        return result

def tpprint(val, num=10000):

    """

    Print the first num elements of each RDD generated in this DStream.

    @param num: the number of elements from the first will be printed.

    """

    def takeAndPrint(time, rdd):

        taken = rdd.take(num + 1)

        print("########################")

        print("Time: %s" % time)

        print("########################")

        DATEFORMAT = '%Y%m%d'

        today = datetime.datetime.now().strftime(DATEFORMAT)

        myfile = open("/data/speech/speech." + today, "a")

        for record in taken[:num]:

            print(record)

            myfile.write(str(record)+"\n")

        myfile.close()

        if len(taken) > num:

            print("...")

        print("")

    val.foreachRDD(takeAndPrint)

if __name__ == '__main__':

    zkQuorum = 'datacollect-1:2181,datacollect-2:2181,datacollect-3:2181'

    topic = {'speech-1': 1, 'speech-2': 1, 'speech-3': 1, 'speech-4':1, 'speech-5':1}

    groupid = "rokid-speech-get-location"

    master = "local[*]"

    appName = "SparkStreamingRokid"

    timecell = 5

    sc = SparkContext(master=master, appName=appName)

    ssc = StreamingContext(sc, timecell)

    # ssc.checkpoint("checkpoint_"+time.strftime("%Y-%m-%d", time.localtime(time.time())))

    kvs = KafkaUtils.createStream(ssc, zkQuorum, groupid, topic)

    kmp = KafkaMessageParse()

    lines = kvs.map(lambda x: kmp.extractFromKafka(x))

    lines1 = lines.flatMap(lambda x: kmp.lineFromLines(x))

    valuedict = lines1.map(lambda x: eval(x))

    message = valuedict.map(lambda x: kmp.messageFromLine(x))

    rdd2 = message.map(lambda x: kmp.extractFromMessage(x))

    # rdd2.pprint()

    tpprint(rdd2)

    # rdd2.fileprint(filepath="result.txt")

    # rdd2.foreachRDD().saveAsTextFiles("/home/admin/agent/spark/result.txt")

    # sc.parallelize(rdd2.cache()).saveAsTextFile("/home/admin/agent/spark/result", "txt")

    # rdd2.repartition(1).saveAsTextFiles("/home/admin/agent/spark/result.txt")

    ssc.start()

    ssc.awaitTermination()

主要是重写pprint()函数

参考：https://stackoverflow.com/questions/37864526/append-spark-dstream-to-a-single-file-in-python

SparkStreaming python 读取kafka数据将结果输出到单个指定本地文件的更多相关文章

使用spark-streaming实时读取Kafka数据统计结果存入MySQL
在这篇文章里,我们模拟了一个场景,实时分析订单数据,统计实时收益. 场景模拟我试图覆盖工程上最为常用的一个场景: 1)首先,向Kafka里实时的写入订单数据,JSON格式,包含订单ID-订单类型-订 ...
SparkStreaming直连方式读取kafka数据，使用MySQL保存偏移量
SparkStreaming直连方式读取kafka数据,使用MySQL保存偏移量 1. ScalikeJDBC 2.配置文件 3.导入依赖的jar包 4.源码测试通过MySQL保存kafka的偏移量 ...
Windows下Python读取GRIB数据
之前写了一篇<基于Python的GRIB数据可视化>的文章,好多博友在评论里问我Windows系统下如何读取GRIB数据,在这里我做一下说明. 一.在Windows下Python为什么无法 ...
Python读取JSON数据，并解决字符集不匹配问题
今天来谈一谈Python解析JSON数据,并写入到本地文件的一个小例子. – 思路如下从一个返回JSON天气数据的网站获取到目标JSON数据串使用Python解析出需要的部分写入到本地文件,供其 ...
python 读取excel数据并将测试结果填入Excel
python 读取excel数据并将测试结果填入Excel 读取一个Excel中的一条数据用例,请求接口,然后返回结果并反填到excel中.过程中会生成请求回来的文本,当然还会生成一个xml文件.具体 ...
flume 读取kafka 数据
本文介绍flume读取kafka数据的方法代码: /************************************************************************* ...
spark读取kafka数据 createStream和createDirectStream的区别
1.KafkaUtils.createDstream 构造函数为KafkaUtils.createDstream(ssc, [zk], [consumer group id], [per-topic, ...
Python读取excel 数据
1.安装xlrd 2.官网通过官网来查看如何使用python读取Excel,python excel官网: http://www.python-excel.org/ 实例: (1)Excel内容把 ...
Python读取Excel数据并根据列名取值
一直想将自己接触到的东西梳理一遍,可就是迈不出第一步,希望从这篇总结开始不要再做行动的矮人了. 最近测试过程中需要用到python读取excel用例数据,于是去了解和学习了下xlrd库,这里只记录使用 ...

随机推荐

MongoDB资料汇总专题
原文地址:http://bbs.chinaunix.net/thread-3675396-1-1.html 上一篇Redis资料汇总专题很受大家欢迎,这里将MongoDB的系列资料也进行了简单整理.希 ...
【jquery】$(document).ready() 与window.onload的区别
Jquery中$(document).ready()的作用类似于传统JavaScript中的window.onload方法,不过与window.onload方法还是有区别的. 1)执行时间 wind ...
反射已经"Out",动态编译才能"Hold"住
Net支持反射功能以后,确实使我们Net程序眼前一亮啊,真是太神奇了,只需要传入字符串就可以完成功能.可以说,反射功能的引入,使我们在处理某些问题上更加得心应手. 传统的Db管理软件中,数据库字段的频 ...
Oracle数据库创建表是有两个约束带有默认索引
Oracle数据库创建表是有两个约束带有默认索引.1.主键primary Key:唯一索引.非空2.唯一Unique:唯一索引,可以是空值如果没有设定主键和唯一约束,表中不会有默认索引的. 建立主键/ ...
how-to-convert-string-to-localdate
Few Java examples show you how to convert a String to the new Java 8 Date API – java.time.LocalDate ...
es6 对象解构与参数默认值
var abc = ({a = 123, b = 321, c = 456} = {}) => console.log(20181109155055, a) abc()
ReferenceError: weakly-referenced object no longer exists Python kafka
Python存入kafka报错,ReferenceError: weakly-referenced object no longer exists. Exception in thread 14: p ...
使用C#和Thrift来访问Hbase实例
今天试着用C#和Thrift来访问Hbase,主要参考了博客园上的这篇文章.查了Thrift,Hbase的资料,结合博客园的这篇文章,终于搞好了.期间经历了不少弯路,下面我尽量详细的记录下来,免得大家 ...
tensorflow中使用Batch Normalization
在深度学习中为了提高训练速度,经常会使用一些正正则化方法,如L2.dropout,后来Sergey Ioffe 等人提出Batch Normalization方法,可以防止数据分布的变化,影响神经网络 ...
mongodb 远程访问配置
1.首先修改mongodb的配置文件让其监听所有外网ip 编辑文件:/etc/mongodb.conf 修改后的内容如下: bind_ip = 0.0.0.0 port = 27017 auth=t ...

SparkStreaming python 读取kafka数据将结果输出到单个指定本地文件

SparkStreaming python 读取kafka数据将结果输出到单个指定本地文件的更多相关文章

随机推荐

热门专题