spark streaming项目 学习笔记 为什么要flume+kafka? 生成数据有高峰与低峰,如果直接高峰数据过来flume+spark/storm,实时处理容易处理不过来,扛不住压力.而选用flume+kafka添加了消息缓冲队列,spark可以去kafka里面取得数据,那么就可以起到缓冲的作用. Flume架构: 参考学习:http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html 启动一个agent: bin…