BAT大数据面试题】的更多相关文章

1.kafka的message包括哪些信息 一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成 header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成. 当magic的值为1的时候,会在magic和crc32之间多一个字节的数据:attributes(保存一些相关属性, 比如是否压缩.压缩格式等等):如果magic的值为0,那么不存在attributes属性 body是由N个字节构成的一个消息体,包含了…
* 面试答案为LZ所写,如需转载请注明出处,谢谢. * 这里不涉及HiveSQL和HBase操作的笔试题,这些东西另有总结. 1.MR意义. MR是一个用于处理大数据的分布式离线计算框架,它采用”分而治之“的思想. 在分布式计算中,将分布式存储.分布式计算.负载均衡等复杂问题高度抽象成map和reduce两个过程. MR存在的意义在于它使得计算更廉价,大规模数据计算不再需要高级商用机器. 其次是这个软件的现成实现可以把程序员的精力集中在业务开发上,节省开发时间. 2.简述MR过程. MapRed…
供Linux开发中的同学们,Shell这可以说是一个基本功. 对于同学们的操作和维护.Shell也可以说是一种必要的技能,Shell.对于Release Team,软件配置管理的同学来说.Shell也起到了非常关键的数据.尤其是分布式系统发展的如火如荼,非常多开源项目都开展的如火如荼(好像不是分布式的系统都不好意思拿出来说事).分布式系统的配置.管理,Shell也起到了非常关键的数据,尽管仅仅是简单的文件拷贝,可是谁让Shell天生是做这些的呢? 当然了,以上不是本文的主题.本文的主题是Shel…
对于在Linux下开发的同学来说,Shell可以说是一种基本功. 对于运维的同学来说,Shell可以说是一种必备的技能,而且应该要非常熟练的书写Shell.对于Release Team,软件配置管理的同学来说,Shell也起到了非常重要的作用.尤其是分布式系统发展的如火如荼,很多开源项目都开展的如火如荼(好像不是分布式的系统都不好意思拿出来说事).分布式系统的配置,管理,Shell也起到了非常重要的作用,虽然只是简单的文件拷贝,但是谁让Shell天生是做这些的呢? 当然了,以上不是本文的主题.本…
本文只列出了问题,答案还是需要需要自己的总结,很多时候自己总结出来的语言在面试时比硬背的效果好很多. 这些题目是网友去百度.小米.乐视.美团.58.猎豹.360.新浪.搜狐等一线互联网公司面试被问到的题目.熟悉本文中列出的知识点会大大增加通过前两轮技术面试的几率. 熟练掌握java是很关键的,大公司不仅仅要求你会使用几个api,更多的是要你熟悉源码实现原理,甚至要你知道有哪些不足,怎么改进,还有一些java有关的一些算法,设计模式等等. (一) java基础面试知识点 java中==和equal…
问题描述: 现有海量日志数据保存在一个超大的文件中,该文件无法直接存入内存,要求从 中提取某天访问BD次数最多的IP 分析解读: 由于这个题目只关心某一天访问次数最多的IP,因此可以首先对文件进行一次遍历,把这一天访问的IP的相关信息记录到一个单独的文件中.接下来可以用之前的方法来进行求解.唯一需要确定的是把一个大文件分成多少个小文件比较合适.以IPV4为例子,由于一个IP地址占用32位,因此最多会有2^32=4G种取值情况.如果使用hash(IP)%1024值,那么把海量IP日志分别存储到10…
1. 下列哪项通常是集群的最主要瓶颈(C) A. CPU B. 网络 C. 磁盘IO D. 内存 2. 下列哪项可以作为集群的管理工具?(C) A.Puppet B.Pdsh C.ClouderaManager D.Zookeeper 3. 下列哪个是Hadoop 运行的模式?(ABC) A. 单机版 B. 伪分布式 C. 完全分布式 4. 列举几个hadoop 生态圈的组件并做简要描述 Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper 可以实现同步服务, 配置维…
1.storm基本架构 storm的主从分别为Nimbus.Supervisor,工作进程为Worker. 2.计算模型 Storm的计算模型分为Spout和Bolt,Spout作为管口.Bolt作为中间节点,数据传输的单元为tuple,每个tuple都有一个值列表, 需要注意这个值列表是带name列表的,Bolt只需要订阅Bolt/Spout的值列表的某些name,就能获得该Bolt/Spout传过来的相应字段的数据. 需要清楚并行度是怎么计算的,并行度其实就是Task的数目(也就是Bolt/…
题目描述: 给定a.b两个文件,各存放50亿个url,每个url各占64B,内存限制是4GB,请找出a.b两个文件共同的url 分析: 由于每个url需要占64B,所以50亿个url占用空间大小为50亿×64=5GB×64=320GB.由于内存大小只有4GB,因此不可能一次性把所有的url加载到内存中处理.对于这种题目,一般采用分治法,即把一个文件中的url按照某一特征分成多个文件,使得每个文件的内容都小于4GB,这样就可以把这个文件一次性读入到内存中进行处理. 解答: 1.遍历文件a,对遍历带…
一.布隆过滤器 问题:不安全网页的黑名单包含100亿个黑名单网页,每个网页的URL最多占用64B.现在想要实现一种网页过滤系统,可以根据网页的URL判断该网页是否在黑名单上,如何设计该系统. 要求:允许有万分之一以下的判断失误率:使用的额外空间不能超过30GB 思路:如果把黑名单中所有的URL通过数据库或者哈希表保存下来,至少需要640GB的空间. 解答:如果遇到网页黑名单系统.垃圾邮件过滤系统.爬虫的网址判重系统等题目,并且系统容忍一定程度的失误率以及对空间要求比较严格,那么需要用布隆过滤器来…