王振华,趣头条大数据总监,趣头条大数据负责人 曹佳清,趣头条大数据离线团队高级研发工程师,曾就职于饿了么大数据INF团队负责存储层和计算层组件研发,目前负责趣头条大数据计算层组件Spark的建设 范振,花名辰繁,阿里云计算平台EMR高级技术专家,目前主要关注开源大数据技术以及云原生技术. 1. 业务场景与现状 趣头条是一家依赖大数据的科技公司,在2018-2019年经历了业务的高速发展,主App和其他创新App的日活增加了10倍以上,相应的大数据系统也从最初的100台机器增加到了1000台以上规…
作者简介 王振华,趣头条大数据总监,趣头条大数据负责人. 王海胜,趣头条大数据工程师,10 年互联网工作经验,曾在 eBay.唯品会等公司从事大数据开发相关工作,有丰富的大数据落地经验. 高昌健,Juicedata 解决方案架构师,十年互联网行业从业经历,曾在知乎.即刻.小红书多个团队担任架构师职位,专注于分布式系统.大数据.AI 领域的技术研究. 背景 趣头条大数据平台目前有一个近千节点的 HDFS 集群,承载着存储最近几个月热数据的功能,每日新增数据达到了百 TB 规模.日常的 ETL 和…
项目简介 爬取趣头条新闻(http://home.qutoutiao.net/pages/home.html),具体内容: 1.列表页(json):标题,简介.封面图.来源.发布时间 2.详情页(html):详细内容和图片 目录结构 生成的数据文件-单条记录 主要代码说明 爬虫: #爬取趣头条列表和详情页 qutoutiao.spiders.qutoutiaos.QutoutiaosSpider管道文件: #封面图片处理类 qutoutiao.imagepipelines.CoverImageP…
本文由趣头条实时平台负责人席建刚分享趣头条实时平台的建设,整理者叶里君.文章将从平台的架构.Flink 现状,Flink 应用以及未来计划四部分分享. 一.平台架构 1.Flink 应用时间线 首先是平台的架构,2018 年 3 月之前基本都是基于 Storm 和 Spark Streaming 来做的.目前,基本已经把 Spark Streaming 和 Storm 淘汰了,主要都是 Flink SQL 来做的.起初还比较传统,一般是接需求然后开发类似于 Flink SQL 的任务,基本是手工…
Elasticsearch在db_ranking 的排名又(双叒叕)上升了一位,如图1-1所示;由此可见es在存储领域已经蔚然成风且占有非常重要的地位. 随着Elasticsearch越来越受欢迎,企业花费在ES建设上的成本自然也不少.那如何减少ES的成本呢?今天我们就特地来聊聊ES降本增效的常见方法: 弹性伸缩 分级存储 其他:(1)数据压缩(2)off heap 图 1-1 Elasticsearch db_ranking 1 弹性伸缩 所谓弹性伸缩翻译成大白话就是随时快速瘦身与增肥,并且是…
手机H5 web调试利器--WEINRE (WEb INspector REmote) 调试移动端页面,优先选择使用chrome浏览器调试,如果是hybrid形式的页面,可以使用chrome提供的chrome://inspect/#devices 安卓真机调试,不过这个要求比较高: 首先,你的 Chrome 版本必须高于 32 其次你的测试机 Android 系统高于 4.0, 再其次,测试机安装 Chrome for Android 才可以使用 Chrome 远程调试这项功能, 最后, 手机需…
在企业中,节约一分钱比挣一分钱容易得多,这是指导企业降本增效的名言之一啊,作为一名企业里的IT人员我是深有感触,尤其是IT方面,除了在互联网公司是生产力的排头兵,在制造业单位里那一般都是后勤保障部门,不仅不能直接为企业上产制造的创造价值,还要花公司的钱,尽管在国内一线大公司这种状况已有所改观,但是国内中小企业IT依然是个节约为主的部门.在这种背景之下,前些日子公司的邮件服务器合同到期了,乙方已下一年系统升级服务更有为名加价不少,导致了公司上曾领导不续签了合同,同时自建新的邮件服务器的任务也落到了…
降本增效是IT部门永恒的主题,从自身做起.踏踏实实把工作做好 在线词云制作软件: https://wordart.com/create…
前言 博主目前从事Android开发3年,前两年一直在抖音工作.我这篇文章并不是简单的描述一些面试中的题,或者总结一些Android的知识,而是想记录我整个的想法和准备的过程,以及一些心得体会,让大家更加全面的去看待工作.跳槽和生活(从我的角度,当然肯定有不合理的地方,大家借鉴就好) 抖音两年 在字节跳动的两年时间中见证了抖音从百万日活到2.5亿.团队从10人到100多人的过程,技术上不同时期的选型以及迭代.沉淀和更替.项目上经历了一个工程到模块化再到组件化最后插件化,深刻理解项目不同阶段和不同…
在当下经济明显进入存量博弈的阶段,大到各经济体,小到企业,粗放的增长模式已不适宜持续,以往高增长的时代已经成为过去,亟需通过变革发掘新的增长点.对于竞争激烈的线下零售行业而言,则更需如此. 零售行业一般涉及的环节众多,包括商品选品.采购.库存.渠道.促销等等.如何寻找核心点打通整条链路上的各环节,提升经营效率,增加盈利呢?我们给出的答案就是围绕人的精准需求预测. 人是新零售人货场的核心,也是线下零售企业最重要的资源.通过以精准需求预测为中心,拉通供应链上各环节,产生协同效应以提升经营效率.精准的…