Tumblr：150亿月浏览量背后的架构挑战

Tumblr:150亿月浏览量背后的架构挑战 2013/04/08 · IT技术, 开发 · 9.9K 阅读 · HBase, Tumblr, 架构英文原文:High Scalability,编译:CSDN 导读:和许多新兴的网站一样,著名的轻博客服务Tumblr在急速发展中面临了系统架构的瓶颈.每天5亿次浏览量,峰值每秒4万次请求,每天3TB新的数据存储,超过1000台服务器,这样的情况下如何保证老系统平稳运行,平稳过渡到新的系统,Tumblr正面临巨大的挑战.近日,HighScalabil…

横瓜先生如何用MDB和XLS等低性能数据库来处理千亿级数据量。

横瓜先生如何用MDB和XLS等低性能数据库来处理千亿级数据量. 横瓜先生曾经用ACCESS做数据库,开发出高性能CMS来处理过TB级的文本数据量,任何请求都可以在10MS内完成,基本就是硬盘延迟的时间,横瓜先生所实现的CMS系统的性能,比百度和GOOGLE最优秀的工程师用世界上最快最稳定的oracle数据库开发的CMS的性能,要强至少1000倍以上,那横瓜先生如何做到呢?横瓜先生公布方法如下: 1.分割数据库,任意查询都转换成哈希匹配或二分匹配. 2.利用最快性能且最稳定性能的某条SQL语句,来…

Facebook如何管理150亿张照片

Facebook 的照片分享很受欢迎,迄今,Facebook 用户已经上传了150亿张照片,加上缩略图,总容量超过1.5PB,而每周新增的照片为2亿2000万张,约25TB,高峰期,Facebook 每秒处理55万张照片,这些数字让如何管理这些数据成为一个巨大的挑战.本文由 Facebook 工程师撰写,讲述了他们是如何管理这些照片的. 旧的 NFS 照片架构老的照片系统架构分以下几个层: 上传层接收用户上传的照片并保存在 NFS 存储层. 照片服务层接收 HTTP 请求并从 NFS 存储层…

分库代价高的情况下，如何优化ES解决亿级数据量检索

数据平台已迭代三个版本,从一开始遇到很多常见的难题,到现在终于有片段时间整理一些已完善的文档,在此分享以供所需朋友的实现参考,但愿能帮助大家少走些弯路,在此篇幅中偏重于ElasticSearch的优化. 一.需求说明项目背景: 在一业务系统中,部分表每天的数据量过亿,已按天分表,但业务上受限于按天查询,并且DB中只能保留3个月的数据(硬件高配),分库代价较高. 改进版本目标: 数据能跨月查询,并且支持1年以上的历史数据查询与导出: 按条件的数据查询秒级返回. 二.ElasticSearch检索…

phpcms V9首页频道页列表页推荐位简单获取文章浏览量和评论统计

phpcms V9首页频道页列表页推荐位简单获取文章浏览量和评论统计列表取得数据方法: {pc:content action="lists" catid="$catid" num="25" order="id DESC" page="$page" moreinfo="1"} {loop $data $r} {php $db = pc_base::load_model('hits…

五指cms内容浏览量实现方法

实现功能:文章浏览量的统计显示实现的详细:对文章的总浏览量.当天浏览量.当周浏览量.当月浏览量进行统计实现代码位置:coreframe/app/content/stat.php 实现的详细代码: <?php // +---------------------------------------------------------------------- /** * 内容模块访问统计 */ defined('IN_WZ') or exit('No direct script access a…

Python 自动刷博客浏览量

哈哈,今天的话题有点那什么了哈.咱们应该秉承学习技术的角度来看,那么就开始今天的话题吧. 思路来源今天很偶然的一个机会,听到别人在谈论现在的"刷量"行为,于是就激发了我的好奇心.然后看了下requests模块正好对我有用,就写了一个简单的测试用例.神奇的发现这一招竟然是管用的.那还等什么,开刷咯. 前奏思路很简单,就是一个发送请求的实现,就可以了.代码如下: headers = { 'referer':'http://blog.csdn.net/', 'User-Agent':'M…

C#爬虫使用代理刷csdn文章浏览量

昨天写了一篇关于“c#批量抓取免费代理并验证有效性”的文章,接着昨天的目标继续完成吧,最终实现的目的就是刷新csdn文章的浏览量(实际上很简单,之前博客园的文章也是可以使用代理ip来刷的,后来不行了),刷文章的浏览量本身是可耻的,没有任何意义,当然技术无罪.之前是在csdn写文章,自从csdn改版之后就主要在博客园写. 1.如何维护代理IP库? 想要使用代理IP,那就必须有一个一定数量.足够有效的代理ip库,在学习阶段,随便玩玩那就只能从免费的代理IP网站上抓取,没有一定数量的代理刷文章流浪量非…

【Python】模块学习之Timer定时任务，递归定时自调获取博客浏览量

Timer定时任务下面是Timer函数的官方doc介绍信息 """ Call a function after a specified number of seconds: t = Timer(30.0, f, args=None, kwargs=None) t.start() t.cancel() # stop the timer's action if it's still waiting """ 第一个参数时指定多长时间之后执行这个函数,…

Mongodb亿级数据量的性能测试

进行了一下Mongodb亿级数据量的性能测试,分别测试如下几个项目: (所有插入都是单线程进行,所有读取都是多线程进行) 1) 普通插入性能 (插入的数据每条大约在1KB左右) 2) 批量插入性能 (使用的是官方C#客户端的InsertBatch),这个测的是批量插入性能能有多少提高 3) 安全插入功能 (确保插入成功,使用的是SafeMode.True开关),这个测的是安全插入性能会差多少 4) 查询一个索引后的数字列,返回10条记录(也就是10KB)的性能,这个测的是索引查询的性能 5)…

从SpringBoot构建十万博文聊聊高并发文章浏览量设计

前言在经历了,缓存.限流.布隆穿透等等一系列加强功能,十万博客基本算是成型,网站上线以后也加入了百度统计来见证十万+ 的整个过程. 但是百度统计并不能对每篇博文进行详细的浏览量统计,如果做一些热点博文排行.48小时排行之类统计,还需要引入浏览量统计功能. 设计通常情况下,我们只需要每次请求浏览量+1,但是这样真的好吗?或者更直白的讲,真实浏览数准确吗? UPDATE blog SET views = views+1 WHERE id=? 参考了多个社区博客的设计,因为并不十分清楚其后端实现过…

SpringBoot：高并发下浏览量入库设计

一.背景文章浏览量统计,low的做法是:用户每次浏览,前端会发送一个GET请求获取一篇文章详情时,会把这篇文章的浏览量+1,存进数据库里. 1.1 这么做,有几个问题: 在GET请求的业务逻辑里进行了数据的写操作! 并发高的话,数据库压力太大: 同时,如果文章做了缓存和搜索引擎如ElasticSearch的存储,同步更新缓存和ElasticSearch更新同步更新太耗时,不更新就会导致数据不一致性. 1.2 解决方案 HyperLogLog HyperLogLog是Probabilistic…

thinkPHP中的简单文章推荐（按浏览量）功能实现

在公司中接触到了thinkPHP框架,其中要在项目中实现文章推荐功能.记录笔记如下: 一.在Controller中获取从文章列表页进入详情页传入的文章ID值. 二.在Controller中绑定数据库查询条件: 1.除去本篇文章 2.查找数据库目录中的同类型文章 3.按照数据库中设置的浏览量字段降序绑定给变量输出到view层的html中三:见图: 其中'cat'是文章类型字段,'hits'是点击量字段.在controller中写好以后,在View中渲染出来就ok. 2019/07/18随笔,如有…

Stack Overflow 上 370万浏览量的一个问题：如何比较 Java 的字符串？

在逛 Stack Overflow 的时候,发现了一些访问量像喜马拉雅山一样高的问题,比如说这个:如何比较 Java 的字符串?访问量足足有 370万+,这不得了啊!说明有很多很多的程序员被这个问题困扰过. PS:系列文章回顾:<Stack Overflow 上250万浏览量的一个问题:你对象丢了> 我们来回顾一下提问者的问题: 截止到目前为止,我一直使用"=="操作符来比较字符串,直到程序出现了一个 bug,需要使用 .equals() 方法来解决.这是为什么呢?&quo…

[转帖]Stack Overflow上188万浏览量的提问：Java 到底是值传递还是引用传递？

Stack Overflow上188万浏览量的提问:Java 到底是值传递还是引用传递? http://www.itpub.net/2019/12/03/4567/ 在逛 Stack Overflow 的时候,发现了一些访问量像阿尔卑斯山一样高的问题,比如说这个:Java 到底是值传递还是引用传递?访问量足足有 188万+,这不得了啊!说明有很多很多的程序员被这个问题困扰过.实话实说吧,我就是其中之一. 来回顾一下提问者的问题: 我一直认为 Java 是按引用传递的,但是我看一些博客上说不是…

redis实现点击量/浏览量

java+redis实现高性能新闻点击量更新 1.redis简单介绍.它用来做高性能数据存取是极好的. 2.实例:新闻点击量. 1)每次刷新,我们并不一定要往数据库里面立即更新数据 2)可以在redis里面做key-value存储 3)设置一个阀值,当用户刷新到一定数量时才更新到数据库中 3.本课时在windows下部署. 4.linux部署后面也会讲到课程地址 :http://edu.51cto.com/index.php?do=lesson&id=42104 API代码:http://…

java 如何快速的获取浏览量

最近公司做了一个类似于发帖,交友圈一个这样的功能在如何精确快速的获取用户的浏览量,且及时的更新显示,最初我是这样想,把每条帖子内容浏览量放到reids 里面,但是redis只是用来存零时数据,想想觉的还是放表里面好,在发布的帖子表增加一个字段作为该帖子的浏览量,但是每次从表里面读更新浏览量,这样肯定是不明智的做法,直接看下面代码 1:当用户浏览帖子内容时根据KEY 从redis 获取改帖子的浏览量如果存在,那么就在以前的基础上+1 否则就从数据库查询出来再+1然后放到缓存里面 // 浏览量…

万级TPS亿级流水-中台账户系统架构设计

万级TPS亿级流水-中台账户系统架构设计标签:高并发万级TPS 亿级流水账户系统背景业务模型应用层设计数据层设计日切对账背景我们需要给所有前台业务提供统一的账户系统,用来支撑所有前台产品线的用户资产管理,统一提供支持大并发万级TPS.亿级流水.数据强一致.风控安全.日切对账.财务核算.审计等能力,在万级TPS下保证绝对的数据准确性和数据溯源能力. 注:资金类系统只有合格和不合格,哪怕数据出现只有0.01分的差错也是不合格的,局部数据不准也就意味着全局数据都不可信. 本文只分享…

读<阿里亿级日活网关通道架构演进>有感

读<阿里亿级日活网关通道架构演进>时对优化方法有些概念不理解,特意搜索了一下,拓展自己的思路. 其中的优化: 优化方法中1,2比较常见,3,4我知道的比较少,很感兴趣.就继续追踪下去: 于是去网上搜索了ecdh和session-ticket及slight-ssl,其中slight-ssl是阿里自建的一套的技术. ecdh:ECC算法和DH结合使用,用于密钥磋商,这个密钥交换算法称为ECDH.交换双方可以在不共享任何秘密的情况下协商出一个密钥. session-ticket:在会话ticket复…

百亿级别数据量，又需要秒级响应的案例，需要什么系统支持呢？下面介绍下大数据实时分析工具Yonghong Z-Suite

Yonghong Z-Suite 除了提供优秀的前端BI工具之外,Yonghong Z-Suite让用户可以选购分布式数据集市来支持实时大数据分析. 对于这种百亿级的大数据案例,Yonghong Z-Suite有哪些技术可以保证大数据的实时响应呢?下面大致从技术上介绍下: 库内计算(In-Database Computing) Z-Suite支持各种常见的汇总,还支持几乎全部的专业统计函数.得益于库内计算技术,Z-Suite数据分析引擎将找寻出最优化的计算方案,继而把所有开销较大的.昂贵的计算都…

QQ18年，解密8亿月活的QQ后台服务接口隔离技术

作者:shane,腾讯后台开发高级工程师 QQ18年 1999年2月10日,腾讯QQ横空出世.光阴荏苒,那个在你屏幕右下角频频闪动的企鹅已经度过了18个年头.随着QQ一同成长的你,还记得它最初的摸样吗? 1999年:腾讯QQ的前身OICQ诞生,该版本具备中文网络寻呼机.公共聊天室以及传输文件功能. 1999年QQ界面 2000年,OICQ正式更名为QQ,发布视频聊天功能.QQ群和QQ秀等功能. 2003年版本,QQ发布聊天场景.捕捉屏幕.给好友播放录影及QQ炫铃等功能. 2004年,QQ新增…

数据库选型之亿级数据量并发访问（MySQL集群）

刘勇 Email:lyssym@sina.com 简介针对实际应用中并发访问MySQL的场景,本文采用多线程对MySQL进行并发读取访问,其中以返回用户所需的数据并显示在终端为测试结束节点,即将数据从MySQL集群读取后存储于客户端本地内存中.测试过程如下:分别针对4种应用场景,从10.20.50.100个线程对MySQL展开测试.测试结果表明:对场景1)一般的并发访问能够满足需求:对于场景2)和3)响应时间在分钟级,分别处于1-3分钟和10分钟左右:对于场景4)则经常会抛出异常,并且以异…

看StackOverflow如何用25台服务器撑起5.6亿的月PV（微软的架构）

问答社区网络 StackExchange 由 100 多个网站构成,其中包括了 Alexa 排名第 54 的 StackOverflow.StackExchang 有 400 万用户,每月 5.6 亿 PV,但只用 25 台服务器,并且 CPU 负荷并不高. 它没有使用云计算,因为云计算可能会拖慢速度,更难优化和更难排除系统故障. StackOverflow 仍然使用微软的架构,它非常实际,微软的基础设施能有效工作,又足够廉价,没有令人信服的理由需要做出改变.但这并不表示它不使用 Linux,…

深度揭秘腾讯云TSF日调用量超万亿次背后技术架构

腾讯云TSF是整合外部开源框架和腾讯内部历经多年锤炼的PaaS平台打造而成的企业级分布式应用服务开发与托管平台,本文重点对TSF中负责服务托管的PaaS平台进行揭秘,从技术角度解析TSF 平台是如何每天应对万亿次调用的服务托管与治理. TSF PaaS平台的前身是CAE(Cloud App Engine),其核心架构是参考Cloud Foundry设计研发的.为了给开发者提供更加便捷的服务,TSF和公司很多基础服务打通,例如腾讯网关TGW.名字服务L5.内部鉴权服务.以及消息队列等,使得用户可以…

财务平台亿级数据量毫秒级查询优化之elasticsearch原理解析

财务平台进行分录分表以后,随着数据量的日渐递增,业务人员对账务数据的实时分析响应时间越来越长,体验性慢慢下降,之前我们基于mysql的性能优化做了一遍,可以说基于mysql该做的优化已经基本上都做了,本次是基于elasticsearch对其做进一步的性能优化正文 1mysql索引原理基于mysql最常用也最直接有效的性能优化也就是添加索引. mysql索引是怎么实现的呢?数据库最基本的查询算法是顺序查找,时间复杂度为O(n),显然在数据量很大的时候很低,优化的查询算法有二分查找,二叉树查找,…

SQL优化（SQL TUNING）之10分钟完成亿级数据量性能优化（SQL调优）

前几天,一个用户研发QQ找我,如下: 自由的海豚. 16:12:01 岛主,我的一条SQL查不出来结果,能帮我看看不? 兰花岛主 16:12:10 多久不出结果? 自由的海豚 16:12:17 多久都没出结果,一直没看到结果过. 兰花岛主 16:12:26 呵呵,好. 兰花岛主 16:12:39 发下sql和执行计划. 自由的海豚 16:12:55 select n.c1, n.c2,n.c3,n.c4,n.c5 from (select count(t.c1), t.c1, t.c2,t.…

thinkphp结合ajax实现统计页面pv的浏览量

统计pv量很常用,下面的代码用ajax实现的,使用ajax可以避免页面缓存造成的影响,只要客户端的js代码执行了就可以统计流量. 一共就两部将下面代码放在要统计的html页面中,测试时把地址换成自己的. 1 2 3 4 5 6 <script> var ajax; if(window.XMLHttpRequest){ ajax = new XMLHttpRequest();}else{ ajax = new ActiveXObject('Microsoft.XMLHTTP');} ajax.…

SQL优化（SQL TUNING）之10分钟完毕亿级数据量性能优化（SQL调优）

前几天.一个用户研发QQ找我,例如以下: 自由的海豚. 16:12:01 岛主,我的一条SQL查不出来结果,能帮我看看不? 兰花岛主 16:12:10 多久不出结果? 自由的海豚 16:12:17 多久都没出结果,一直没看到结果过. 兰花岛主 16:12:26 呵呵.好. 兰花岛主 16:12:39 发下sql和运行计划. 自由的海豚 16:12:55 select n.c1, n.c2,n.c3,n.c4,n.c5 from (select count(t.c1), t.c1, t.c2…

Stack Overflow 上 250W 浏览量的一个问题：你对象丢了

在逛 Stack Overflow 的时候,发现最火的问题竟然是:什么是 NullPointerException(java.lang.NullPointerException),它是由什么原因导致的,有没有好的方法或者工具可以追踪它发生的原因? 真没想到,这个问题浏览的次数多达 250 万次!所以,我想是时候把最高赞的回答整理一下分享出来了.请随我来. 声明引用变量(即对象)时,实际上是创建了一个指向对象的指针.请看以下代码: int x;x = 10; 第一行代码声明了一个名为 x 的变量(…

【Python】对我自己的博客进行统计，看看哪年哪月发帖量最大

代码很简单,主要利用了requests进行网络访问,beautifulSoup进行页面文本分析,re进行正则表达式抽取文字,前面两个需要pip install name去安装,后者是内部对象所以不用安装.代码如下,只有区区二十七行: from bs4 import BeautifulSoup import requests import re user_agent='Mozilla/4.0 (compatible;MEIE 5.5;windows NT)' headers={'User-Agen…

【Tumblr：150亿月浏览量背后的架构挑战】的更多相关文章