Tumblr:150亿月浏览量背后的架构挑战 2013/04/08 · IT技术, 开发 · 9.9K 阅读 · HBase, Tumblr, 架构 英文原文:High Scalability,编译:CSDN 导读:和许多新兴的网站一样,著名的轻博客服务Tumblr在急速发展中面临了系统架构的瓶颈.每天5亿次浏览量,峰值每秒4万次请求,每天3TB新的数据存储,超过1000台服务器,这样的情况下如何保证老系统平稳运行,平稳过渡到新的系统,Tumblr正面临巨大的挑战.近日,HighScalabil…
横瓜先生如何用MDB和XLS等低性能数据库来处理千亿级数据量. 横瓜先生曾经用ACCESS做数据库,开发出高性能CMS来处理过TB级的文本数据量,任何请求都可以在10MS内完成,基本就是硬盘延迟的时间,横瓜先生所实现的CMS系统的性能,比百度和GOOGLE最优秀的工程师用世界上最快最稳定的oracle数据库开发的CMS的性能,要强至少1000倍以上,那横瓜先生如何做到呢?横瓜先生公布方法如下: 1.分割数据库,任意查询都转换成哈希匹配或二分匹配. 2.利用最快性能且最稳定性能的某条SQL语句,来…
Facebook 的照片分享很受欢迎,迄今,Facebook 用户已经上传了150亿张照片,加上缩略图,总容量超过1.5PB,而每周新增的照片为2亿2000万张,约25TB,高峰期,Facebook 每秒处理55万张照片,这些数字让如何管理这些数据成为一个巨大的挑战.本文由 Facebook 工程师撰写,讲述了他们是如何管理这些照片的. 旧的 NFS 照片架构 老的照片系统架构分以下几个层: 上传层接收用户上传的照片并保存在 NFS 存储层. 照片服务层接收 HTTP 请求并从  NFS 存储层…
数据平台已迭代三个版本,从一开始遇到很多常见的难题,到现在终于有片段时间整理一些已完善的文档,在此分享以供所需朋友的实现参考,但愿能帮助大家少走些弯路,在此篇幅中偏重于ElasticSearch的优化. 一.需求说明 项目背景: 在一业务系统中,部分表每天的数据量过亿,已按天分表,但业务上受限于按天查询,并且DB中只能保留3个月的数据(硬件高配),分库代价较高. 改进版本目标: 数据能跨月查询,并且支持1年以上的历史数据查询与导出: 按条件的数据查询秒级返回. 二.ElasticSearch检索…
phpcms V9首页 频道页 列表页 推荐位 简单获取文章浏览量和评论统计 列表取得数据方法: {pc:content action="lists" catid="$catid" num="25" order="id DESC" page="$page" moreinfo="1"} {loop $data $r} {php $db = pc_base::load_model('hits…
实现功能:文章浏览量的统计显示 实现的详细:对文章的总浏览量.当天浏览量.当周浏览量.当月浏览量进行统计 实现代码位置:coreframe/app/content/stat.php 实现的详细代码: <?php // +---------------------------------------------------------------------- /** * 内容模块访问统计 */ defined('IN_WZ') or exit('No direct script access a…
哈哈,今天的话题有点那什么了哈.咱们应该秉承学习技术的角度来看,那么就开始今天的话题吧. 思路来源 今天很偶然的一个机会,听到别人在谈论现在的"刷量"行为,于是就激发了我的好奇心.然后看了下requests模块正好对我有用,就写了一个简单的测试用例.神奇的发现这一招竟然是管用的.那还等什么,开刷咯. 前奏 思路很简单,就是一个发送请求的实现,就可以了.代码如下: headers = { 'referer':'http://blog.csdn.net/', 'User-Agent':'M…
昨天写了一篇关于“c#批量抓取免费代理并验证有效性”的文章,接着昨天的目标继续完成吧,最终实现的目的就是刷新csdn文章的浏览量(实际上很简单,之前博客园的文章也是可以使用代理ip来刷的,后来不行了),刷文章的浏览量本身是可耻的,没有任何意义,当然技术无罪.之前是在csdn写文章,自从csdn改版之后就主要在博客园写. 1.如何维护代理IP库? 想要使用代理IP,那就必须有一个一定数量.足够有效的代理ip库,在学习阶段,随便玩玩那就只能从免费的代理IP网站上抓取,没有一定数量的代理刷文章流浪量非…
Timer定时任务 下面是Timer函数的官方doc介绍信息 """ Call a function after a specified number of seconds: t = Timer(30.0, f, args=None, kwargs=None) t.start() t.cancel() # stop the timer's action if it's still waiting """ 第一个参数时指定多长时间之后执行这个函数,…
进行了一下Mongodb亿级数据量的性能测试,分别测试如下几个项目:   (所有插入都是单线程进行,所有读取都是多线程进行) 1) 普通插入性能 (插入的数据每条大约在1KB左右) 2) 批量插入性能 (使用的是官方C#客户端的InsertBatch),这个测的是批量插入性能能有多少提高 3) 安全插入功能 (确保插入成功,使用的是SafeMode.True开关),这个测的是安全插入性能会差多少 4) 查询一个索引后的数字列,返回10条记录(也就是10KB)的性能,这个测的是索引查询的性能 5)…
前言 在经历了,缓存.限流.布隆穿透等等一系列加强功能,十万博客基本算是成型,网站上线以后也加入了百度统计来见证十万+ 的整个过程. 但是百度统计并不能对每篇博文进行详细的浏览量统计,如果做一些热点博文排行.48小时排行之类统计,还需要引入浏览量统计功能. 设计 通常情况下,我们只需要每次请求浏览量+1,但是这样真的好吗?或者更直白的讲,真实浏览数准确吗? UPDATE blog SET views = views+1 WHERE id=? 参考了多个社区博客的设计,因为并不十分清楚其后端实现过…
一.背景 文章浏览量统计,low的做法是:用户每次浏览,前端会发送一个GET请求获取一篇文章详情时,会把这篇文章的浏览量+1,存进数据库里. 1.1 这么做,有几个问题: 在GET请求的业务逻辑里进行了数据的写操作! 并发高的话,数据库压力太大: 同时,如果文章做了缓存和搜索引擎如ElasticSearch的存储,同步更新缓存和ElasticSearch更新同步更新太耗时,不更新就会导致数据不一致性. 1.2 解决方案 HyperLogLog HyperLogLog是Probabilistic…
在公司中接触到了thinkPHP框架,其中要在项目中实现文章推荐功能.记录笔记如下: 一.在Controller中获取从文章列表页进入详情页传入的文章ID值. 二.在Controller中绑定数据库查询条件: 1.除去本篇文章 2.查找数据库目录中的同类型文章 3.按照数据库中设置的浏览量字段降序绑定给变量输出到view层的html中 三:见图: 其中'cat'是文章类型字段,'hits'是点击量字段.在controller中写好以后,在View中渲染出来就ok. 2019/07/18随笔,如有…
在逛 Stack Overflow 的时候,发现了一些访问量像喜马拉雅山一样高的问题,比如说这个:如何比较 Java 的字符串?访问量足足有 370万+,这不得了啊!说明有很多很多的程序员被这个问题困扰过. PS:系列文章回顾:<Stack Overflow 上250万浏览量的一个问题:你对象丢了> 我们来回顾一下提问者的问题: 截止到目前为止,我一直使用"=="操作符来比较字符串,直到程序出现了一个 bug,需要使用 .equals() 方法来解决.这是为什么呢?&quo…
Stack Overflow上188万浏览量的提问:Java 到底是值传递还是引用传递? http://www.itpub.net/2019/12/03/4567/   在逛 Stack Overflow 的时候,发现了一些访问量像阿尔卑斯山一样高的问题,比如说这个:Java 到底是值传递还是引用传递?访问量足足有 188万+,这不得了啊!说明有很多很多的程序员被这个问题困扰过.实话实说吧,我就是其中之一. 来回顾一下提问者的问题: 我一直认为 Java 是按引用传递的,但是我看一些博客上说不是…
java+redis实现高性能新闻点击量更新 1.redis简单介绍.它用来做高性能数据存取 是极好的. 2.实例:新闻点击量. 1)每次刷新,我们并不一定要往数据库里面立即更新数据 2)可以在redis里面做key-value存储 3)设置一个阀值,当用户刷新到一定数量时才更新到数据库中 3.本课时在windows下部署. 4.linux部署 后面也会讲到 课程地址 :http://edu.51cto.com/index.php?do=lesson&id=42104 API代码:http://…
最近公司做了一个类似 于发帖,交友圈一个这样的功能 在如何精确快速的获取用户的浏览量,且及时的更新显示,最初我是这样想,把每条帖子内容浏览量放到reids 里面,但是redis只是用来存零时数据,想想觉的还是放表里面好,在发布的帖子表增加一个字段作为该帖子的浏览量,但是每次从表里面读更新浏览量,这样肯定是不明智的做法,直接看下面代码 1:当用户浏览帖子内容时 根据KEY 从redis 获取改帖子的浏览量如果存在,那么就在以前的基础上+1 否则就从数据库查询出来再+1然后放到缓存里面 // 浏览量…
万级TPS亿级流水-中台账户系统架构设计 标签:高并发 万级TPS 亿级流水 账户系统 背景 业务模型 应用层设计 数据层设计 日切对账 背景 我们需要给所有前台业务提供统一的账户系统,用来支撑所有前台产品线的用户资产管理,统一提供支持大并发万级TPS.亿级流水.数据强一致.风控安全.日切对账.财务核算.审计等能力,在万级TPS下保证绝对的数据准确性和数据溯源能力. 注:资金类系统只有合格和不合格,哪怕数据出现只有0.01分的差错也是不合格的,局部数据不准也就意味着全局数据都不可信. 本文只分享…
读<阿里亿级日活网关通道架构演进>时对优化方法有些概念不理解,特意搜索了一下,拓展自己的思路. 其中的优化: 优化方法中1,2比较常见,3,4我知道的比较少,很感兴趣.就继续追踪下去: 于是去网上搜索了ecdh和session-ticket及slight-ssl,其中slight-ssl是阿里自建的一套的技术. ecdh:ECC算法和DH结合使用,用于密钥磋商,这个密钥交换算法称为ECDH.交换双方可以在不共享任何秘密的情况下协商出一个密钥. session-ticket:在会话ticket复…
Yonghong Z-Suite 除了提供优秀的前端BI工具之外,Yonghong Z-Suite让用户可以选购分布式数据集市来支持实时大数据分析. 对于这种百亿级的大数据案例,Yonghong Z-Suite有哪些技术可以保证大数据的实时响应呢?下面大致从技术上介绍下: 库内计算(In-Database Computing) Z-Suite支持各种常见的汇总,还支持几乎全部的专业统计函数.得益于库内计算技术,Z-Suite数据分析引擎将找寻出最优化的计算方案,继而把所有开销较大的.昂贵的计算都…
作者:shane,腾讯后台开发高级工程师 QQ18年 1999年2月10日,腾讯QQ横空出世.光阴荏苒,那个在你屏幕右下角频频闪动的企鹅已经度过了18个年头.随着QQ一同成长的你,还记得它最初的摸样吗?   1999年:腾讯QQ的前身OICQ诞生,该版本具备中文网络寻呼机.公共聊天室以及传输文件功能. 1999年QQ界面 2000年,OICQ正式更名为QQ,发布视频聊天功能.QQ群和QQ秀等功能. 2003年版本,QQ发布聊天场景.捕捉屏幕.给好友播放录影及QQ炫铃等功能. 2004年,QQ新增…
刘 勇  Email:lyssym@sina.com 简介 针对实际应用中并发访问MySQL的场景,本文采用多线程对MySQL进行并发读取访问,其中以返回用户所需的数据并显示在终端为测试结束节点,即将数据从MySQL集群读取后存储于客户端本地内存中.测试过程如下:分别针对4种应用场景,从10.20.50.100个线程对MySQL展开测试.测试结果表明:对场景1)一般的并发访问能够满足需求:对于场景2)和3)响应时间在分钟级,分别处于1-3分钟和10分钟左右:对于场景4)则经常会抛出异常,并且以异…
 问答社区网络 StackExchange 由 100 多个网站构成,其中包括了 Alexa 排名第 54 的 StackOverflow.StackExchang 有 400 万用户,每月 5.6 亿 PV,但只用 25 台服务器,并且 CPU 负荷并不高. 它没有使用云计算,因为云计算可能会拖慢速度,更难优化和更难排除系统故障. StackOverflow 仍然使用微软的架构,它非常实际,微软的基础设施能有效工作,又足够廉价,没有令人信服的理由需要做出改变.但这并不表示它不使用 Linux,…
腾讯云TSF是整合外部开源框架和腾讯内部历经多年锤炼的PaaS平台打造而成的企业级分布式应用服务开发与托管平台,本文重点对TSF中负责服务托管的PaaS平台进行揭秘,从技术角度解析TSF 平台是如何每天应对万亿次调用的服务托管与治理. TSF PaaS平台的前身是CAE(Cloud App Engine),其核心架构是参考Cloud Foundry设计研发的.为了给开发者提供更加便捷的服务,TSF和公司很多基础服务打通,例如腾讯网关TGW.名字服务L5.内部鉴权服务.以及消息队列等,使得用户可以…
财务平台进行分录分表以后,随着数据量的日渐递增,业务人员对账务数据的实时分析响应时间越来越长,体验性慢慢下降,之前我们基于mysql的性能优化做了一遍,可以说基于mysql该做的优化已经基本上都做了,本次是基于elasticsearch对其做进一步的性能优化 正文 1mysql索引原理 基于mysql最常用也最直接有效的性能优化也就是添加索引. mysql索引是怎么实现的呢?数据库最基本的查询算法是顺序查找,时间复杂度为O(n),显然在数据量很大的时候很低,优化的查询算法有二分查找,二叉树查找,…
前几天,一个用户研发QQ找我,如下: 自由的海豚. 16:12:01 岛主,我的一条SQL查不出来结果,能帮我看看不? 兰花岛主 16:12:10 多久不出结果? 自由的海豚 16:12:17 多久都没出结果,一直没看到结果过. 兰花岛主 16:12:26 呵呵,好. 兰花岛主 16:12:39 发下sql和执行计划. 自由的海豚 16:12:55 select n.c1, n.c2,n.c3,n.c4,n.c5  from (select  count(t.c1), t.c1, t.c2,t.…
统计pv量很常用,下面的代码用ajax实现的,使用ajax可以避免页面缓存造成的影响,只要客户端的js代码执行了就可以统计流量. 一共就两部 将下面代码放在要统计的html页面中,测试时把地址换成自己的. 1 2 3 4 5 6 <script> var ajax; if(window.XMLHttpRequest){ ajax = new XMLHttpRequest();}else{ ajax = new ActiveXObject('Microsoft.XMLHTTP');} ajax.…
前几天.一个用户研发QQ找我,例如以下: 自由的海豚. 16:12:01 岛主,我的一条SQL查不出来结果,能帮我看看不? 兰花岛主 16:12:10 多久不出结果? 自由的海豚 16:12:17 多久都没出结果,一直没看到结果过. 兰花岛主 16:12:26 呵呵.好. 兰花岛主 16:12:39 发下sql和运行计划. 自由的海豚 16:12:55 select n.c1, n.c2,n.c3,n.c4,n.c5   from (select  count(t.c1), t.c1, t.c2…
在逛 Stack Overflow 的时候,发现最火的问题竟然是:什么是 NullPointerException(java.lang.NullPointerException),它是由什么原因导致的,有没有好的方法或者工具可以追踪它发生的原因? 真没想到,这个问题浏览的次数多达 250 万次!所以,我想是时候把最高赞的回答整理一下分享出来了.请随我来. 声明引用变量(即对象)时,实际上是创建了一个指向对象的指针.请看以下代码: int x;x = 10; 第一行代码声明了一个名为 x 的变量(…
代码很简单,主要利用了requests进行网络访问,beautifulSoup进行页面文本分析,re进行正则表达式抽取文字,前面两个需要pip install name去安装,后者是内部对象所以不用安装.代码如下,只有区区二十七行: from bs4 import BeautifulSoup import requests import re user_agent='Mozilla/4.0 (compatible;MEIE 5.5;windows NT)' headers={'User-Agen…