大数据:从开源告诉你身边的IT故事
最近我们Team利用Dream分布式计算平台,做了这样一件事情,将Github的大量数据通过爬虫抓取下来,通过分析后,我们抽取最近一年中部分的开发者和项目信息,得到了如下有趣的信息,故分享之,数据原汁原味,无人工干涉。(感谢Iveely Team 所有成员的付出)
第一份数据:全球IT人才分布

图1 全球IT人才分布图
其中颜色越深,表示聚集的IT人才越多。其实从这一份数据来看,我们都能理解美国、中国、印度、俄罗斯是软件大国,但是我们也发现,南非和巴西表现也 不错。
第二份数据:全球软件城市排行榜
这些城市按照名次依次是:San Francisco、London、Berlin、Paris、New York、Stockholms、Beijing、Bangalore

通过对前8名的统计得出,硅谷地区依然是世界的IT中心,我们不要感觉欧洲IT产业不怎么好,从数据来看,他们的能力依然是非常出色的,北京与世界的差距 依然存在,印度的硅谷与北京的差距并不明显。
第三份数据:中国软件城市排行榜
按照名次,他们依次是:Beijing、Shanghai、Hangzhou、Guangzhou、Shenzhen、Chengdu、Nanjing、Dalian、Xiamen、Qingdao。

这份数据再次证明了,北京上海是中国无法震撼的IT城市,即使是杭州,也有相当大的差距。南京市政府一直努力的中国软件名城,需要很大的努力。
第四份数据:全球软件企业排行榜
我们分析出来了其中7家企业,分别是: Google、Twitter、Microsoft、Yandex、Red Hat、Globo.com、ThoughtWorks。

从这个图来说:谷歌是开源社区的贡献主力,但是名单上也有微软公司,这也再次证明,微软是同样一家致力于开源世界的企业,当然这里肯定发现不了Oracle。所有企业都发现了两个问题:1.投资开源社区可以提升企业综合影响力。2.要达到相同的影响力,投资额度小于广告。
第五份数据:中国软件企业排行榜
你期待这里出现什么样的公司?我不敢瞎编,用数据说话,他们是:TaoBao、Baidu、Tencent、Douban Inc、Alibaba、netease。

这些公司都是国内目前比较活跃的软件公司,但是360奇虎公司是个意外。我们很少关注的网易,最近一年也为开源社区做了不少贡献。
第六份数据:全球IT高校排行榜
这份数据我真的不想拿出来,因为没有中国的高校,我试图让名次更多一点,但是依然没有发现。全球IT高校排行榜名单:Carnegie Mellon University、University of Washington、Stanford University、University of Michigan、Cornell University、Columbia University、University of Cambridge、University of Toronto、University of Waterloo。

数据再次验证了卡内基梅隆是全球IT精英的殿堂。教育是非常重要的一部分,中国要成为软件大国,还需要在教育上努力下功夫。
第七份数据:中国IT高校排行榜
虽然在上一份数据中,我们没有发现中国高校,但是我们还是拿出了中国软件高校排行榜:Tsinghua University、Zhejiang University、Peking University、Sun Yat-Sen University、Nanjing University、Shenzhen University。

清华大学一直是中国IT教育领域最好的高校,很多关于计算机的图书都是清华大学出版的,当然中山大学却有点让人意外。
总结:事实告诉我们,所有的什么软件大国,所有的软实力,都不能只是口号,我们需要实际行动,中国要成为软件大国,甚至是强国,还有很长的路要走。为什么?开源是在韵量新技术,是新技术发展的摇篮!
以上数据仅供参考。
大数据:从开源告诉你身边的IT故事的更多相关文章
- 资源list:Github上关于大数据的开源项目、论文等合集
Awesome Big Data A curated list of awesome big data frameworks, resources and other awesomeness. Ins ...
- Github上关于大数据的开源项目、论文等合集
https://github.com/onurakpolat/awesome-bigdata
- 零起点Python大数据与量化交易
零起点Python大数据与量化交易 第1章 从故事开始学量化 1 1.1 亿万富翁的“神奇公式” 2 1.1.1 案例1-1:亿万富翁的“神奇公式” 2 1.1.2 案例分析:Python图表 5 1 ...
- Hadoop大数据平台入门——HDFS和MapReduce
随着硬件水平的不断提高,需要处理数据的大小也越来越大.大家都知道,现在大数据有多火爆,都认为21世纪是大数据的世纪.当然我也想打上时代的便车.所以今天来学习一下大数据存储和处理. 随着数据的不断变大, ...
- 工信部<<大数据产业发展规划>>
大数据产业发展规划 (2016-2020年) 发布时间:2017-01-17 来源:规划司 数据是国家基础性战略资源,是21世纪的“钻石矿”.党中央.国务院高度重视大数据在经济社会发展中的作用,党的 ...
- 使用 .NET 5 体验大数据和机器学习
翻译:精致码农-王亮 原文:http://dwz.win/XnM .NET 5 旨在提供统一的运行时和框架,使其在各平台都有统一的运行时行为和开发体验.微软发布了与 .NET 协作的大数据(.NET ...
- 开源分布式计算引擎 & 开源搜索引擎 Iveely 0.5.0 为大数据而生
Iveely Computing 产生背景 08年的时候,我开始接触搜索引擎,当时遇到的第一个难题就是大数据实时并发处理,当时实验室的机器我们可以随便用,至少二三十台机器,可以,却没有程序可以将这些机 ...
- [Hadoop 周边] Hadoop和大数据:60款顶级大数据开源工具(2015-10-27)【转】
说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱.弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hado ...
- Druid:一个用于大数据实时处理的开源分布式系统
Druid是一个用于大数据实时查询和分析的高容错.高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分析.尤其是当发生代码部署.机器故障以及其他产品系统遇到宕机等情况时,Druid仍 ...
随机推荐
- 图解SQL的inner join、left join、right join、full outer join、union、union all的区别
转自:http://blog.csdn.net/jz20110918/article/details/41806611 假设我们有两张表.Table A 是左边的表.Table B 是右边的表.其各有 ...
- Windows 网络问题
一.问题描述 每次重启后电脑的ip地址或无故没掉,或不能正常连网,要重新设置ip才能上网. 二.解决方法 在DOS窗口执行 netsh winsock reset netsh int ip res ...
- Centos7 配置网络步奏详解
Centos7 配置网络步奏详解 编辑网卡配置文件 vi /etc/sysconfig/network-script/ifcfg-ens01 备注:这里的ens01不是所有系统都叫这个,有的可能叫其他 ...
- IPC之PIPE
管道是一种只允许用在有亲属关系的进程间通信的方式,由函数pipe创建一个管道,read,write进行读写操作. #include <unistd.h> ]); 参数pipefd[2]数组 ...
- 动手学习TCP:客户端状态变迁
上一篇文章中介绍了TCP连接的建立和终止. 通过实际操作了解到,在TCP协议工作过程中,客户端和服务端都会接收或者发送特定标志的TCP数据包,然后进入不同的状态. 也就是说,TCP协议就是一个包含多种 ...
- 关于volatile和synchronized
这个可能是最好的对比volatile和synchronized作用的文章了.volatile是一个变量修饰符,而synchronized是一个方法或块的修饰符.所以我们使用这两种关键字来指定三种简单的 ...
- 边工作边刷题:70天一遍leetcode: day 78
Graph Valid Tree 要点:本身题不难,关键是这题涉及几道关联题目,要清楚之间的差别和关联才能解类似题:isTree就比isCycle多了检查连通性,所以这一系列题从结构上分以下三部分 g ...
- ZOJ 3232 It's not Floyd Algorithm --强连通分量+Floyd
题意:给你一个传递闭包的矩阵,mp[u][v] = 1表示u可以到达v,为0代表不可到达,问你至少需要多少条边组成的传递闭包符合这个矩阵给出的关系 分析:考虑一个强连通分量,如果这个分量有n个节点,那 ...
- C语言异或运算在程序设计中的妙用
异或运算符∧也称XOR运算符.它的规则是若参加运算的两个二进位同号,则结果为0(假):异号则为1(真).即0∧0=0,0∧1=1,1∧1=0. 性质: (1).与1异或会翻转 (2).与0异或保持不变 ...
- AC日记——手写堆ac合并果子(傻子)
今天整理最近的考试题 发现一个东西叫做优先队列 priority_queue(说白了就是大根堆) 但是 我对堆的了解还是很少的 所以 我决定手写一个堆 于是我写了一个简单的堆 手写的堆说白了就是个二叉 ...