[CareerCup] 10.2 Data Structures for Large Social Network 大型社交网站的数据结构

10.2 How would you design the data structures for a very large social network like Facebook or Linkedln? Describe how you would design an algorithm to show the connection, or path, between two people (e.g., Me -> Bob -> Susan -> Jason -> You).

这道题让我们实现大型社交网站的数据结构，首先用户类Person需要包含好友和其他的一些信息，而且大型网站一般可能会有上百万的用户，我们一般不可能把所有的数据都存在一台机器上，所以我们在查找好友时，需要先查找好友所在的机器，再在机器上查询好友，每个好友或机器都有自己的编号，为了快速查找，均使用了哈希表来建立映射，参见代码如下：

class Person {

public:

    Person(int id): _personID(id) {}

    int getID() { return _personID; }

    void addFriend(int id) { _friendIDs.push_back(id); }

private:

    vector<int> _friendIDs;

    int _personID;

};

class Machine {

public:

    unordered_map<int, Person*> _persons;

    int _machineID;

    Person* getPersonWithID(int personID) {

        if (_persons.find(personID) == _persons.end()) {

            return nullptr;

        }

        return _persons[personID];

    }

};

class Server {

public:

    unordered_map<int, Machine*> _machines;

    unordered_map<int, int> _personToMachineMap;

    Machine* getMatchineWithId(int machineID) {

        if (_machines.find(machineID) == _machines.end()) {

            return nullptr;

        }

        return _machines[machineID];

    }

    int getMachineIDForUser(int personID) {

        if (_personToMachineMap.find(personID) == _personToMachineMap.end()) {

            return -;

        }

        return _personToMachineMap[personID];

    }

    Person* getPersonWithID(int personID) {

        if (_personToMachineMap.find(personID) == _personToMachineMap.end()) {

            return nullptr;

        }

        int machineID = _personToMachineMap[personID];

        Machine *machine = getMatchineWithId(machineID);

        if (machine == nullptr) return nullptr;

        return machine->getPersonWithID(personID);

    }

};

优化：减少机器跳跃

机器之间的跳跃花费大，我们一般不会在机器之间进行随机跳跃，一般若我有好多个好友在同一个机器上，会将他们归到一起访问。

优化：智能的分类人和机器

由于人们更有可能会添加和他们来自同一个国家的人，所以将同一个城市，州，国家的人都尽量存贮到同一台机器上，这样查找时会减少机器跳跃

问题：BFS搜索需要将点标记为已读，这里怎样处理?

由于可能会有很多个搜索同时进行，所以我们不会对数据进行直接标记，但我们会使用哈希表来建立映射来标记数据是否访问过。

还有一些其他的问题可以考虑:

1. 在现实中，如果服务器崩溃了怎么办？

2. 你怎么利用好缓存功能？

3. 你会搜到图的尽头吗，你怎么决定什么时候停止搜索？

4. 实际中，每个人的朋友数都不同，有人想在你和别人之间产生一个好友链，你该怎么用这数据确定在哪开始遍历？

[CareerCup] 10.2 Data Structures for Large Social Network 大型社交网站的数据结构的更多相关文章

Complex social network Partition for Balanced Subnetworks---Hao Lan Zhang,Jiming Liu,Chunyu Feng,Chaoyi Pang,Tongliang Li,Jing He阅读
摘要:Abstract—Complex social network analysis methods have been applied extensively in various domains ...
10 Big Data Possibilities for 2017 Based on Oracle's Predictions
2017 will see a host of informed predictions, lower costs, and even business-centric gains, courtesy ...
The Swiss Army Knife of Data Structures … in C#
"I worked up a full implementation as well but I decided that it was too complicated to post in ...
剪短的python数据结构和算法的书《Data Structures and Algorithms Using Python》
按书上练习完,就可以知道日常的用处啦 #!/usr/bin/env python # -*- coding: utf-8 -*- # learn <<Problem Solving wit ...
Persistent Data Structures
原文链接:http://www.codeproject.com/Articles/9680/Persistent-Data-Structures Introduction When you hear ...
Go Data Structures: Interfaces
refer:http://research.swtch.com/interfaces Go Data Structures: Interfaces Posted on Tuesday, Decembe ...
Choose Concurrency-Friendly Data Structures
What is a high-performance data structure? To answer that question, we're used to applying normal co ...
[翻译]MapReduce: Simplified Data Processing on Large Clusters
MapReduce: Simplified Data Processing on Large Clusters MapReduce:面向大型集群的简化数据处理摘要 MapReduce既是一种编程模型 ...
《MapReduce: Simplified Data Processing on Large Cluster 》翻译
Abstract MapReduce是一种编程模型和一种用来处理和产生大数据集的相关实现.用户定义map函数来处理key/value键值对来产生一系列的中间的key/value键值对.还要定义一个re ...

随机推荐

Swift中的字典
学习来自<极客学院:Swift中的字典> 工具:Xcode6.4 直接上基础的示例代码,多敲多体会就会有收获:百看不如一敲,一敲就会 import Foundation //字典的声明 v ...
[docker] 管理docker容器中的数据
之前我们介绍了Docker的基本概念(前面的没翻译...),了解了如何使用Docker镜像进行工作,并且学习了网络和容器之间的链接.这一节我们将讨论如何管理容器中及容器之间的数据. 我们将查看下面两 ...
数据库性能调优——sql语句优化(转载及整理) —— 篇1
一.问题的提出在应用系统开发初期,由于开发数据库数据比较少,对于查询SQL语句,复杂视图的的编写等体会不出SQL语句各种写法的性能优劣,但是如果将应用系统提交实 ...
Windows Server 2008 R2怎样设置自动登陆
Windows Server 2008 R2是一款服务器操作系统,提升了虚拟化.系统管理弹性.网络存取方式,以及信息安全等领域的应用,Windows Server 2008 R2也是第一个只提供64位 ...
介绍一种css水平垂直居中的方法（非常好用！）
这次介绍一下一个水平垂直居中的css方法,这个方法可以说是百试百灵,废话不多说,直接附上代码: html,body{ width:100%; height:100%; } 你需要居中的元素{ posi ...
图解 SQL 各种连接查询之间的区别
转载自:http://blog.csdn.net/xuanjiewu/article/details/50636465 对于SQL的Join,在学习起来可能是比较乱的.我们知道,SQL的Join语法有 ...
oracle错误（ORA-01691），单个数据文件大小限制问题
1.问题:数据库从其他库同步一张大表时,出现错误 ERROR at line : ORA-: illegal parameter value in OCI lob function ORA-: pre ...
cocos2d-x之场景转换特效
bool HelloWorld::init() { if ( !Layer::init() ) { return false; } Size visibleSize = Director::getIn ...
Spring4定时器 cronTrigger和simpleTrigger实现方法
spring4定时器 cronTrigger和simpleTrigger实现方法 Quartz 是个开源的作业调度框架,为在 Java 应用程序中进行作业调度提供了简单却强大的机制.Quartz 允许 ...
浅谈export 以及环境变量
简要说一下env,set,export的区别:env命令显示环境变量,set和export显示环境变量和自定变量. export:可以讲自定变量转化为环境变量之前有一个疑惑,我们定义环境变量PATH时 ...

[CareerCup] 10.2 Data Structures for Large Social Network 大型社交网站的数据结构

[CareerCup] 10.2 Data Structures for Large Social Network 大型社交网站的数据结构的更多相关文章

随机推荐

热门专题