Angel图算法
Angel图算法
[2.0]CommonFriends
计算两个好友的共同好友数,某种程度上可以刻画两个节点之间的紧密程度。
输入
- 输入数据路径:输入文件所在路径,无权网络数据, 数据格式为两列 srcId(long) | dstId(long), 其中|为分隔符,分隔字段表示空白符或者逗号等。
- 输入文件类型:格式包括以下两种:
- csv:csv 文件。
- 输入数据包含 header 信息。
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
输出
- 输出数据路径:输出文件所在路径。
- 输出数据格式:格式包括以下两种:
- csv:csv 文件。
- 输出数据包含 header 信息。
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
参数说明
- src:源节点列。
- dst:目标节点列。
- numPartition:分区数。
资源参数
- drive 节点资源类型:请选择合适的 drive 节点机型。
- executor 节点资源类型:请选择合适的 executor 节点机型。
- num-executors:分配计算节点数目,可根据数据量来配置,一般训练数据量越大,需要的 worker 个数越多。
- spark-conf:spark常用参数配置,如压缩、序列化、网络等。
[2.0]HyperAnf
估计网络的平均半径。
输入
- 输入数据路径:输入文件所在路径,无权网络数据, 数据格式为两列 srcId(long) | dstId(long), 其中|为分隔符,分隔字段表示空白符或者逗号等。
- 输入文件类型:格式包括以下两种:
- csv:csv 文件。
- 输入数据包含 header 信息。
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
输出
- 输出数据路径:输出文件所在路径。
- 输出数据格式:格式包括以下两种:
- csv:csv 文件。
- 输出数据包含 header 信息。
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
算法结果保存路径,共两列,其中第一列为 round 值,第二列为 anf 值,其中round = -1对应的 anf 为最终估计值。
参数说明
- src:源节点列。
- dst:目标节点列。
- numPartition:分区数。
- maxIter:最大迭代次数。
资源参数
- drive 节点资源类型:请选择合适的 drive 节点机型。
- executor 节点资源类型:请选择合适的 executor 节点机型。
- num-executors:分配计算节点数目,可根据数据量来配置,一般训练数据量越大,需要的 worker 个数越多。
- spark-conf:spark 常用参数配置,如压缩、序列化、网络等。
[2.0]LPA
LPA(Label Propagation Algorithm)是最简单的社区发现算法,通过标签扩散发掘网络的社区关系。
输入
- 输入数据路径:输入文件所在路径。
- 输入文件类型:格式包括以下两种:
- csv:csv 文件。
- 输入数据包含 header 信息。
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
输出
- 输出数据路径:输出文件所在路径。
- 输出数据格式:格式包括以下两种:
- csv:csv 文件。
- 输出数据包含 header 信息。
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
算法结果保存路径,共两列,其中第一列为节点 ID,第二列为节点对应的社区 ID。社区 ID 相同表示属于同一个社区。
参数说明
- src:源节点列。
- dst:目标节点列。
- numPartition:分区数。
资源参数
- num-executors:使用多少个 Spark 节点。
- driver-memory:Spark driver 的内存大小。
- executor-cores:每个 Spark 节点使用多少个 core。
- executor-memory:每个 Spark 节点使用的内存大小。
- spark-conf:Spark 的其他参数。 由于权限原因,需要用户额外提供 ugi 参数 spark.hadoop.hadoop.job.ugi=用户名:密码。
[2.0]EffectiveSize
EffectiveSize 是由结构空洞理论得到的网络度量指标,是 ego-network 中节点的重要衡量指标。
输入
- 输入数据路径:输入文件所在路径。
- 输入文件类型:格式包括以下两种:
- csv:csv 文件。
- 输入数据包含 header 信息。
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
- text:本文件。
- parquet:列式存储格式 parquet。
输出
- 输出数据路径:输出文件所在路径。
- 输出数据格式:格式包括以下两种:
- csv:csv 文件。
- 输出数据包含 header 信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
算法结果保存路径,共三列,其中第一列为节点 ID,第二列为 effectiveSize 值,第三列为 redundancyCol 值。
参数说明
- src:源节点列。
- dst:目标节点列。
- numPartition:分区数。
资源参数
- num-executors:使用多少个 Spark 节点。
- driver-memory:Spark driver 的内存大小。
- executor-cores:每个 Spark 节点使用多少个 core。
- executor-memory:每个 Spark 节点使用的内存大小。
- spark-conf:Spark 的其他参数。由于权限原因,需要用户额外提供 ugi 参数 spark.hadoop.hadoop.job.ugi=用户名:密码。
[2.0]PageRank
PageRank 是著名的节点排序算法,由 Google 发表。
输入
- 输入数据路径:输入文件所在路径。
- 输入文件类型:格式包括以下两种:
- csv:csv 文件。
- 输入数据包含 header 信息。
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
- text:本文件。
- parquet:列式存储格式 parquet。
输出
- 输出数据路径:输出文件所在路径。
- 输出数据格式:格式包括以下两种:
- csv:csv 文件。
- 输出数据包含 header 信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
算法结果保存路径,共三列,其中第一列为节点 ID,第二列为 effectiveSize 值,第三列为 redundancyCol 值。
参数说明
- src:源节点列。
- dst:目标节点列。
- numPartition:分区数。
- maxIter:最大迭代次数。
- tol:最小容忍误差,当误差小于该值时,算法迭代提早结束。
资源参数
- num-executors:使用多少个 Spark 节点。
- driver-memory:Spark driver 的内存大小。
- executor-cores:每个 Spark 节点使用多少个 core。
- executor-memory:每个 Spark 节点使用的内存大小。
- spark-conf:Spark 的其他参数。由于权限原因,需要用户额外提供 ugi 参数 spark.hadoop.hadoop.job.ugi=用户名:密码。
Angel图算法的更多相关文章
- 腾讯 angel 3.0:高效处理模型
腾讯 angel 3.0:高效处理模型 紧跟华为宣布新的 AI 框架开源的消息,腾讯又带来了全新的全栈机器学习平台 angel3.0.新版本功能特性覆盖了机器学习的各个阶段,包括:特征工程.模型训练. ...
- 黑科技项目:英雄无敌III Mod <<Fallen Angel>>介绍
英雄无敌三简介(Heroes of Might and Magic III) 英3是1999年由New World Computing在Windows平台上开发的回合制策略魔幻游戏,其出版商是3DO. ...
- 基于mapreducer的图算法
作者现就职阿里巴巴集团1688技术部 引言 周末看到一篇不错的文章"Graph Twiddling in a MapReduce world" ,介绍MapReduce下一些图算法 ...
- Sad Angel (悲伤的天使)-Игорь Крутой
悲伤的天使(neyanbhbin) -经典作曲Sad Angel( Печальныйангел)生活是一种连续的影响,每个小人物都有小人物的伟大故事.从开头的情侣,到美丽的丝带,从清洁老伯到卖气球的 ...
- 数据库备份还原工具EMS SQL Angel for SQL Server发布1.3版本
EMS公司,是专门从事企业数据库以及内置于多层次客户服务器结构自动化开发.其EMS SQL Angel for SQL Server工具,便是SQL Servers数据库数据备份还原工具,并且还能使用 ...
- Angel - MemoryDataBlock - angel.task.estimize.sample.number
angel.task.estimize.sample.number val validData = new MemoryDataBlock[LabeledData](isVali) trainData ...
- Angel - 模拟Kafka数据流调试FTRL的方法
Angel - 模拟Kafka数据流调试FTRL的方法 Mac或者Linux版本(Win10的Linux子系统同样适用) 创建一个目录用来安装kafka以及zookeeper等相关软件,比如,新建一个 ...
- Angel 实现FFM 一、对于Angel 和分布式机器学习的简单了解
Angel是腾讯开源的一个分布式机器学习框架.是一个PS模式的分布式机器学习框架. https://github.com/Angel-ML/angel 这是github地址. 我了解的分布式机器学 ...
- 大数据技术之_19_Spark学习_05_Spark GraphX 应用解析 + Spark GraphX 概述、解析 + 计算模式 + Pregel API + 图算法参考代码 + PageRank 实例
第1章 Spark GraphX 概述1.1 什么是 Spark GraphX1.2 弹性分布式属性图1.3 运行图计算程序第2章 Spark GraphX 解析2.1 存储模式2.1.1 图存储模式 ...
随机推荐
- 【日志追踪】(微服务应用和单体应用)-logback中的MDC机制
一.MDC介绍 MDC(Mapped Diagnostic Contexts)映射诊断上下文,该特征是logback提供的一种方便在多线程条件下的记录日志的功能, 某些应用程序采用多线程的方式来处理多 ...
- hdu4642博弈(矩阵)
题意: 给一个01矩阵,每次可以选择1的格子,选择之后以他为左上角的矩阵全都取反,两个人轮班取,不能取的人输. 思路: 博弈的题目,结论是右下角是0就输,1就赢,原因可以这么 ...
- Windows核心编程 第九章 线程与内核对象的同步(下)
9.4 等待定时器内核对象 等待定时器是在某个时间或按规定的间隔时间发出自己的信号通知的内核对象.它们通常用来在某个时间执行某个操作. 若要创建等待定时器,只需要调用C r e a t e Wa i ...
- Win64 驱动内核编程-20.UnHook SSDT
UNHOOK SSDT 要恢复 SSDT,首先要获得 SSDT 各个函数的原始地址,而 SSDT 各个函数的原始地址,自然是存储在内核文件里的.于是,有了以下思路: 1.获得内核里 KiService ...
- 推荐算法-聚类-K-MEANS
对于大型的推荐系统,直接上协同过滤或者矩阵分解的话可能存在计算复杂度过高的问题,这个时候可以考虑用聚类做处理,其实聚类本身在机器学习中也常用,属于是非监督学习的应用,我们有的只是一组组数据,最终我们要 ...
- Andrew Ng机器学习算法入门(十):过拟合问题解决方法
在使用机器学习对训练数据进行学习和分类的时候,会出现欠拟合和过拟合的问题.那么什么是欠拟合和过拟合问题呢?
- 【flutter学习】基础知识(一)
今天开始学习一下flutter 学习思路:首先由一个简单的例子引出每次学习的对象,一点一点加入元素,针对于代码去了解学习详细知识. 看完本篇博客能够快速的读懂flutter简单代码. flutter ...
- 修改Maven项目默认JDK版本
问题: 1.创建maven项目的时候,jdk版本是1.5版本,而自己安装的是1.7或者1.8版本. 2.每次右键项目名-maven->update project 时候,项目jdk版本变了,变回 ...
- java面试一日一题:如何判断一个对象是否为垃圾对象
问题:请讲下在java中如何判断一个对象是否为垃圾 分析:该问题主要考察对java中的垃圾回收,用什么方式去识别一个对象是垃圾: 回答要点: 主要从以下几点去考虑, 1.GC回收的是什么,回收发生在内 ...
- MySQL5.7升级到8.0过程详解
前言: 不知不觉,MySQL8.0已经发布好多个GA小版本了.目前互联网上也有很多关于MySQL8.0的内容了,MySQL8.0版本基本已到稳定期,相信很多小伙伴已经在接触8.0了.本篇文章主要介绍从 ...