Angel图算法
Angel图算法
[2.0]CommonFriends
计算两个好友的共同好友数,某种程度上可以刻画两个节点之间的紧密程度。
输入
- 输入数据路径:输入文件所在路径,无权网络数据, 数据格式为两列 srcId(long) | dstId(long), 其中|为分隔符,分隔字段表示空白符或者逗号等。
- 输入文件类型:格式包括以下两种:
- csv:csv 文件。
- 输入数据包含 header 信息。
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
输出
- 输出数据路径:输出文件所在路径。
- 输出数据格式:格式包括以下两种:
- csv:csv 文件。
- 输出数据包含 header 信息。
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
参数说明
- src:源节点列。
- dst:目标节点列。
- numPartition:分区数。
资源参数
- drive 节点资源类型:请选择合适的 drive 节点机型。
- executor 节点资源类型:请选择合适的 executor 节点机型。
- num-executors:分配计算节点数目,可根据数据量来配置,一般训练数据量越大,需要的 worker 个数越多。
- spark-conf:spark常用参数配置,如压缩、序列化、网络等。
[2.0]HyperAnf
估计网络的平均半径。
输入
- 输入数据路径:输入文件所在路径,无权网络数据, 数据格式为两列 srcId(long) | dstId(long), 其中|为分隔符,分隔字段表示空白符或者逗号等。
- 输入文件类型:格式包括以下两种:
- csv:csv 文件。
- 输入数据包含 header 信息。
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
输出
- 输出数据路径:输出文件所在路径。
- 输出数据格式:格式包括以下两种:
- csv:csv 文件。
- 输出数据包含 header 信息。
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
算法结果保存路径,共两列,其中第一列为 round 值,第二列为 anf 值,其中round = -1对应的 anf 为最终估计值。
参数说明
- src:源节点列。
- dst:目标节点列。
- numPartition:分区数。
- maxIter:最大迭代次数。
资源参数
- drive 节点资源类型:请选择合适的 drive 节点机型。
- executor 节点资源类型:请选择合适的 executor 节点机型。
- num-executors:分配计算节点数目,可根据数据量来配置,一般训练数据量越大,需要的 worker 个数越多。
- spark-conf:spark 常用参数配置,如压缩、序列化、网络等。
[2.0]LPA
LPA(Label Propagation Algorithm)是最简单的社区发现算法,通过标签扩散发掘网络的社区关系。
输入
- 输入数据路径:输入文件所在路径。
- 输入文件类型:格式包括以下两种:
- csv:csv 文件。
- 输入数据包含 header 信息。
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
输出
- 输出数据路径:输出文件所在路径。
- 输出数据格式:格式包括以下两种:
- csv:csv 文件。
- 输出数据包含 header 信息。
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
算法结果保存路径,共两列,其中第一列为节点 ID,第二列为节点对应的社区 ID。社区 ID 相同表示属于同一个社区。
参数说明
- src:源节点列。
- dst:目标节点列。
- numPartition:分区数。
资源参数
- num-executors:使用多少个 Spark 节点。
- driver-memory:Spark driver 的内存大小。
- executor-cores:每个 Spark 节点使用多少个 core。
- executor-memory:每个 Spark 节点使用的内存大小。
- spark-conf:Spark 的其他参数。 由于权限原因,需要用户额外提供 ugi 参数 spark.hadoop.hadoop.job.ugi=用户名:密码。
[2.0]EffectiveSize
EffectiveSize 是由结构空洞理论得到的网络度量指标,是 ego-network 中节点的重要衡量指标。
输入
- 输入数据路径:输入文件所在路径。
- 输入文件类型:格式包括以下两种:
- csv:csv 文件。
- 输入数据包含 header 信息。
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
- text:本文件。
- parquet:列式存储格式 parquet。
输出
- 输出数据路径:输出文件所在路径。
- 输出数据格式:格式包括以下两种:
- csv:csv 文件。
- 输出数据包含 header 信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
算法结果保存路径,共三列,其中第一列为节点 ID,第二列为 effectiveSize 值,第三列为 redundancyCol 值。
参数说明
- src:源节点列。
- dst:目标节点列。
- numPartition:分区数。
资源参数
- num-executors:使用多少个 Spark 节点。
- driver-memory:Spark driver 的内存大小。
- executor-cores:每个 Spark 节点使用多少个 core。
- executor-memory:每个 Spark 节点使用的内存大小。
- spark-conf:Spark 的其他参数。由于权限原因,需要用户额外提供 ugi 参数 spark.hadoop.hadoop.job.ugi=用户名:密码。
[2.0]PageRank
PageRank 是著名的节点排序算法,由 Google 发表。
输入
- 输入数据路径:输入文件所在路径。
- 输入文件类型:格式包括以下两种:
- csv:csv 文件。
- 输入数据包含 header 信息。
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
- text:本文件。
- parquet:列式存储格式 parquet。
输出
- 输出数据路径:输出文件所在路径。
- 输出数据格式:格式包括以下两种:
- csv:csv 文件。
- 输出数据包含 header 信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
算法结果保存路径,共三列,其中第一列为节点 ID,第二列为 effectiveSize 值,第三列为 redundancyCol 值。
参数说明
- src:源节点列。
- dst:目标节点列。
- numPartition:分区数。
- maxIter:最大迭代次数。
- tol:最小容忍误差,当误差小于该值时,算法迭代提早结束。
资源参数
- num-executors:使用多少个 Spark 节点。
- driver-memory:Spark driver 的内存大小。
- executor-cores:每个 Spark 节点使用多少个 core。
- executor-memory:每个 Spark 节点使用的内存大小。
- spark-conf:Spark 的其他参数。由于权限原因,需要用户额外提供 ugi 参数 spark.hadoop.hadoop.job.ugi=用户名:密码。
Angel图算法的更多相关文章
- 腾讯 angel 3.0:高效处理模型
腾讯 angel 3.0:高效处理模型 紧跟华为宣布新的 AI 框架开源的消息,腾讯又带来了全新的全栈机器学习平台 angel3.0.新版本功能特性覆盖了机器学习的各个阶段,包括:特征工程.模型训练. ...
- 黑科技项目:英雄无敌III Mod <<Fallen Angel>>介绍
英雄无敌三简介(Heroes of Might and Magic III) 英3是1999年由New World Computing在Windows平台上开发的回合制策略魔幻游戏,其出版商是3DO. ...
- 基于mapreducer的图算法
作者现就职阿里巴巴集团1688技术部 引言 周末看到一篇不错的文章"Graph Twiddling in a MapReduce world" ,介绍MapReduce下一些图算法 ...
- Sad Angel (悲伤的天使)-Игорь Крутой
悲伤的天使(neyanbhbin) -经典作曲Sad Angel( Печальныйангел)生活是一种连续的影响,每个小人物都有小人物的伟大故事.从开头的情侣,到美丽的丝带,从清洁老伯到卖气球的 ...
- 数据库备份还原工具EMS SQL Angel for SQL Server发布1.3版本
EMS公司,是专门从事企业数据库以及内置于多层次客户服务器结构自动化开发.其EMS SQL Angel for SQL Server工具,便是SQL Servers数据库数据备份还原工具,并且还能使用 ...
- Angel - MemoryDataBlock - angel.task.estimize.sample.number
angel.task.estimize.sample.number val validData = new MemoryDataBlock[LabeledData](isVali) trainData ...
- Angel - 模拟Kafka数据流调试FTRL的方法
Angel - 模拟Kafka数据流调试FTRL的方法 Mac或者Linux版本(Win10的Linux子系统同样适用) 创建一个目录用来安装kafka以及zookeeper等相关软件,比如,新建一个 ...
- Angel 实现FFM 一、对于Angel 和分布式机器学习的简单了解
Angel是腾讯开源的一个分布式机器学习框架.是一个PS模式的分布式机器学习框架. https://github.com/Angel-ML/angel 这是github地址. 我了解的分布式机器学 ...
- 大数据技术之_19_Spark学习_05_Spark GraphX 应用解析 + Spark GraphX 概述、解析 + 计算模式 + Pregel API + 图算法参考代码 + PageRank 实例
第1章 Spark GraphX 概述1.1 什么是 Spark GraphX1.2 弹性分布式属性图1.3 运行图计算程序第2章 Spark GraphX 解析2.1 存储模式2.1.1 图存储模式 ...
随机推荐
- SpringCloud之服务网关Gateway,入门+实操
SpringCloudAlibaba微服务实战教程系列 Spring Cloud 微服务架构学习记录与示例 一. GateWay简介 Spring Cloud GateWay是Spring Cloud ...
- SQLServer数据库及注入方法
目录 SQLServer数据库 SQLServer数据库的查询语句 SA权限开启xp_cmdshell获取主机权限 盲注SQLServer数据库 SQLServer数据库 SQL Server数据库是 ...
- 『动善时』JMeter基础 — 7、jmeter.properties文件常用配置
目录 1.默认语言设置 2.配置默认编码格式 3.GUI图标放大比例设置 4.功能区工具栏图标大小设置 5.视图区目录树图标大小设置 6.内容区编辑字体设置 7.添加JMeter元素快捷键设置 8.捕 ...
- web.xml 基本配置(SSM maven项目)
<web-app> <display-name>Archetype Created Web Application</display-name> <!--we ...
- C# 泛型Generic
泛型(Generic),是将不确定的类型预先定义下来的一种C#高级语法,我们在使用一个类,接口或者方法前,不知道用户将来传什么类型,或者我们写的类,接口或方法相同的代码可以服务不同的类型,就可以定义为 ...
- 带你解析MySQL binlog
前言: 我们都知道,binlog可以说是MySQL中比较重要的日志了,在日常学习及运维过程中,也经常会遇到.不清楚你对binlog了解多少呢?本篇文章将从binlog作用.binlog相关参数.解析b ...
- MySQL库表设计小技巧
前言: 在我们项目开发中,数据库及表的设计可以说是非常重要,我遇到过很多库表设计比较杂乱的项目,像表名.字段名命名混乱.字段类型设计混乱等等,此类数据库后续极难维护与拓展.我一直相信只有优秀的库表设计 ...
- 北航OO(2020)第三单元博客作业
一.JML理论基础及相关工具链 1.JML理论基础 该部分梳理本单元作业中涉及到的JML知识. 1.1注释结构 JML采用javadoc注释的方式来表示规格,且每行以@开头.通过使用//@annota ...
- 【BUAA软工】Visual Lab Online——功能规格说明书
项目 内容 班级:北航2020春软件工程 博客园班级博客 作业:明确和撰写软件的功能规格说明书 功能规格说明书 当前版本:v1.0 修订历史: 版本号 修订时间 修订说明 v1.0 2020/04/0 ...
- MyBatis进阶--接口代理方式实现Dao 和动态SQL
MyBatis接口代理方式实现Dao层 接口代理方式-实现规则 传统方式实现Dao层,我们既要写接口.还要写实现类.而MyBatis框架可以帮助我们省略写Dao层接口实现类的步骤.程序员只需要编写接口 ...