DGraph: A Large-Scale Financial Dataset for Graph Anomaly Detection

DGragh是一个用于图异常检测(gragh anomaly detection, GAD)的大型金融数据集

它包含300w个节点、400w个动态边和100w个ground-truth节点。

作者在关注的问题

大领域:图异常检测(GAD)

现实世界场景中,异常是普遍存在的且具有破坏性的。作者举了一个电汇欺诈的例子:2020年电汇欺诈者造成了高达1.8万亿美元的损失。然而,只有12%-15%的案件被报告,且只有29%的受害者能完全追回资金。因此,研究GAD可以帮助预防和检测这些欺诈者的存在。

中领域:GAD中的异常节点检测

在GAD中具有代表性

目前领域中数据集的困难

GAD数据集的主要要求:缩小学术界和工业界之间的差距

由于现实世界中异常的稀缺性,只有少数公共数据集同时具有图结构和异常的ground-truth标注,所以丰富GAD的多样性是当前GAD研究的基础工作。

从一些具有代表性但当前未被覆盖的领域收集数据集可以大大加快这一过程,因此本文关注金融欺诈检测。

小领域:金融欺诈检测

当前GAD数据集存在的一些局限性:

  1. 规模小
  2. 忽略了图的时间动态
  3. 现实世界场景中,并不是所有节点都需要去被分类/预测的

作者针对这三个问题进行了优化。

因此,以下是对DGragh的简单介绍:

  1. DGragh有300万个节点以及400万条边,且有100万个真实异常标注
  2. 由于在现实场景中并不是所有的节点都需要被分类/预测,但是移除节点又会失去丰富的信息并损害网络结构的连通性,因此,DGragh将这些节点称为background节点,其他称为target节点。DGragh保留了超过200万个background节点(指的是那些由于缺乏借贷行为而不是检测目标的用户)
  3. DGragh中一个节点代表一个Finvolution用户,从一个用户到另一个用户的边表示该用户将另一用户设置为紧急联系人。
  4. DGragh包含丰富的动态信息

DGragh

raw data

总结而言,特定用户的原始数据包括五个组成部分:

(1)用户ID。

(2)基本个人资料信息,如年龄、性别等。

(3)电话号码;注意,每个账户都与特定电话号码匹配。

(4)借贷行为,包括还款到期日和实际还款日期。

(5)紧急联系人,包括每个联系人的姓名、电话号码和最后更新时间。

欺诈者

金融欺诈者经常提供虚假的个人信息,其中一些可能还有奇怪的社交网络(与普通用户相比),还有一些在平台操作上表现异常。

节点特征

源自基本个人资料的节点特征是一个17维的向量,每个维度对应个人资料的一个不同元素(如年龄和性别)。为了保护用户隐私,作者不透露任何维度的具体意义。缺失值被标记为“-1”。

在构建过程中,紧急联系人仅保留那些是Finvolution用户的,以保护用户隐私。

labeling nodes

DGragh中有32.2%节点有相关的借贷记录。

定义:至少有一次,在到期日后很长时间不还款并忽视平台多次提醒的用户为异常/欺诈者。

另一部分借款用户是正常用户,而另一部分没有借贷行为的用户被标记为“背景节点”。

对异常节点和正常节点的观察

  1. 欺诈者和正常用户的平均入度相似,但是平均出度差距显著。正常用户的平均出度是欺诈者的2.33倍。
  2. 欺诈者在出边上的邻居相似性低于正常用户
  3. 缺失值个数的不同
  4. 相同出度下,欺诈者的出边平均时间低于正常用户——表明欺诈者更可能在短时间内填写他们的紧急联系人信息

文章中还有对背景节点的研究,这里不再赘述。

实验 on DGragh

作者围绕以下三个问题:

Q1:当前的GAD模型在DGraph上的表现如何?

Q2:如何处理DGraph的缺失值?

Q3:DGraph的背景节点有多重要?

结论见论文。


基础知识

异构GNN中的“异构”怎么理解?

在异构GNN(Heterogeneous Graph Neural Networks)中,“异构”指的是图的节点或边的类型多样性。与传统的同构图(Homogeneous Graph)不同,异构图包含多种类型的节点和/或多种类型的边。这种多样性通常可以更好地表示复杂的关系和信息结构。

具体来说,异构图中的异构性主要体现在:

  1. 节点异构性:图中存在不同类型的节点。例如,在一个社交网络中,节点可以代表“用户”、“帖子”或“评论”。

  2. 边异构性:图中存在不同类型的边,表示不同的关系或交互。例如,在同一个社交网络中,边可以表示“用户关注用户”、“用户点赞帖子”或“用户评论帖子”。

异构GNN旨在利用这种多样性,通过设计特定的网络结构或机制来有效地捕捉和利用不同类型节点和边之间的复杂关系,从而提高对异构数据的建模能力。

【241027-论文阅读】DGraph: A Large-Scale Financial Dataset for Graph Anomaly Detection的更多相关文章

  1. 论文笔记之:Large Scale Distributed Semi-Supervised Learning Using Streaming Approximation

    Large Scale Distributed Semi-Supervised Learning Using Streaming Approximation Google  2016.10.06 官方 ...

  2. 论文笔记:Chaotic Invariants of Lagrangian Particle Trajectories for Anomaly Detection in Crowded Scenes

    [原创]Liu_LongPo 转载请注明出处 [CSDN]http://blog.csdn.net/llp1992 近期在关注 crowd scene方面的东西.由于某些原因须要在crowd scen ...

  3. 论文阅读(Xiang Bai——【CVPR2015】Symmetry-Based Text Line Detection in Natural Scenes)

    Xiang Bai--[CVPR2015]Symmetry-Based Text Line Detection in Natural Scenes 目录 作者和相关链接 方法概括 创新点和贡献 方法细 ...

  4. 论文阅读笔记五十一:CenterNet: Keypoint Triplets for Object Detection(CVPR2019)

    论文链接:https://arxiv.org/abs/1904.08189 github:https://github.com/Duankaiwen/CenterNet 摘要 目标检测中,基于关键点的 ...

  5. 论文阅读笔记三十三:Feature Pyramid Networks for Object Detection(FPN CVPR 2017)

    论文源址:https://arxiv.org/abs/1612.03144 代码:https://github.com/jwyang/fpn.pytorch 摘要 特征金字塔是用于不同尺寸目标检测中的 ...

  6. 论文阅读笔记二十七:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks(CVPR 2016)

    论文源址:https://arxiv.org/abs/1506.01497 tensorflow代码:https://github.com/endernewton/tf-faster-rcnn 室友对 ...

  7. 【计算机视觉】【神经网络与深度学习】论文阅读笔记:You Only Look Once: Unified, Real-Time Object Detection

    尊重原创,转载请注明:http://blog.csdn.net/tangwei2014 这是继RCNN,fast-RCNN 和 faster-RCNN之后,rbg(Ross Girshick)大神挂名 ...

  8. 论文阅读之:Is Faster R-CNN Doing Well for Pedestrian Detection?

    Is Faster R-CNN Doing Well for Pedestrian Detection? ECCV 2016   Liliang Zhang & Kaiming He 原文链接 ...

  9. 【论文阅读】A practical algorithm for distributed clustering and outlier detection

    文章提出了一种分布式聚类的算法,这是第一个有理论保障的考虑离群点的分布式聚类算法(文章里自己说的).与之前的算法对比有以下四个优点: 1.耗时短O(max{k,logn}*n), 2.传递信息规模小: ...

  10. 大规模视觉识别挑战赛ILSVRC2015各团队结果和方法 Large Scale Visual Recognition Challenge 2015

    Large Scale Visual Recognition Challenge 2015 (ILSVRC2015) Legend: Yellow background = winner in thi ...

随机推荐

  1. java中sleep与 yield 区别

    1.背景 在多线程的使用中你会看到这个两个方法sleep()与yield()这两方法有什么作用呢? 请看下面案例演示 2.测试 package com.ldp.demo01; import com.c ...

  2. 掌握 Nuxt 3 的页面元数据:使用 definePageMeta 进行自定义配置

    title: 掌握 Nuxt 3 的页面元数据:使用 definePageMeta 进行自定义配置 date: 2024/8/11 updated: 2024/8/11 author: cmdrago ...

  3. SMU 2024 spring 天梯赛3

    SMU 2024 spring 天梯赛3 7-1 重要的话说三遍 - SMU 2024 spring 天梯赛3 (pintia.cn) I'm gonna WIN! I'm gonna WIN! I' ...

  4. 不是 PHP 不行了,而是 MySQL 数据库扛不住啊

    大家好,我是码农先森. 大多数的业务场景下 PHP 还没有达到性能瓶颈,然而 MySQL 数据库就先行驾崩了.但我们总是不分青红皂白,一股脑的把原因归结于是 PHP 语言不行了,每当遇到这种情形我就会 ...

  5. .proto文件的作用

    在网络通信和通用数据交换等应用场景中经常使用的技术是 JSON 或 XML,而在最近的开发中接触到了 Google 的 ProtoBuf. 在查阅相关资料学习 ProtoBuf 以及研读其源码之后,发 ...

  6. Java并发编程之验证volatile的可见性

    Java并发编程之验证volatile的可见性 通过系列文章的学习,凯哥已经介绍了volatile的三大特性.1:保证可见性 2:不保证原子性 3:保证顺序.那么怎么来验证可见性呢?本文凯哥将通过代码 ...

  7. 【YashanDB知识库】存储过程报错snapshot too old

    问题描述 20231127上午客户反馈绩效系统20231125.20231126出现2次YAS-02020 snapshot too old的问题,测试也有类似问题. 该过程是客户新增的存储过程,目的 ...

  8. 学习笔记:robots.txt文件

    1.1 介绍 robots.txt文件是一种用于指导搜索引擎爬虫在网站上哪些页面可以被抓取,哪些页面不应该被抓取的文本文件.这个文件通常放置在网站的根目录下. 1.2 由来 robots.txt标准最 ...

  9. spark 怎么读写 elasticsearch

    参考文章: https://www.bmc.com/blogs/spark-elasticsearch-hadoop/ https://blog.pythian.com/updating-elasti ...

  10. C语言输出格式工整的日历——2乘6样式(详见本文)

    本篇博客有更新!!!更新后效果图如下: 文章末尾的完整代码如不能在Dev-C++上完好运行,出现如下问题: E:\Dev-Cpp\源代码\万年历.c [Error] 'for' loop initia ...