DGraph: A Large-Scale Financial Dataset for Graph Anomaly Detection

DGragh是一个用于图异常检测(gragh anomaly detection, GAD)的大型金融数据集

它包含300w个节点、400w个动态边和100w个ground-truth节点。

作者在关注的问题

大领域:图异常检测(GAD)

现实世界场景中,异常是普遍存在的且具有破坏性的。作者举了一个电汇欺诈的例子:2020年电汇欺诈者造成了高达1.8万亿美元的损失。然而,只有12%-15%的案件被报告,且只有29%的受害者能完全追回资金。因此,研究GAD可以帮助预防和检测这些欺诈者的存在。

中领域:GAD中的异常节点检测

在GAD中具有代表性

目前领域中数据集的困难

GAD数据集的主要要求:缩小学术界和工业界之间的差距

由于现实世界中异常的稀缺性,只有少数公共数据集同时具有图结构和异常的ground-truth标注,所以丰富GAD的多样性是当前GAD研究的基础工作。

从一些具有代表性但当前未被覆盖的领域收集数据集可以大大加快这一过程,因此本文关注金融欺诈检测。

小领域:金融欺诈检测

当前GAD数据集存在的一些局限性:

  1. 规模小
  2. 忽略了图的时间动态
  3. 现实世界场景中,并不是所有节点都需要去被分类/预测的

作者针对这三个问题进行了优化。

因此,以下是对DGragh的简单介绍:

  1. DGragh有300万个节点以及400万条边,且有100万个真实异常标注
  2. 由于在现实场景中并不是所有的节点都需要被分类/预测,但是移除节点又会失去丰富的信息并损害网络结构的连通性,因此,DGragh将这些节点称为background节点,其他称为target节点。DGragh保留了超过200万个background节点(指的是那些由于缺乏借贷行为而不是检测目标的用户)
  3. DGragh中一个节点代表一个Finvolution用户,从一个用户到另一个用户的边表示该用户将另一用户设置为紧急联系人。
  4. DGragh包含丰富的动态信息

DGragh

raw data

总结而言,特定用户的原始数据包括五个组成部分:

(1)用户ID。

(2)基本个人资料信息,如年龄、性别等。

(3)电话号码;注意,每个账户都与特定电话号码匹配。

(4)借贷行为,包括还款到期日和实际还款日期。

(5)紧急联系人,包括每个联系人的姓名、电话号码和最后更新时间。

欺诈者

金融欺诈者经常提供虚假的个人信息,其中一些可能还有奇怪的社交网络(与普通用户相比),还有一些在平台操作上表现异常。

节点特征

源自基本个人资料的节点特征是一个17维的向量,每个维度对应个人资料的一个不同元素(如年龄和性别)。为了保护用户隐私,作者不透露任何维度的具体意义。缺失值被标记为“-1”。

在构建过程中,紧急联系人仅保留那些是Finvolution用户的,以保护用户隐私。

labeling nodes

DGragh中有32.2%节点有相关的借贷记录。

定义:至少有一次,在到期日后很长时间不还款并忽视平台多次提醒的用户为异常/欺诈者。

另一部分借款用户是正常用户,而另一部分没有借贷行为的用户被标记为“背景节点”。

对异常节点和正常节点的观察

  1. 欺诈者和正常用户的平均入度相似,但是平均出度差距显著。正常用户的平均出度是欺诈者的2.33倍。
  2. 欺诈者在出边上的邻居相似性低于正常用户
  3. 缺失值个数的不同
  4. 相同出度下,欺诈者的出边平均时间低于正常用户——表明欺诈者更可能在短时间内填写他们的紧急联系人信息

文章中还有对背景节点的研究,这里不再赘述。

实验 on DGragh

作者围绕以下三个问题:

Q1:当前的GAD模型在DGraph上的表现如何?

Q2:如何处理DGraph的缺失值?

Q3:DGraph的背景节点有多重要?

结论见论文。


基础知识

异构GNN中的“异构”怎么理解?

在异构GNN(Heterogeneous Graph Neural Networks)中,“异构”指的是图的节点或边的类型多样性。与传统的同构图(Homogeneous Graph)不同,异构图包含多种类型的节点和/或多种类型的边。这种多样性通常可以更好地表示复杂的关系和信息结构。

具体来说,异构图中的异构性主要体现在:

  1. 节点异构性:图中存在不同类型的节点。例如,在一个社交网络中,节点可以代表“用户”、“帖子”或“评论”。

  2. 边异构性:图中存在不同类型的边,表示不同的关系或交互。例如,在同一个社交网络中,边可以表示“用户关注用户”、“用户点赞帖子”或“用户评论帖子”。

异构GNN旨在利用这种多样性,通过设计特定的网络结构或机制来有效地捕捉和利用不同类型节点和边之间的复杂关系,从而提高对异构数据的建模能力。

【241027-论文阅读】DGraph: A Large-Scale Financial Dataset for Graph Anomaly Detection的更多相关文章

  1. 论文笔记之:Large Scale Distributed Semi-Supervised Learning Using Streaming Approximation

    Large Scale Distributed Semi-Supervised Learning Using Streaming Approximation Google  2016.10.06 官方 ...

  2. 论文笔记:Chaotic Invariants of Lagrangian Particle Trajectories for Anomaly Detection in Crowded Scenes

    [原创]Liu_LongPo 转载请注明出处 [CSDN]http://blog.csdn.net/llp1992 近期在关注 crowd scene方面的东西.由于某些原因须要在crowd scen ...

  3. 论文阅读(Xiang Bai——【CVPR2015】Symmetry-Based Text Line Detection in Natural Scenes)

    Xiang Bai--[CVPR2015]Symmetry-Based Text Line Detection in Natural Scenes 目录 作者和相关链接 方法概括 创新点和贡献 方法细 ...

  4. 论文阅读笔记五十一:CenterNet: Keypoint Triplets for Object Detection(CVPR2019)

    论文链接:https://arxiv.org/abs/1904.08189 github:https://github.com/Duankaiwen/CenterNet 摘要 目标检测中,基于关键点的 ...

  5. 论文阅读笔记三十三:Feature Pyramid Networks for Object Detection(FPN CVPR 2017)

    论文源址:https://arxiv.org/abs/1612.03144 代码:https://github.com/jwyang/fpn.pytorch 摘要 特征金字塔是用于不同尺寸目标检测中的 ...

  6. 论文阅读笔记二十七:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks(CVPR 2016)

    论文源址:https://arxiv.org/abs/1506.01497 tensorflow代码:https://github.com/endernewton/tf-faster-rcnn 室友对 ...

  7. 【计算机视觉】【神经网络与深度学习】论文阅读笔记:You Only Look Once: Unified, Real-Time Object Detection

    尊重原创,转载请注明:http://blog.csdn.net/tangwei2014 这是继RCNN,fast-RCNN 和 faster-RCNN之后,rbg(Ross Girshick)大神挂名 ...

  8. 论文阅读之:Is Faster R-CNN Doing Well for Pedestrian Detection?

    Is Faster R-CNN Doing Well for Pedestrian Detection? ECCV 2016   Liliang Zhang & Kaiming He 原文链接 ...

  9. 【论文阅读】A practical algorithm for distributed clustering and outlier detection

    文章提出了一种分布式聚类的算法,这是第一个有理论保障的考虑离群点的分布式聚类算法(文章里自己说的).与之前的算法对比有以下四个优点: 1.耗时短O(max{k,logn}*n), 2.传递信息规模小: ...

  10. 大规模视觉识别挑战赛ILSVRC2015各团队结果和方法 Large Scale Visual Recognition Challenge 2015

    Large Scale Visual Recognition Challenge 2015 (ILSVRC2015) Legend: Yellow background = winner in thi ...

随机推荐

  1. JVM的本地方法栈-通俗理解

    1.本地方法栈(Native Method Stacks)与虚拟机栈所发挥的作用是非常相似的, 2.其区别不过是虚拟机栈为虚拟机执行Java方法(也就是字节码)服务,而本地方法栈则是为虚拟机使用到的N ...

  2. Golang在整洁架构基础上实现事务

    前言 大家好,这里是白泽,这篇文章在 go-kratos 官方的 layout 项目的整洁架构基础上,实现优雅的数据库事务操作. 视频讲解 :B站:白泽talk,公众号[白泽talk] 本期涉及的学习 ...

  3. LemurBrowser狐猴浏览器:支持插件扩展、内置免费AI工具的移动端浏览器

    如何选择一款合适的浏览器? 在这个数字化时代,浏览器作为互联网的入口.然而,选择一款合适的浏览器却并不容易. 注释:狐猴浏览器是浏览器新标签页插件Wetab提供的支持在移动端安装插件,内置免费AI工具 ...

  4. 2024九省联考 数学 T19

    寒假有朋友打电话吐槽九省联考,看了眼数学卷子感觉非常刺激.刚开学没事干,试着做一下 \(19\). (\(17\) 分) 离散对数在密码学中有重要的应用.设 \(p\) 是素数,集合 \(X=\{1, ...

  5. 使用CyFES对配体运动轨迹进行数据透视

    技术背景 如果我们有一个蛋白质X和一个配体Y,那么可以对这个X+Y的体系跑一段长时间的分子动力学模拟,以观测这个体系在不同结合位点下的稳定性.类似于前面一篇博客中计算等高面的方法,我们可以计算轨迹的K ...

  6. 前后端分离使用mp遇到问题

    <dependency> <groupId>com.baomidou</groupId> <artifactId>mybatis-plus-boot-s ...

  7. Java元注解介绍

    Java四种元注解相关介绍 概述 注解从Java1.5引入以来,不断地简化我们编写代码的流程,逐渐的也成为了我们必学的一项技术.我们学习了各种注解,学习了他们的用法,学习了他们的限制,是否想过他们的组 ...

  8. LOTO示波器统计曲线和故障分析pass/fail测试

    LOTO示波器统计曲线和故障分析pass/fail测试 虚拟示波器可以应用在工业自动化检测中,除了常规的检测波形和测量值参数以外,由多个行业客户定制和验证的统计曲线和故障分析(pass/fail)功能 ...

  9. SpringMVC的视图

    目录 ThymeleafView 转发视图 重定向视图 视图控制器view-controller SpringMVC中的视图是View接口,视图的作用渲染数据,将模型Model中的数据展示给用户Spr ...

  10. XAMPP Windows PHP-CGI 代码执行漏洞(CVE-2024-4577) | Goby漏洞预警

    漏洞描述: PHP是一种在服务器端执行的脚本语言,在 PHP 的 8.3.8 版本之前存在命令执行漏洞,由于 Windows 的 "Best-Fit Mapping" 特性,在处理 ...