本文为“2024国产数据库创新生态大会”深算院采石矶、钓鱼城系统技术总监别彬彬的演讲实录分享,主题为 《金融科技对智能化创新系统的机遇与路径》,欢迎阅读。

各位领导、嘉宾,下午好!非常荣幸今天能与大家一同探讨金融科技创新的话题。

智能化系统新范式:AI+ = 机器学习 + 逻辑规则

分享之前,我想先和大家讨论一个有趣的问题:成吉思汗和发现万有引力定律的牛顿之间有什么关系?这个问题我曾问过专业学者和大型语言模型,包括ChatGPT,得到的回答都是:二者都是影响人类历史的伟人。然而,它们之间的实际关系却并未揭示出来。

我们相信这个世界上人、事、物总有着千丝万缕的关系,基于这种好奇心,我们试着用一些新方法、新技术寻找答案。通过图关联技术结合逻辑推理,我们发现成吉思汗对欧洲的征战导致物资交换频繁,引发鼠疫传播,进而引发伦敦瘟疫大爆发,这使得牛顿被迫离开剑桥大学,回到乡间度过了高产的两年,并在此期间发现了万有引力定律、微积分原理等重要理论。这样深层次的关系,专家做不到,千亿参数模型做不到,但可以被图关联分析揭示出来。

在深算院,我们主要有三大核心产品:崖山数据库系统、采石矶数据质量系统,以及钓鱼城数据分析系统。今天我想着重介绍后两者。

采石矶:自动数据质量冲突发现与可信修复

数据质量问题一直是困扰数据工作者的难题。OpenAI为了训练ChatGPT,花费了长达七年时间准备语料,而仅花费了一个月训练模型,这充分说明了数据质量的重要性,数据质量也是公认的大数据最难问题。樊文飞院士早年在贝尔实验室就一直研究数据质量的修复问题,随后提出了大数据质量保证模型——REE理论,能够自动化地发现数据中的错误并进行可信修复。采石矶系统可以完成两项重要任务:一是自动发现数据中的错误,二是根据发现的错误进行可信的修复。基于这些能力,采石矶系统在一些关键领域做出了很显著的成果。

首先是数据连接领域,在与国内最大的物流集团公司的合作中,该物流公司希望对17万张数据表进行主题归整。人工方式进行了两年时间,且只能完成10%的进度。而采石矶系统在短短四天内就完成了这一任务,梳理了17万张数据表与三张主数据结构表之间的关系。

其次是数据要素领域,采石矶系统目前已在上海数据交易所上线,负责买卖双方的数据质量评估和提升。上海数据交易所目前是国内最大的、最成功的数据交易机构之一,采石矶系统通过快速发现数据中的错误,帮助客户增加数据资产的价值。我们不仅能发现错误,还能进行数据质量提升,实现数据资产价值进一步提升。

最后,在大模型语料准备领域,采石矶系统也有重要的应用,主要体现在三个方面:一是非结构化数据的解析与提取。大语言模型的训练需要大量HTML或文本数据,这些数据通常是非结构化的,需要进行解析提取,占据了数据准备工作量的40%。二是人机协同标注,据最新的实验结果,采石矶系统在辅助标注方面的准确率超过了美国独角兽企业Scale.AI。三是文本数据中的事实性错误发现,采石矶系统可以发现并修复文本语料中的事实性错误,减缓大模型在训练过程中产生“幻觉”。

钓鱼城:逻辑与统计结合的工业数据决策系统

钓鱼城数据分析系统通过将逻辑推理与机器学习相结合,在图数据结构上实现统一推理。其核心理论GAR创新性地将机器学习预测结果和逻辑推断实现统一框架,一方面,我们将机器学习的结果放在X中,可提高数据决策的准确性,另一方面,将机器学习的结果放在Y中可以实现对黑盒模型的可解释。在工业应用场景中,钓鱼城系统还展现出自动化程度高的优势,对比机器学习,其建模过程中需要大量的人工操作,如人工洗数据、人工特征工程、模型调参,这些工作非常依赖程序员的主观能动性,但钓鱼城系统的自动规则发现则使整个分析过程高度自动化。

钓鱼城系统已在两个主要的行业做了应用。首先是制造业,例如电池制造、化工、烟叶配方设计等,逻辑推理的可解释性使得钓鱼城系统能够辅助工业决策。特别是在锂电池生产过程中的化成分容环节,钓鱼城系统已经在国内头部电池厂上线并跑,成功处理了600万支电芯的容量预测。逻辑推理方法的引入使得系统在面对复杂决策时具有更高的可解释性和可靠性。

其次是银行金融领域,钓鱼城系统帮助银行在商机与危机识别方面取得了显著成果。我们将银行的数据分析分为“商机”和“危机”两大类。商机方面,我们在零售营销、智能推送、投流拉新等环节取得了突破,系统的实际应用中将ROI从1.7提升到4.8。风险控制方面,我们与大型银行和消费金融机构合作,在反欺诈和高危群体识别等方面,将风险人群的识别准确率从40%提升到71%。

未来,钓鱼城系统将致力于在银行领域构建企业级的新型数据经营平台,依托樊院士的核心理论,将机器学习与逻辑规则结合,利用增量图计算技术,形成“圈链群”思路,为银行的商机和危机管理提供一站式服务,真正实现业务人员在系统上的自主操作,无需IT人员介入。

最后,我们希望通过钓鱼城、采石矶这两个基础软件平台实现真正的AI+,只有高质量的数据与先进的智能系统相结合,才能从数据中挖掘出深层次的价值。谢谢大家!

YashanDB演讲实录|别彬彬:金融科技对智能化创新系统的机遇与路径的更多相关文章

  1. 蚂蚁金服ATEC城市峰会上海举行,三大发布迎接金融科技2019

    2019年1月4日,蚂蚁金服ATEC城市峰会以“数字金融新原力(The New Force of Digital Finance)”为主题在上海举办.稠州银行副行长程杰.蚂蚁金服副总裁刘伟光.蚂蚁金服 ...

  2. CODING 首届金融科技技术交流闭门会议顺利召开

    近期,由腾讯云旗下一站式 DevOps 开发平台 CODING 和中国 DevOps 社区主办的深圳第十一届 Meetup 圆满结束,会上三位专家分享了自己独到的行业见解,腾讯云 CODING Dev ...

  3. 张小龙在2017微信公开课PRO版讲了什么(附演讲实录和2016微信数据报告)

    今天2017微信公开课PRO版在广州亚运城综合体育馆举行,这次2017微信公开课大会以“下一站”为主题,而此次的微信公开课的看点大家可能就集中在腾讯公司高级副总裁.微信之父——张小龙的演讲上了!今天中 ...

  4. 2018 Unite大会——《使用UPA工具优化项目》演讲实录

    2018年5月11日至13日,腾讯WeTest与Unity联合打造的移动游戏性能分析工具(Unity Performance Analysis,以下称为UPA)正式亮相2018 Unite大会,为Un ...

  5. 2018年Fintech金融科技关键词和入行互金从业必懂知识

    2018年过去大半,诸多关键词进入眼帘: 5G,消费降级,数据裸奔,新零售,AI,物联网,云计算,合规监管,风控,割韭菜,区块链,生物识别,国民空闲时间以及金融科技. 这些词充斥着我们的生活和时间,而 ...

  6. 2019金融科技风往哪儿吹?蚂蚁金服联合20余家金融机构预测新年热点:5G、区块链上榜

    2019年,金融科技的风向标在哪里?哪些板块成新宠,哪些科技成潮流? 1月4日,蚂蚁金服ATEC城市峰会在上海举行.大会上,蚂蚁金服与20余家金融机构一起预测了2019年金融科技的发展. “未来金融会 ...

  7. 数据分析 - 美国金融科技公司Prosper的风险评分分析

    数据分析 - 美国金融科技公司Prosper的风险评分分析 今年Reinhard Hsu觉得最有意思的事情,是参加了拍拍贷第二届魔镜杯互联网金融数据应用大赛.通过"富爸爸队",认识 ...

  8. 金融科技行业 SDL(转载)

     都是一些检查项,值得借鉴,关键在于要能够落地 作者 沈发挺@美的金融科技下载打印版

  9. 【巨杉数据库SequoiaDB】巨杉数据库荣获《金融电子化》“金融科技创新奖”

    巨杉助力金融科技创新 2019年12月19日,由<金融电子化>杂志社主办.北京金融科技产业联盟协办的“2019中国金融科技年会暨第十届金融科技及服务优秀创新奖颁奖典礼”在京成功召开.来自金 ...

  10. 【巨杉数据库SequoiaDB】助力金融科技升级,巨杉数据库闪耀金融展

    11月4日,以“科技助创新 开放促改革 发展惠民生”为主题的2019中国国际金融展和深圳国际金融博览会在深圳会展中心盛大开幕. 中国人民银行党委委员.副行长范一飞,深圳市人民政府副市长.党组成员艾学峰 ...

随机推荐

  1. MyBatis——案例——查询-查询详情

      查询-查询详情 (根据id获取商品全部信息(即商品对象))          1.编写Mapper接口方法:Brand selectById(int id);            2.编写SQL ...

  2. C#爬取动态网页上的信息:B站主页

    目录 简介 获取 HTML 文档 解析 HTML 文档 测试 参考文章 简介 动态内容网站使用 JavaScript 脚本动态检索和渲染数据,爬取信息时需要模拟浏览器行为,否则获取到的源码基本是空的. ...

  3. Windows 中的硬链接、目录联接(软链接)、符号链接、快捷方式

    在Linux文件系统中经常提及硬链接(Hard Link)和符号链接(Symbolic Link),Windows中也可以创建链接,但由于丰富的图形界面操作,很少提及链接.Windows 的 NTFS ...

  4. USB 同步字段中高速同步字段和低速全速同步字段的区别

    USB(Universal Serial Bus)有几种不同的传输模式:低速(Low-Speed).全速(Full-Speed).高速(High-Speed)和超级速度(SuperSpeed).同步字 ...

  5. Redis数据库常见命令

    Redis数据库常见命令 Linux启动Redis # 启动服务 redis-server # 开启客户端 redis-cli # 关闭redis服务 shutdown #查看服务是否运行 ping ...

  6. 墨天轮访谈 | 腾讯张铭:带你揭秘王者荣耀背后的游戏数据库 TcaplusDB

    分享嘉宾:张铭 腾讯数据库专家工程师,TcaplusDB产品负责人 整理:墨天轮社区 导读 大家好,我是腾讯TcaplusDB的产品负责人张铭,TcaplusDB是专为游戏设计的分布式 NoSQL 数 ...

  7. LINQ 统计字符频率

    var arr = new string[] {"test","zhulongxu","asdfdgd","yangmi" ...

  8. C# 如何理解装箱和拆箱 ?

    装箱和拆箱就是C# 中数据类型的转换 : 装箱:值类型转换对象类型(引用类型,复杂类型) 拆箱:对象类型转换值类型 object obj=null; //引用类型 obj=1; //装箱 boxing ...

  9. KubeSphere 社区双周报|2024.05.09-05.23

    KubeSphere 社区双周报主要整理展示新增的贡献者名单和证书.新增的讲师证书以及两周内提交过 commit 的贡献者,并对近期重要的 PR 进行解析,同时还包含了线上/线下活动和布道推广等一系列 ...

  10. KubeSphere 社区双周报 | OpenFunction v1.2.0 发布 | 2023.09.15-09.28

    KubeSphere 社区双周报主要整理展示新增的贡献者名单和证书.新增的讲师证书以及两周内提交过 commit 的贡献者,并对近期重要的 PR 进行解析,同时还包含了线上/线下活动和布道推广等一系列 ...