本文为“2024国产数据库创新生态大会”深算院采石矶、钓鱼城系统技术总监别彬彬的演讲实录分享,主题为 《金融科技对智能化创新系统的机遇与路径》,欢迎阅读。

各位领导、嘉宾,下午好!非常荣幸今天能与大家一同探讨金融科技创新的话题。

智能化系统新范式:AI+ = 机器学习 + 逻辑规则

分享之前,我想先和大家讨论一个有趣的问题:成吉思汗和发现万有引力定律的牛顿之间有什么关系?这个问题我曾问过专业学者和大型语言模型,包括ChatGPT,得到的回答都是:二者都是影响人类历史的伟人。然而,它们之间的实际关系却并未揭示出来。

我们相信这个世界上人、事、物总有着千丝万缕的关系,基于这种好奇心,我们试着用一些新方法、新技术寻找答案。通过图关联技术结合逻辑推理,我们发现成吉思汗对欧洲的征战导致物资交换频繁,引发鼠疫传播,进而引发伦敦瘟疫大爆发,这使得牛顿被迫离开剑桥大学,回到乡间度过了高产的两年,并在此期间发现了万有引力定律、微积分原理等重要理论。这样深层次的关系,专家做不到,千亿参数模型做不到,但可以被图关联分析揭示出来。

在深算院,我们主要有三大核心产品:崖山数据库系统、采石矶数据质量系统,以及钓鱼城数据分析系统。今天我想着重介绍后两者。

采石矶:自动数据质量冲突发现与可信修复

数据质量问题一直是困扰数据工作者的难题。OpenAI为了训练ChatGPT,花费了长达七年时间准备语料,而仅花费了一个月训练模型,这充分说明了数据质量的重要性,数据质量也是公认的大数据最难问题。樊文飞院士早年在贝尔实验室就一直研究数据质量的修复问题,随后提出了大数据质量保证模型——REE理论,能够自动化地发现数据中的错误并进行可信修复。采石矶系统可以完成两项重要任务:一是自动发现数据中的错误,二是根据发现的错误进行可信的修复。基于这些能力,采石矶系统在一些关键领域做出了很显著的成果。

首先是数据连接领域,在与国内最大的物流集团公司的合作中,该物流公司希望对17万张数据表进行主题归整。人工方式进行了两年时间,且只能完成10%的进度。而采石矶系统在短短四天内就完成了这一任务,梳理了17万张数据表与三张主数据结构表之间的关系。

其次是数据要素领域,采石矶系统目前已在上海数据交易所上线,负责买卖双方的数据质量评估和提升。上海数据交易所目前是国内最大的、最成功的数据交易机构之一,采石矶系统通过快速发现数据中的错误,帮助客户增加数据资产的价值。我们不仅能发现错误,还能进行数据质量提升,实现数据资产价值进一步提升。

最后,在大模型语料准备领域,采石矶系统也有重要的应用,主要体现在三个方面:一是非结构化数据的解析与提取。大语言模型的训练需要大量HTML或文本数据,这些数据通常是非结构化的,需要进行解析提取,占据了数据准备工作量的40%。二是人机协同标注,据最新的实验结果,采石矶系统在辅助标注方面的准确率超过了美国独角兽企业Scale.AI。三是文本数据中的事实性错误发现,采石矶系统可以发现并修复文本语料中的事实性错误,减缓大模型在训练过程中产生“幻觉”。

钓鱼城:逻辑与统计结合的工业数据决策系统

钓鱼城数据分析系统通过将逻辑推理与机器学习相结合,在图数据结构上实现统一推理。其核心理论GAR创新性地将机器学习预测结果和逻辑推断实现统一框架,一方面,我们将机器学习的结果放在X中,可提高数据决策的准确性,另一方面,将机器学习的结果放在Y中可以实现对黑盒模型的可解释。在工业应用场景中,钓鱼城系统还展现出自动化程度高的优势,对比机器学习,其建模过程中需要大量的人工操作,如人工洗数据、人工特征工程、模型调参,这些工作非常依赖程序员的主观能动性,但钓鱼城系统的自动规则发现则使整个分析过程高度自动化。

钓鱼城系统已在两个主要的行业做了应用。首先是制造业,例如电池制造、化工、烟叶配方设计等,逻辑推理的可解释性使得钓鱼城系统能够辅助工业决策。特别是在锂电池生产过程中的化成分容环节,钓鱼城系统已经在国内头部电池厂上线并跑,成功处理了600万支电芯的容量预测。逻辑推理方法的引入使得系统在面对复杂决策时具有更高的可解释性和可靠性。

其次是银行金融领域,钓鱼城系统帮助银行在商机与危机识别方面取得了显著成果。我们将银行的数据分析分为“商机”和“危机”两大类。商机方面,我们在零售营销、智能推送、投流拉新等环节取得了突破,系统的实际应用中将ROI从1.7提升到4.8。风险控制方面,我们与大型银行和消费金融机构合作,在反欺诈和高危群体识别等方面,将风险人群的识别准确率从40%提升到71%。

未来,钓鱼城系统将致力于在银行领域构建企业级的新型数据经营平台,依托樊院士的核心理论,将机器学习与逻辑规则结合,利用增量图计算技术,形成“圈链群”思路,为银行的商机和危机管理提供一站式服务,真正实现业务人员在系统上的自主操作,无需IT人员介入。

最后,我们希望通过钓鱼城、采石矶这两个基础软件平台实现真正的AI+,只有高质量的数据与先进的智能系统相结合,才能从数据中挖掘出深层次的价值。谢谢大家!

YashanDB演讲实录|别彬彬:金融科技对智能化创新系统的机遇与路径的更多相关文章

  1. 蚂蚁金服ATEC城市峰会上海举行,三大发布迎接金融科技2019

    2019年1月4日,蚂蚁金服ATEC城市峰会以“数字金融新原力(The New Force of Digital Finance)”为主题在上海举办.稠州银行副行长程杰.蚂蚁金服副总裁刘伟光.蚂蚁金服 ...

  2. CODING 首届金融科技技术交流闭门会议顺利召开

    近期,由腾讯云旗下一站式 DevOps 开发平台 CODING 和中国 DevOps 社区主办的深圳第十一届 Meetup 圆满结束,会上三位专家分享了自己独到的行业见解,腾讯云 CODING Dev ...

  3. 张小龙在2017微信公开课PRO版讲了什么(附演讲实录和2016微信数据报告)

    今天2017微信公开课PRO版在广州亚运城综合体育馆举行,这次2017微信公开课大会以“下一站”为主题,而此次的微信公开课的看点大家可能就集中在腾讯公司高级副总裁.微信之父——张小龙的演讲上了!今天中 ...

  4. 2018 Unite大会——《使用UPA工具优化项目》演讲实录

    2018年5月11日至13日,腾讯WeTest与Unity联合打造的移动游戏性能分析工具(Unity Performance Analysis,以下称为UPA)正式亮相2018 Unite大会,为Un ...

  5. 2018年Fintech金融科技关键词和入行互金从业必懂知识

    2018年过去大半,诸多关键词进入眼帘: 5G,消费降级,数据裸奔,新零售,AI,物联网,云计算,合规监管,风控,割韭菜,区块链,生物识别,国民空闲时间以及金融科技. 这些词充斥着我们的生活和时间,而 ...

  6. 2019金融科技风往哪儿吹?蚂蚁金服联合20余家金融机构预测新年热点:5G、区块链上榜

    2019年,金融科技的风向标在哪里?哪些板块成新宠,哪些科技成潮流? 1月4日,蚂蚁金服ATEC城市峰会在上海举行.大会上,蚂蚁金服与20余家金融机构一起预测了2019年金融科技的发展. “未来金融会 ...

  7. 数据分析 - 美国金融科技公司Prosper的风险评分分析

    数据分析 - 美国金融科技公司Prosper的风险评分分析 今年Reinhard Hsu觉得最有意思的事情,是参加了拍拍贷第二届魔镜杯互联网金融数据应用大赛.通过"富爸爸队",认识 ...

  8. 金融科技行业 SDL(转载)

     都是一些检查项,值得借鉴,关键在于要能够落地 作者 沈发挺@美的金融科技下载打印版

  9. 【巨杉数据库SequoiaDB】巨杉数据库荣获《金融电子化》“金融科技创新奖”

    巨杉助力金融科技创新 2019年12月19日,由<金融电子化>杂志社主办.北京金融科技产业联盟协办的“2019中国金融科技年会暨第十届金融科技及服务优秀创新奖颁奖典礼”在京成功召开.来自金 ...

  10. 【巨杉数据库SequoiaDB】助力金融科技升级,巨杉数据库闪耀金融展

    11月4日,以“科技助创新 开放促改革 发展惠民生”为主题的2019中国国际金融展和深圳国际金融博览会在深圳会展中心盛大开幕. 中国人民银行党委委员.副行长范一飞,深圳市人民政府副市长.党组成员艾学峰 ...

随机推荐

  1. C++ 数据输入cin (解决CLoin输入中文程序出错)

    数据输入cin 语法:cin >> 变量 解决 CLoin 使用cin输入中文程序无法正常运行 按住Ctrl+alt+shift+/键 弹出对话框选择注册表 取消勾选run.process ...

  2. Nuxt.js 应用中的 app:rendered 钩子详解

    title: Nuxt.js 应用中的 app:rendered 钩子详解 date: 2024/10/2 updated: 2024/10/2 author: cmdragon excerpt: 摘 ...

  3. foobar2000 v1.6.16 汉化版(2023.04.19)

    foobar2000 v1.6.16 汉化版 -----------------------[软件截图]---------------------- -----------------------[软 ...

  4. linux(centos7)安装curl和composer

    linux(centos7)安装curl和composer 先安装curl:直接用yum装,yum curl 使用命令下载: curl -sS https://getcomposer.org/inst ...

  5. 使用dynamic debug帮助调试

    你一定在kernel source code中看过很多pr_debug()/dev_dbg()/print_hex_dump_debug()吧,这些debug语句提供更多的信息帮助我们了解内核运行流程 ...

  6. OpenCL架构

    OpenCL提供了一种统一的编程接口,使得程序员可以编写一次代码,然后在多种处理器上运行. 平台模型 OpenCL平台总是包括一个宿主机(host).宿主机与OpenCL程序外部的环境交互,包括I/O ...

  7. javaScript遍历对象总结

    定义对象: const obj = { name: 'zlx', id: 245, age: 25, gender: '男', } 1. 使用 for... in..循环遍历 对象的属性有2种方式可以 ...

  8. 说一下tcp三次握手

    1. 客户端发送syn请求连接 : 2. 服务器检验syn,然后发送syn和ack确认连接: 3. 客户端接收ack和syn,然后发送ack建立连接 :

  9. Python实现回数

    题目:回数是指从左向右读和从右向左读都是一样的数,例如 12321,909.请利用 filter()滤掉非回数: 思路:要实现回数判断,主要是将输入的数找到其各个位置的值,然后判断前后相对应的位置是否 ...

  10. 分布式应用架构的发展演变RPC

    什么是分布式系统? <分布式系统原理与范型>定义: "分布式系统是若干独立计算机的集合,这些计算机对于用户来说就像单个相关系统",分布式系统(distributed s ...