知识图谱辅助金融领域NLP任务
从人工智能学科诞生之初起,自然语言处理(NLP)就是人工智能核心的研究问题之一。NLP的重要性是毋庸置疑的,它能够实现以自然语言交流为特征的高级人机交互,使机器能“阅读”所有以文字形式记录的人类知识,并提供各种高层智能服务的基础和关键技术。
目前在NLP领域最受瞩目的要数谷歌的NLP模型BERT(Bidirectional Encoder Representa-tions from Transformers),它在Trans-former的基础上,借助海量跨领域语料和超高计算能力,通过多任务预训练,在十余种不同NLP任务达到了目前最高水平。
在金融领域,NLP技术的作用主要在于自动从海量的宏观、行业、微观资讯中发现、分析并整合与各类决策(特别是投资决策)相关的信息,即首先通过信息检索技术获取相关文本,然后借语义分析技术从非结构化文本中提取结构化的信息,最后将这些信息加以提炼,并且使之关联到未来可能的发展趋势,从而为预测和决策提供有价值的及时信息。
NLP技术与机器学习技术的结合,也正在成为智能金融浪潮中的新热点,已在多个场景得以成功应用,包括:智能客服、智能投研、智能投顾、智能风控、智能监管、智能运营等。
这方面国外值得关注的应用案例包括:华尔街的巨头开始应用自然语言处理和机器学习技术帮助客户理财和制订退休计划(类似财务经理角色);美国麻省理工学院融合机器学习等技术用于创建新的商业模式和重新定义金融服务,以提高投资的安全性;澳大利亚一家公司尝试采用自然语言处理技术自动监测和规范公司的金融服务。
目前NLP技术虽然已经在金融领域开展了一些尝试和探索,但仍然处于起步和发展阶段,存在一些有待解决的难点。
BERT能有效破解金融NLP难题吗?
金融是专业性很高的领域,很多词汇和表达在金融语境下有特殊含义,并且某些专业词汇在其他文本中很难见得到。数据集的缺乏也是目前NLP在金融领域应用所面临的问题之一,这也是金融领域高度的专业性所导致的。
另外,金融领域对发生的事件有其独特的理解,评价分析处理结果的方式也与其他领域有所不同。因而,金融领域的自然语言处理任务需要重新定义任务目标和评价方法,传统和成熟的NLP解决方案不一定仅通过简单订制就可以满足金融领域对文本信息分析和处理的需求。
那么在众多传统NLP任务上取得了实质性提升的BERT,能否助力破解金融NLP的难题呢?这是很多人都关心的问题,不过从目前看来可能收效甚微。因为BERT的设计目的和关注点着眼于纯自然语言表示模式本身,而任务本身与具体领域或者业务越密切,则其贡献越小。
虽然仍然需要通过实验才能确切了解BERT和Transformer对金融领域特定任务的影响,但可以预见的是,由于推理能力缺乏、输入长度限制、可解释性缺失等方面先天性的不足,其在市场消息面影响评估、事件因果关系发现、任务导向型上下文相关对话、文本摘要、智能推荐等方面影响比较有限。
金融NLP进阶的两种思路
将“NLP”和“知识图谱”看作金融科技领域的“双子星”是十分可取的想法,这两项关键技术在金融领域的应用场景高度重合,两者相互依托、互为补充。前者不断丰富后者的内容,后者则为前者提供背景知识的支持。
不过,在“NLP+知识图谱”这两个“双子星”中,还应加上“智能推理”一环,从而形成“语义理解+知识支撑+动态推理”的“三驾马车”。因为如果模型缺乏推理能力,欠缺揭示分析结果深层原因的“可解释性”,对于金融这种需要“刨根问底”的领域容易引发“灾难后果”。
知识图谱一般认为仅存储静态的知识,静态的知识需要与动态的推理规则相结合才能推导并得出新的认识和结论,发挥所构建知识库的最大效用。虽然目前已经提出“事理图谱”概念,其是否属于动态知识仍有待商榷。引入“智能推理”可以形成事实到结论之间的推理链条,从而能够对所得结论进行必要的解释。
例如,引入类似“原材料供应紧张 → 生产成本上升 → 净利润下降 → 股价下跌”反映专业知识的规则与推理不仅可以引导模型学习的方向,缩小的搜索空间,还可以作为先验信息,进行更为合理的贝叶斯统计推断。
经验主义、理性主义缺一不可
一般认为,NLP主要有两种研究思想和方法,第一种是理性主义方法,其主要思路是通过归纳语言学规则来分析和生成语言,优点是语言表达结构和组成成分可以借助规则直接清晰地表示出来,但规则过于“刚性”会导致无法处理例外情况、鲁棒性差、规则获取和更新代价高等问题。
另一种研究方法是经验主义方法,主要是采用机器学习(特别是统计学习)从语料集中自动或半自动地获取语言学统计知识来构建模型,然后对新的文本进行推断。目前最热门的深度学习也属于经验主义方法,近年来取得了快速进展和广泛应用,在学术界和企业界备受瞩目。
对于金融领域的NLP应用来说,经验主义和理性主义这两方面不应是“离异”状态,而应该积极的“联姻”,就如哲学家培根所主张的,既反对狭隘的理性主义,也反对纯粹的经验主义。具体说来,以逻辑推理为代表的符号主义与神经网络为代表联结主义的深度融合应是未来最具发展潜力的方向之一。
目前NLP技术在自然语言的深度理解方面,仍然存在大量的探索空间,例如如何准确处理篇章范围内的指代消歧;如何正确理解比拟、比喻和隐喻等。随着金融NLP经验主义与理性主义研究方法的融合提升,并且与知识图谱、智能推理等进一步结合,更多的难题将期望得到解决。
知识图谱辅助金融领域NLP任务的更多相关文章
- 知识图谱+Recorder︱中文知识图谱API与工具、科研机构与算法框架
目录 分为两个部分,笔者看到的知识图谱在商业领域的应用,外加看到的一些算法框架与研究机构. 文章目录 @ 一.知识图谱商业应用 01 唯品金融大数据 02 PlantData知识图谱数据智能平台 03 ...
- Atitit 知识图谱的数据来源
Atitit 知识图谱的数据来源 2. 知识图谱的数据来源1 a) 百科类数据2 b) 结构化数据3 c) 半结构化数据挖掘AVP (垂直站点爬虫)3 d) 通过搜索日志(query record ...
- [NLP] 语义网络与知识图谱入门(一)
语义网络与知识图谱入门(一) RDF/XML 本体:一种形式化的对于共享概念体系明确而又详细的说明.就是指一种抽象的模型,可以用来描述对象类型.属性以及关系类型所构成的世界. RDF/XML主要讲的就 ...
- [NLP] 语义网络与知识图谱入门(二)
语义网络与知识图谱入门(二) OWL 本体声明 owl用owl:Ontology来声明一个本体.rdf:about属性为本体提供一个名称或引用.根据标准,当rdf:about属性的值为"&q ...
- 如何系统学习知识图谱-15年+IT老兵的经验分享
一.前言 就IT而言,胖子哥算是老兵,可以去猝死的年纪,按照IT江湖猿龄的规矩,也算是到了耳顺之年:而就人工智能而言,胖子哥还是新人,很老的新人,深度学习.语音识别.人脸识别,知识图谱,逐个的学习了一 ...
- 哈工大知识图谱(Knowledge Graph)课程概述
一.什么是知识图谱 知识(Knowledge)可以理解为 精炼的数据,知识图谱(Knowledge Graph)即是对知识的图形化表示,本质上是一种大规模语义网络 (semantic network) ...
- 知识图谱-生物信息学-医学顶刊论文(Briefings in Bioinformatics-2021):生物信息学中的图表示学习:趋势、方法和应用
4.(2021.6.24)Briefings-生物信息学中的图表示学习:趋势.方法和应用 论文标题: Graph representation learning in bioinformatics: ...
- 知识图谱顶会论文(KDD-2022) kgTransformer:复杂逻辑查询的预训练知识图谱Transformer
论文标题:Mask and Reason: Pre-Training Knowledge Graph Transformers for Complex Logical Queries 论文地址: ht ...
- 知识图谱-生物信息学-医学论文(Chip-2022)-BCKG-基于临床指南的中国乳腺癌知识图谱的构建与应用
16.(2022)Chip-BCKG-基于临床指南的中国乳腺癌知识图谱的构建与应用 论文标题: Construction and Application of Chinese Breast Cance ...
随机推荐
- 池化技术(一)Druid是如何管理数据库连接的?
基于依赖程序的版本信息:druid:1.1.16 驱动程序mysql-connector-java:8.0.17 下一篇:HikariCP是如何管理数据库连接的 零.类图& ...
- 如何解决Sublime text3文件名称中文乱码问题
在sublime text 3中,Preference, Settings-User,最后加上一行 "dpi_scale": 1.0 { "auto_complete_t ...
- Fiddler之模拟响应、修改请求或响应数据(断点)
在测试过程中,有时候需要修改请求或响应数据,或者直接模拟服务器响应,此时可以使用fiddler进行此类操作.可以使用断点功能完成. 一.修改请求数据 在发起请求后,需要修改请求的数据时,可以设置请求前 ...
- Git 将已有项目推送到新建的远程仓库
目录 一.需求: 二.较快捷的操作: 一.需求: 将一个本地的项目推送到一个新建的远程仓库中: 二.较快捷的操作: 1.创建一个远程仓库 以此为例:http://192.168.1.183/git/p ...
- laravel中间件的使用
简介HTTP 中间件提供了为过滤进入应用的 HTTP 请求提供了一套便利的机制.例如,Laravel 内置了一个中间件来验证用户是否经过授权,如果用户没有经过授权,中间件会将用户重定向到登录页面,否则 ...
- form表单中的button自动刷新页面问题
form表单中如果存在button的话,有可能会出现一个问题:点击button,触发了页面的自动刷新事件. 原因是因为<button>标签默认的类型是submit,即默认的button点击 ...
- flex三个对齐属性的记忆方式
今天在群里聊天有人说 flex的那几个居中属性好难记,时不时都要尝试一下,或者查看一下文档,现在我把我自己的记忆方式分享一下... 1. flex的居中主要是通过这三个属性来实现的: justify- ...
- SAP 客户信贷重建一则
前段时间接到业务的一个需求,需要将标准和定制业务的信贷分开.原来目前公司是将标准和定制的客户信贷金额整在一起,共用一个信贷范围.而定制业务特殊性决定了公司要收到客户全款才会接单生产并发货,而客户打预收 ...
- 循环语句for基本概述
循环语句for基本概述 01. for循环基础语法 for 变量名 in [ 取值列表 ]do 循环体done 02. for循环基本使用示例 #取值列表有多种取值方式,可以直接读取in后面的值,默认 ...
- Django_xadmin_TypeError: Related Field got invalid lookup: icontains
问题: 当我在给某一张表加上外键搜索的时候,会出现 TypeError: Related Field got invalid lookup: icontains 问题原因: a 表关联 b表,也就是说 ...