专注为金融业提供基于智能化的综合解决方案,智能金库、金融物联网、智能机器人、运维服务四大产品线服务30家总行、1000家分行

银行智能场景实践专家

查看详情
    • 客服电话

    • 400-8304-999
    • 服务时间

    • 周一至周五 9:00-18:00
    • 官方微信订阅号

和美大家说 | 知识图谱在风控系统的运用

首页    和美干货    和美大家说 | 知识图谱在风控系统的运用

  一 引言

疫情结束后,中小企业会选择从银行以及网贷公司借钱。因为网络信贷快速简便的申请和审批流程为借款人提供了更便捷的选择,来满足灾后信贷的需求激增。经过权威数据分析发现,国内各大行业灾后对网络信贷的需求都将显著提升,而受灾最严重地区的需求激增更高。针对海量、高频、小额且缺乏抵押的小微信贷需求而言,传统银行可能会力不从心。面对这一市场变化,银行的借贷政策以及风控系统都将面临新的挑战,为了扩展小微企业贷款市场以及发展普惠金融的政策,故利用知识图谱、大数据等人工智能技术进行数字化转型是金融机构的当务之急。

风险控制一直是银行以及其他金融机构的业务核心领域,和美信息一直为银行提供智能风控系统等解决方案。我们结合知识图谱技术,进行了各类风控模型的设计、风险知识图谱的构建等工作,取得了较好的成果。在项目合作中,利用最新的人工智能技术,为金融行业的风控场景增添了一些创新性改革思路,完善了风控预测的技术手段,也为公司增添了一项知识图谱应用于银行业务的成功案例和典范。下面就项目中收获的两个重要成果经验展开叙述。

 

二 知识图谱构建

2.1数据中台下的图谱构建流程

首先在银行全面进行数字化转型的大背景下,我们协助需求方也在进行数据中台等基础平台建设。其中利用知识图谱来组织和优化数据存储,是一个非常好的战略尝试。一般情况下,知识图谱构建主要分以下几大步骤:知识获取、知识融和、知识检索等。这方面和美积累了大量项目实施经验,具体流程如图一所示:

 

图一 知识图谱构建流程

 

我们根据需求方提供的数据线索,除了收集自有业务的第一手数据外,还帮助获取了第二、第三方的数据来扩充信息来源。其中有大量的结构化的业务数据,也有很多非结构化文本类数据。需求方海量的复杂的业务数据场景以及复杂的数据系统情况,给我们进行数据清洗和数据融合都带来了巨大的挑战。

 

2.2知识图谱核心设计——图谱schema

图谱schema是知识图谱概念的核心,相当于一篇文章的目录和表的表头。图谱schema设计包含实体设计和关系设计两步。

通常情况下,垂直邻域下的知识图谱,需要先根据领域知识,梳理该领域下所有的概念实体,物理实体,事件实体。然后梳理和统计各类实体之间存在的关系,例如上下位关系、子属关系、包含关系等,这是自顶向下设计知识图谱schema的必要路径。我们在帮助需求方进行知识图谱构建的时候,同样遵循了这样的设计原则。

 

图二 知识图谱schema层级关系

 

根据风控借贷的业务场景需求,我们与需求方业务人员密切交流,共同梳理出了借贷对象的全面风控知识图谱,其中就包含小微企业,中大型企业,个人消费者等借款对象以及他们的相关关系网络,部分图谱schema如下图所示:

 

图三 知识图谱schema示意图

 

接下来我们将数据按照设计好的图谱schema,经过清洗、加工、特征计算等操作后导入到图数据库中,完成了全面的企业和个人的风控知识图谱构建,为后续风控业务提供强有力的数据支撑。依托知识图谱强可解释性的数据展示能力,在实际的风控系统使用当中,极大地方便了业务人员理解风险评估结果。并且在快速关系推理以及风险评判上,业务人员都表示,基于知识图谱的风控系统相对传统规则风控引擎系统具有较大的效率优势。

 

三 图分类——评分卡模型的改进

3.1使用完整知识网络数据建模

评分卡模型是风险预测工业界的标准了,我们在此基础上,提出利用完整的知识图谱的图分类建模方案。从数据层面,不仅考虑借款对象自身的特征属性,而且考虑借款对象一度、二度甚至三度关系网络信息。

反欺诈是风控中重要的环节,知识图谱也为分析关联欺诈提供了便捷手段。反欺诈需要金融机构把借款人授权的相关数据源打通,不仅需要记录、分析借款人的基本信息,还需要把借款人的消费记录、行为记录、关系信息等整合到知识图谱里,从而对借款人进行风险预测。 

以个人借贷场景为例:将借款人个人的属性信息以及关系网中例如妻子、父母、朋友、同事等信息进行融合。其他场景如微小企业借贷,同样除了考虑小微企业自身特征属性之外,还可以加入小微企业相关联的一度关系对象法人、投资方、上游供应商等信息一起加入分析。

 

3.2 选取有效的图神经网络

 

图四 图神经网络分类

 

知识表示是目前图谱应用的前沿方向之一。而图分类的本质,也在于如何将实体和关系网络进行有效的向量矩阵表示。得益于深度学习在NLP、图像处理等领域的广泛应用以及取得的非凡效果,那么如何结合深度学习把图谱有效地表示为向量形式就具有极高的实际意义。因此除了DeepWalk,TransE等常规知识表示学习外,我们尝试了前沿的GNN系列模型,如:GCN,GAT,CapsuleGNN(目前sota)等图神经网络,根据风控的实际场景需求,并结合各个模型的优势,最终我们选取了GAT作为生产部署模型,GAT模型在兼顾高准确性和召回率的同时,预测效率也较高,因此在实际落地过程中这两个特性非常重要。

 

图五 GCN网络结构

 

如上图GraphConvolutionNetWork(GCN)图卷积网络的结构所示,模型对于同阶的邻域上分配给不同的邻居的权重是完全相同的,所以无法允许为邻居中的不同节点指定不同的权重。这一点限制了GCN模型对于空间信息的相关性的捕捉能力,这也是在很多任务上不如GAT的根本原因。所以接下来我们重点介绍GAT图注意力网络。

GraphAttentionNetwork(GAT)提出了用注意力机制对邻近节点特征进行加权求和。邻近节点特征的权重完全取决于节点特征,独立于图结构。GAT和GCN 的核心区别在于如何收集并把距离为1的邻居节点的特征进行表示。 图注意力模型GAT 用注意力机制替代了GCN中固定的标准化操作。本质上,GAT只是将原本GCN 的标准化函数替换为使用注意力权重的邻居节点特征聚合函数。这样也带来了以下优点:

1在GAT中,图中的每个节点可以根据邻节点的特征,为其分配不同的权值。

2引入注意力机制之后,只与相邻节点有关,即共享边的节点有关,无需得到整张图的信息。

 

图六 GAT网络结构原理

 

结合这两点优势,以及GAT网络在生产预测效率上又比胶囊网络优秀的特性,我们最终选择GAT图注意力网络作为图分类的落地模型。

最后GAT网络再接全连接以及softmax层,完成图分类模型网络的整体构建,训练优化方法选择交叉熵损失函数,经过梯度下降法来完成模型训练。完整的模型结构可参考下图:

 

图七 图分类GAT神经网络整体示意图

 

指标测试结果如下图所示,在试验集Cora、Citeseer以及Pubmed上的F1指标我们可以看到,GAT的效果都全面优于GCN网络。

 

表一 GAT与GCN网络效果对比表

 

利用图分类模型代替以逻辑回归、决策树等传统评分卡模型,大大提高了风险预测的精确度以及KS值。图神经网络还兼具较强的泛化性能,所以本人认为,图神经网络用于风控预测场景将会是未来的趋势。同时知识图谱直观的可视化网络展示能力和可解释性,又更好地帮助业务人员进行结果分析,知识图谱在风控场景将大有可为。

 

四 总结

新型冠状病毒带来的严重疫情,对经济影响可能将是长期的。其中受到冲击最大的,主要是交通运输业、住宿餐饮业,其次是批发零售业、租赁业和商业服务业,而小微企业在上述第三产业上的分布比例更高,加之其先天抗风险能力较弱,受疫情波及影响最为严重。故灾害发生后,遭受严重经济损失的居民和小微企业主将更加需要资金,以保障其恢复正常的经营生产。他们选择从银行与网贷公司借钱,那么银行、网贷公司等金融机构也将面临严峻的借贷风险管控挑战,市场机遇不可谓不大,技术改革难度不可谓不小。

借助知识图谱技术来提升银行等金融机构的抗风险能力,提高对借贷对象的违约风险审核能力,将大大提高贷款审核效率以及高风险借贷对象的识别能力。知识图谱未来将如何助力风控核心业务,和美与您一起携手共进。  

2020-05-15 16:03
浏览量:0