知识图谱作为新兴技术受到了广泛关注,正是因为它“还原真实世界”,拓宽了传统数据存储维度和业务展现方式,进而从搜索领域被关注的概念,成为各行业争相研究和尝试的技术方向。明略数据在服务诸多金融客户的过程中,也充分体会到知识图谱技术突破原有数据存储维度,为行业客户带来创新性的数据业务价值。虽然说知识图谱好用,大家也都非常希望尝试,但是知识图谱究竟怎么落地?一直是困扰着金融机构的一个问题。
本文希望通过阐述知识图谱概念本身的要素以及与金融行业结合的特点,帮助大家更好的认识、规划和落地知识图谱,以及介绍如何通过知识构建、知识计算、知识存储、知识应用四个步骤让知识图谱技术真正落地。
知识图谱是什么?
1998年W3C由Tim Berners-Lee提出了语义网的概念,互联网逐步文档万维网转变为包含大量描述各种实体、实体之间丰富关系和复杂属性的数据万维网,多维增长的数据量和关系让互联网检索效率降低。Google于2012年5月首先提出了知识图谱(Knowledge Graph)概念,目的在于描述真实世界中存在的各种实体、概念,以及它们之间的关联关系,大幅改善搜索体验。
知识图谱技术的发展决定了它极强的互联网数据属性和搜索的目的性。这就要求金融等行业在应用知识图谱时,从行业自身的数据特点和业务目标出发去研究和落地。知识图谱项目一般可以分为知识构建、知识计算、知识存储、知识应用四个主要部分,分别包括一些技术要点和难点,又统一起来服务于一个业务目标。
知识构建 —— 从海量文本到行业图谱
搜索引擎应用知识图谱面对的主要数据源是分布在互联网上的文本数据,知识构建则在于从文本数据中抽取概念、实体、关系和属性并进行消歧、对齐和融合。
金融行业面对的数据资源来源更多样、结构更复杂,其中既包括来自互联网舆情、监管机构的合规要求、内部报告等文本数据,财务、行研等半结构化数据,以及上百个业务系统产生的海量结构化数据。这些数据资源的获韧整合不仅依赖数据爬娶多源异构数据治理、分布式数据存储等技术,也依赖强大的外部数据资源协作能力和内部推动能力。而在知识构建方面,在抽取实体、关系和属性时,虽然同样面临消歧、对齐和融合等难点,如业务专家带着专业知识的参与,会在构建知识图谱时更精确地设计知识结构和数据模型。
知识构建阶段完成,金融机构可以获得包含基本实体、属性,以及从数据中可以构建的显性关系的基础知识图谱。如果我们希望构建一个服务批发业务的知识图谱,那么经过这个阶段我们就可以获得以企业客户、账户、产品为核心的,包括企业客户之间、企业与产品之间基本关系、担保关系、资金往来关系的知识图谱。
明略实践:明略数据拥有针对多源异构数据的数据治理引擎,同时,面向金融行业形成了一套包含企业客户、个人客户、设备、账户、机构、产品以及相应关联关系的知识结构,可以帮助金融机构快速落地知识构建阶段工作。
知识计算 —— 行业知识的数学表达
知识计算阶段的核心任务是计算隐性关系和扩展属性,这是知识图谱体现智能的重要特点。搜索领域的知识计算主要围绕文本数据进行语义理解和计算,在金融行业中就需要深入结合行业知识。仍然以批发业务为例,需要结合营销或风控的目的去设计企业客户之间形成的集团、一致行动、实际控制等潜在隐性关系,形成相应的规则和模型计算并丰富进基础知识图谱。
这个阶段应用的技术能力除了自然语言处理,还包括规则引擎、机器学习和图挖掘等数据挖掘技术,需要工程师、数据科学家和行业专家协同完成。同时,为了检验所构建的显性和隐性知识的完备性、相关性和一致性,我们需要结合专家知识和特定的知识计算方法进行校验,处理其中缺失、冲突、冗余知识。
完成知识计算阶段我们将获得包含经过验证的显性和隐性知识的完整知识图谱,作为知识应用的数据模型基矗
明略实践:明略数据自主研发了融合NLP、机器学习和图挖掘能力的知识计算引擎,并积累了一批适用于金融场景的隐性知识计算规则和模型,在实际应用中,明略的数据科学家团队也会和客户的业务专家团队一起完成更多的知识计算工作。
知识存储 —— 知识应用的重要工程保障
知识存储阶段承担的使命不仅仅是存储知识,更重要的是为知识应用提供稳定、准确、高效的运转能力,同时还需要支持增量数据和业务变化带来的海量知识更新。
站在技术选型的角度,从传统的关系型数据库、key-value数据库到时下流行的各种图数据库都可以作为知识存储的基础,可以结合数据规模、应用规模、性能要求和整体IT架构规划综合做出选择。金融机构在应用知识图谱的场景中,普遍数据规模庞大,实体关系丰富且计算复杂,通常会以成熟的图数据库技术作为优先选择。除了存储本身,搜索、扩展、计算能力的丰富程度、效率以及可靠性也是在这个阶段需要考虑的重要因素。
明略实践:明略数据于2017年8月首发了知识图谱数据库NEST,作为专业支持知识存储并提供应用能力的数据库,适配主流大数据IT架构,目前已成功在众多金融及公安客户处落地应用。对于市场上主要的图数据库,明略技术团队也进行了充分的研究和对比,可以有效的帮助客户了解相关技术。
知识应用 —— 搜索、业务应用和问答
知识应用是最直接体现知识图谱智能化的部分,也是使用者能直观感受到其价值的部分。从Google提出该概念到微软、百度、搜狗的快速跟进,搜索一直都是知识应用最典型的场景,在完整的知识图谱之上,当我们输入“金融行业人工智能实践案例”时,得到的将不再是包含这个短语的网页内容,而是一个一个结构明晰的案例,搜索体验完成了从匹配文本内容到“问题-推理-答案”的重大升级。
理解金融业务场景应用如何作用在知识图谱之上的一个非常简单的方式,就是把业务应用看成目的明确的 “问题-推理-答案”的组合。银行的公司业务部门关心一个行业趋势意味着哪些营销机会,可以理解成该行业包括哪些企业、这些企业相关上下游行业和企业有哪些、关联企业有哪些、关联关系和程度是怎样的、用款周期和特点是怎样的等一系列问题,同理风险管理部门关心风险传导、合规检查都可以通过知识应用带来智能化的决策辅助。这些问题里除了关联,对于金融行业还有很重要的一点是关联的量化,与知识计算阶段一样,知识应用同样依赖大量的数据挖掘工作。
知识应用给业务应用升级的另一方面是人机交互体验的大幅改善,如今的技术基础已经具备,随着业务场景的逐步成熟和落地,问答式的人机交互方式也会在金融行业知识应用方面带来极大的效率提升。
明略实践:目前,明略已经利用掌握的知识图谱相关技术,联合业内顶级的业务专家团队,在银行的对公营销、信贷风控、反欺诈、审计、合规领域,证券的市场监察、风控领域拥有大量知识应用实践经验,并不断拓宽和加深与业务场景的结合。
在以金融行业为首的众多拥抱新技术的行业中,知识图谱与行业场景结合探索刚刚开始就已经呈现了极高的热度,这代表着行业正在用更深入的角度去看待数据到知识的转化和其中蕴含的价值。总结起来,知识图谱的建设和应用一方面需要全面的大数据和人工智能技术,一方面需要行业专家、工程专家和数据科学家持续协作研究和实践,在科技走进现实的路上,明略数据也正在努力利用自己的全栈大数据技术、20余个知识图谱落地项目积累,金融行业全行级知识图谱构建经验与每一位金融行业客户并肩,挖掘数据价值、拓展业务维度、提升效率、实现行业人工智能。