说道问答系统大家都不陌生,从2011年Siri诞生,到Google Now,再到Cortana和Alexa,作为语音助手,其实它们本质上都是问答系统。
这几个都是面向公开领域的问答系统,在我们的日常生活中帮我们定闹钟、打电话、导航、搜索问题,偶尔还能讲讲笑话,也正让我们的生活越来越方便。
而对于工作场景,一些行业的迅速崛起和发展,企业中员工每天面对的信息、数据、行业和业务知识都在不断的更新迭代,以前“师傅带徒弟”的方式,已经很难满足将大量行业知识迅速学习并转换为实际工作,从而符合企业增长需要的过程,所以,对于企业来说,快速让员工迭代行业知识,迅速应用于实际工作中,企业员工也需要一个“懂行”的“智能助手”,它“懂得”内部大量的数据和知识,融合公网领域的数据和知识,形成行业问答系统,帮助员工迅速掌握行业知识,迅速上手工作。
这样的行业问答系统雏形早在Siri之前就已经出现,2011 年 9 月,由 IBM 研发的 Watson 机器人参加智力问答节目“Jeopardy!”,就是一个计算知识引擎,相比搜索引擎其创新之处,在于能够马上理解问题,并给出答案。实际上watson在落地具体某个行业客户的时候,就是做的行业问答系统。
而现在,Alpha-sense和Kensho也是现在AI领域相对成熟的行业问答系统。
什么是行业问答系统
问答系统(Question Answering system, QA system)是用来回答人提出的自然语言问题的系统。问答系统的实现涉及到自然语言处理、信息检索、数据挖掘等交叉性领域。
行业问答系统是融合行业非结构化文本和结构化数据的知识提娶表示、存储、检索,实现基于知识的语义分析与认知推理,并以简洁的问答式对话模式解决客户核心认知决策问题的人工智能平台。
其融合自然语言处理、知识图谱构建、知识表示与存储、认知与推理、信息检索、深度学习等技术,关联起人类的基础知识认知与客户的业务数据知识经验,给客户建立起自己的行业AI系统,通过简洁高效的问答式交互,实现数据到信息到知识到智慧决策的精准性输出。
行业问答系统体系的建立,让企业内部的知识“流动起来”,能够为企业建立基于所有数据、信息、企业知识的企业级搜索,也同时可以做到智能客服、智能诊断、文本分析等功能。而在知识的积累过程不断深入,结构化的行业知识,也可以反馈于开发,从而可以对行业知识提供更优化的文本分类、情感分类、主题分析等API服务,作用于整个行业。
问答系统与搜索引擎的关系?
人对于互联网的核心诉求之一是知识获龋搜索引擎是现阶段最重要的互联网入口,也缔造了谷歌、百度等巨头企业。然而,基于关键字的搜索方式,缺乏语义理解,存在着与人的自然需求表达的隔阂,同时其返回结果需要人消耗大量时间剔除无意义的信息。
随着人工智能、自然语言理解技术的进步,当问答系统足够智能,人就可以用问答从互联网完成知识获龋从更长的时间窗口看,问答系统及聊天机器人,可能会成为互联网知识获取的新入口。
问答系统的核心技术
问答系统的研究,是语义计算和自然语言处理的综合性应用。它包含了多种典型自然语言处理的基本模型,例如实体识别、短文本理解、语义匹配等。传统的单一模型研究往往仅关注某一具体问题的效果,而忽视在系统整体中的实用性。问答系统由于其复杂性,需要不同模型间的联通,才能带来综合性、实用性的技术突破。
问答系统研究的核心在于问题语义和知识语义的理解和匹配,也是计算机理解人类语言和知识表达的关联,跨越语义鸿沟的关键。人类倾向于使用多样化、非结构化的表达来描述问题和知识,而计算机则偏爱唯一化、结构化的知识。问答系统的研究,直接作用于缩短和跨越这一语义鸿沟,将多样而模糊的问题语义,映射到具体而唯一的计算机知识库中。
优秀的问答系统有两个关键点:精确的问题理解和高质量的知识来源。近年来随着大数据的发展,这两点纷纷迎来了数据层面的发展契机。
· 问题理解 由于问题的多样性和复杂性,很难人工制定一套规则完成问题理解。因此从数据中进行问题语义学习是必要的。社交类问答网站的兴起,包括Yahoo! Answers,Stack Overflow,百度知道等。由用户在上面进行提问和回答。这些网站包含了大量的问答对数据集,这成为了问题理解的优质语料。海量的问答语料为问题理解的学习提供了数据基矗
· 知识来源 由于知识表述的多样性,以及知识关联的复杂性,需要优质而大量的知识来源。近年来,一批高准确率、海量规模的知识图谱涌现,为问答系统提供了结构化、关联化的知识来源。这也为高效的问题回答提供了知识基矗
基于知识图谱的问答系统
知识图谱简介
知识图谱旨在描述世界上各种实体(entity)或概念(concept)及其关系,可被看作是一张巨大的图,节点表示实体或概念,边表示属性或关系。本质上是一种语义网络,边代表了实体/概念之间的各种语义关系。
2011 年的 Science 曾经以“互联” 为题,出版专刊阐述了一个基本观点:我们身处在一个“互联”的时代。各种网络,诸如互联网、物联网、社会网络、语义网络、生物网络等等,将各类实体、概念加以互联。网络已经成为刻画复杂性的基本形态。管理、理解和使用各种网络数据,包括知识图谱,已经成为征服复杂性的基本手段。只有基于语义的数据互联才能发挥大数据集成的指数效应,才能获取大数据的特有语义。
举例说明,公安的知识图谱是公安数据的各个实体,如人、车、电话、案件、账号、警情、组织机构等,和它们之间的关系构成的语义网络,可被用来案件分析研判、搜索、团伙挖掘、重点人员管控、案件态势分析等各种实战业务场景。
知识图谱在问答系统上的数据优势
问答系统有多种可能的数据来源。传统的数据来源包括网页文档、搜索引擎、百科描述、问答社区等。无一例外,这些数据来源都是非结构化的纯文本数据。有大量基于信息检索的方法致力于研究从纯文本数据中进行知识抽韧回答。而近年来,基于知识图谱的问答系统则成为学术界和工业界的研究和应用热点方向。相较于纯文本,知识图谱在问答系统中具有以下优势:
· 数据关联度-语义理解智能化程度高 语义理解程度是问答系统的核心指标。对于纯文本数据,语义理解往往建立在问句与文本句子的相似度计算。然而语义理解和知识的本质在于关联,这种一对一的相似度计算忽视了数据关联。在知识图谱中,所有知识点被具有语义信息的边所关联。从问句到知识图谱的知识点的匹配关联过程中,可以用到大量其关联结点的关联信息。这种关联信息无疑更为智能化的语义理解提供了条件。
· 数据精度-回答准确率高 知识图谱的知识来自专业人士标注,或者专业数据库的格式化抓取,这保证了数据的高准确率。而纯文本中,由于同类知识容易在文本中多次提及,会导致数据不一致的现象,降低了其准确率。
· 数据结构化-检索效率高 知识图谱的结构化组织形式,为计算机的快速知识检索提供了格式支持。计算机可以利用结构化语言如 SQL、SPARQL 等进行精确知识定位。而对于纯文本的知识定位,则往往包含了倒排表等数据结构,需要用到多个关键词的倒排表的综合排名,效率较低。
基于知识图谱的问答系统的核心问题
建立基于知识图谱的问答系统,需要解决两个核心问题:
(1)如何理解问题语义,并用计算机可以接受的形式进行表示(问题的理解和表示);
(2)以及如何将该问题表示关联到知识图谱的结构化查询中(语义关联)。
对于第一个问题,问题理解和表示。知识图谱中有数以千计的关系,而一种关系可以有数以千计的问法。对于不同的问题形式,问答系统使用不同的表示方法。这些问题表示必须满足归一具有相同语义的问题和区分不同意图的问题那个条件。
而对于第二个问题,在获取一个问题的表现示之后,系统需要将这一表现示映射为结构化查询。结构化查询主要依赖于知识库中的属性。由于属性和表现模型之间的跨越,寻找这样的匹配并非直接。
以下,知识图谱问答系统的一个典型功能流图
备注:以上内容参考了复旦大学崔万云博士的《基于知识图谱的问答系统关键技术研究》
HI 小明,你是什么?
小明,知识图谱的问答系统,通过可感知、被信任的拟人交互过程实现人机同行,降低系统使用难度,提升企业级应用的用户体验。
小明有什么核心技术呢?
自然语言理解能力
以分类模型和序列标注为核心的语义理解模型能够精准的将自然语言转化为框架语义表示的结构化信息。同时,接口的开放性支持不同领域知识的快速接入,方便定制出领域自然语言理解接口。
对话能力
小明提供多种对话模型,并允许以脚本配置的方式自定义具有复杂逻辑的对话模型,为不同的业务系统提供统一的自然语言交互接口。
实体抽取及标准化
以 “规则+模型”的方式提供了多个支持二次开发的实体识别模型。基于知识图谱构建实体识别能力,能够快速定位和理解自然语言中的实体,以及能够识别领域无关的实体,并且可以通过简单配置快速识别未登录的领域实体。
小明,能帮助你做什么?
公安领域,普通的警察无需学习图析等复杂操作,对小明输入“给出与某车牌相关的体型偏胖的相关人员”这样的自然语言,明智系统即可自动完成线索推导。
在公安领域,告诉小明接受的输入是一个新发案件的案情简要描述,包含时间、地点、受害人信息、案件特征描述等,小明会根据这些输入解析出其中的问题线索,理解案件中的受害人及案件时空信息,根据积累的研判专家的各种研判侦破思路规则及机器学习计算的各项参数,在历史案件、警情、重点前科人员等组成的公安知识库中进行匹配计算,给出其判定的嫌疑人信息和判定依据。相当于刑侦专家们为你研判分析了一遍,然后你在此基础上进行下一步分析。这将极大节省警务工作人员案件分析的效率,并实现知识经验的传承。也可以输入一个人的身份信息,然后根据知识推理给出此人是否某犯罪团伙成员或者和某案事件有关联的答案和判定依据。
在金融领域,小明接受的输入类比是基金经理、理财顾问等业务人员关心某热点事件,小明可根据积累的基金经理的业务分析经验、项俊波的人际关系图谱,各保险企业级上下游企业间关系图谱,实时计算给出可能下跌的股票及判定依据。方便基金经理等业务人员迅速做出资产调配策略。
在医疗领域,小明接受的输入类比是一个人某个疾病的检查报告和医生问诊记录,根据积累的医生的疾病诊断规则和病例分析经验,结合病人的各项检查数据,给出病人是否患病的答案和诊疗依据,方便医生做出近一步诊疗规划。
在舆情营销领域,小明接受的输入类比是某产品一个营销活动近期口碑状况如何,小明可根据积累的业务分析报告规则经验和互联网营销数据、营销知识图谱给出当前活动的一个初级统计比对洞察报告,近一步和报告分析人员进行细化问题交互和经验积累。实现提升分析报告撰写人员效率的报告流水线。