第一章:知识图谱概述
Wikipedia:前5个主要是人工做的,下边主要是机器自动做的 DBPedia:主要目标是构建一个社区,通过社区成员来定义和撰写准确的抽取模板,从维基百科中抽取结构信息,并将其发布到Web上。 YAGO:YAGO基于WordNet的知识体系,将 Wikipedia中的类别与 WordNet 中的类别进行关联,同时将Wikipedia 中的条目挂载到WordNet 的体系下。 BabelNet:与YAGO类似,BabelNet也是将维基百科链接到WordNet 上。但是 BabelNet 加入了多语言支持,目前覆盖 271种语言 Freebase:核心想法:在Wikipedia中,人们编辑文章;在Freebase中,人们编辑结构化知识。基于维基百科、使用 群体智能方法建立的完全结构化的知识资源。是公开可获取的规模最大的知识图谱之一。 Google:Knowledge Vault:2014 年创建的一个大规模知识图谱。相较于 Google 之前基于 Freebase 的知识图谱版本, KnowledgeVault 不再采用众包方式进行图谱构建,而通过 机器学习方法自动搜集网上信息,并与已有的结构化数据进行融合,构建知识图谱。 KnowItAll:完全由机器构建,目标:让机器自动阅读互联网文本内容,从大量非结构化文本中抽取结构化的实体关系三元组信息。TextRunner和Reverb系统是 KnowItAll 项目中的两个代表系统。 NELL:也完全自动的。系统每天不间断地执行两项任务:阅读和学习。阅读任务从Web文本中获取三元组知识,并添加到内部知识库;学习任务目标是提升机器学习算法的性能。 Step1:知识本体构建:也叫知识建模;建模领域知识结构 Step2: 知识获取和验证:获取领域内的事实知识;估计知识的可信度 Step3: 知识融合:也叫知识集成;将多个来源的碎片知识组装成知识网络 Step4: 知识存储和查询:采用何种方式对知识图谱进行存储;采用何种方式对知识图谱进行查询 Step5: 知识推理:发现已有知识中隐含的知识 Step6:知识应用:提供高性能知识服务 知识本体构建:指采用什么样的方式表达知识,其核心是构建一个本体对目标知识进行描述。该本体需要: 定义出知识的类别体系 每个类别下所属的实体和概念 某类概念和实体所具有的属性以及概念之间、实体之间的语义关系 定义在这个本体上的一些推理规则 作为语义网的应用,知识图谱的知识建模采用语义网的知识建模方式,分为概念、关系、概念关系三元组三个层次,并利用 “资源描述框架 (RDF)”进行描述。RDF 的基本数据模型包括了三个对象类型: 资源 (Resource) 能够使用 RDF 表示的对象称之为资源,包括互联网上的实体、事件和概念等。 谓词 (Predicate) 主要描述资源本身的特征和资源之间的关系。每一个谓词可以定义元知识,例如,谓词的头尾部数据值的类型(如定义域和值域)、谓词与其他谓词的关系(如逆关系)。该谓词所关联的头实体和尾实体的定义域和值域 陈述 (Statements) 一条陈述包含三个部分,通常称之为 RDF 三元组 < 主体 (subject),谓词 (predicate),宾语 (object)>。其中主体是被描述的资源,谓词可以表示主体的属性,也可以表示主体和宾语之间关系。当表示属性时,宾语就是属性值;当表示关系时,宾语也是一个资源。 输入: 领域知识本体;海量数据:文本、垂直站点、百科 输出:实例知识;实体集合;实体关系/属性 主要技术:信息抽取;文本挖掘 任务:对不同来源、不同语言或不同结构的知识进行融合,从而对于已有知识图谱进行补充、更新和去重。 以下两个知识图谱在知识融合方面做的很优秀 YAGO :对专家构建的高质量语言知识图谱WordNet 和网民协同构建的大规模实体知识图谱 Wikipedia 进行融合而形成的,实现质量和数量的互补; BabelNet :融合不同语言的知识图谱,实现跨语言的知识关联和共享。 从融合的对象看,可以分为知识本体融合和知识实例融合。 知识本体融合:两个或多个异构知识体系进行融合,即对相同的类别、属性、关系进行映射。 知识实例融合:对于两个不同知识图谱中的实例(实体实例、关系实例)进行融合,包括不同知识本体下的实例、不同语言的实例等 从融合的知识图谱类型看,可以分为:竖直方向的融合和水平方向的融合。 竖直方向的融合:融合(较)高层通用本体与(较)底层领域本体或实例数据。 上下位的挂接融合,融合 Wordnet 和 Wikipedia 水平方向的融合:融合同层次的知识图谱,实现实例数据的互补。 融合 Freebase 和 DBpedia RDF图模型:RDF三元组:以文本的形式逐行存储;Google 开放的 Freebase 知识图谱 RDF图查询语言:SPARQL 属性图模型: 属性图查询语言:Cypher 任务:采用推理的手段发现已有知识中隐含的知识 输入:大规模知识图谱 输出:隐含知识; 主要技术: 基于逻辑规则的推理 基于表示学习的推理 知识推理的不同计算手段 符号推理:特点是在知识图谱中的实体和关系符号上直接进行推理。本质是学习并应用推理规则。归纳和演绎 数值推理:使用数值计算,尤其是向量矩阵计算的方法,捕捉知识图谱上隐式的关联,模拟推理的进行。又叫做语义计算,即用深 度学习的手段进行推理。本质是分布式知识表示。将符号化的实体和关系在低维连续向量空间进行表示,在简化计算的同时最大程度保留原始的图结构。 数值推理示例:TransE,是最具代表性的位移距离模型,其核心思想是实体和关系间的位移假设 语义搜索、天眼查、有推理能力的问答、推荐系统等 人工智能的两个流派:符号表示即知识图谱;数值表示即深度学习
知识图谱的特点:
知识图谱是人工智能应用不可或缺的基础资源 在语义搜索、问答系统、智能客服、个性化推荐等互联网应用中占有核心地位,在金融智能、商业智能、智慧医疗、智慧司法等领域具有广阔的应用前景。 语义表达能力丰富,能够胜任当前知识服务 知识图谱源于语义网络,是一阶谓词逻辑的简化形式,并在实际应用中通过定义大量的概念和关系类型丰富语义网络内涵。 描述形式统一,便于不同类型知识的集成与融合 本体(Ontology)和分类系统(Taxonomy)是典型的知识描述载体,数据库是典型的实例数据载体,它们的描述形式截然不同。知识图谱以语义网的资源描述框架(Resource Description Framework,RDF)规范形式对知识描述和实例数据进行统一表示,并通过对齐、匹配等操作对异构知识进行集成和融合,从而支撑更丰富、更灵活的知识服务。 二元关系为基础的描述形式,便于知识的自动获取 知识图谱对各种类型知识采取统一的二元关系进行定义和描述,为基于自然语言处理和机器学习方法进行知识的自动获取提供便利,为大规模、跨领域、高覆盖的知识采集提供技术保障。 表示方法对计算机友好,支持高效推理 推理是知识表示的重要目标,传统方法在进行知识推理时复杂度很高,难以快速有效地处理。知识图谱的表示形式以图结构为基础,结合图论相关算法的前沿技术,利用对节点和路径的遍历搜索,可以有效提高推理效率,极大降低计算机处理成本。 基于图结构的数据格式,便于计算机系统存储与检索 知识图谱以三元组为基础,使得在数据的标准化方面更容易推广,相应的工具更便于统一。结合图数据库技术以及语义网描述体系、标准和工具,为计算机系统对大规模知识系统的存储与检索提供技术保障。未经允许不得转载:>破家县令网 » 第一章:知识图谱概述