本
文
摘
要
导读:中医药领域的概念体系和术语体系非常复杂,知识门类繁多,知识总量巨大,知识碎片化和信息孤岛现象突出,急需有效的知识组织和管理方法。通过知识图谱技术,可对中医药概念体系进行系统梳理,构建大型化、可扩展性强的中医药领域知识系统,实现知识关联和知识融合,支撑智能推荐、智能问答等各种智能应用。
中国中医科学院中医药信息研究所自2013年开始密切跟踪谷歌知识图谱等行业发展,探索知识图谱技术在中医药领域的应用。到目前为止,中医药知识图谱系统(http://tcm.ckcest.cn/zhGraph)已经发展为中医养生知识图谱、中医临床知识图谱、中药知识图谱、名医传承知识图谱以及中医特色疗法知识图谱等一系列子领域知识图谱(或称知识图谱模块)相互关联所构成的大型知识系统。
本报告阐述了中医药知识图谱的内容、构建方法与应用,全文将主要围绕下面五点展开:
中医药知识图谱介绍中医药知识图谱的构建中医药知识图谱的应用具体案例总结01 中医药知识图谱介绍
首先向大家介绍一下中医药知识图谱的定义和定位。
1. 中医药知识图谱的定义
中医药知识图谱是以中医药概念体系为核心,对中医药概念性知识进行管理,而形成的大型网状知识库。中医药知识图谱是以语义网络为核心,不仅建立概念之间的语义关系,而且包括同义词、定义、注释、属性值、文字信息、资源链接等丰富的内容。知识图谱符合中医的思维特点,是发展中医人工智能的基石。
2. 中医药领域构建知识图谱的必要性
中医药知识主要存在三个问题:
概念体系非常复杂门类繁多、知识量大知识碎片化和信息孤岛现象突出通过知识图谱可以对概念体系进行系统的梳理,构建大型化、可扩展性强的中医药领域知识系统,实现知识关联和知识融合,从而支撑智能应用。
--
02 中医药知识图谱的构建
1. 中医药知识图谱构建流程
中医药知识图谱的构建是一个系统性的工程。主要有四个步骤:
对知识图谱做顶层设计,制定相关的语义标准;构建语义网络作为知识图谱的骨架;将数据库与半结构化的数据导入知识图谱;通过众包数据加工和文本知识获取等方法进一步扩充知识图谱。2. 中医药知识图谱的基础
(1)中医药语义标准
中医药语义标准包括语义网络框架、分类法、元数据标准等,定义了类型(类)、关系(属性)、上下位关系、重要概念的定义和注释等。其中国家标准中医药学语言系统语义网络框架与中医药知识图谱构建关系密切。
①语义标准:TCMLS的语义网络框架
TCMLS的语义网络框架定义了中医药领域的基本语义类型和语义关系。
TCMLS的语义类型定义了中医药领域最基本的96种语义类型,为中医药概念提供了一个分类系统。
TCMLS定义了58种中医药领域基本的语义关系(在UMLS语义关系的基础上增加中医药语义关系),用于将中医药概念连接成语义网络。
(2)中医药领域本体/语义网络
目前,很多工作参考并扩展了TCMLS的语义网络框架。中医界从本世纪初开始开展大规模协作式的本体工程,建立了中医药学语言系统,以及临床、古籍、证候、针灸、温病、医案等方面的许多本体。
①中医药学语言系统
中医药学语言系统(TCMLS)是以中医药学科体系为核心,遵循中医药学科理论体系建立的大型领域本体,是由许多专家通过成熟的网络化术语加工系统构建的。
TCMLS的特点包括:
以概念为核心对中医术语进行系统梳理和精确表达建立概念之间的上下位关系,构成概念层次结构编织大型的语义网络TCMLS的总体框架分为顶层和底层。顶层是语义网络框架,底层是由具体概念构成的大型语义网络。
底层的基础词库对现存词表、分类表、数据库、工具书中词汇进行分析、选择和组织,加工成一个大型词库,共约12万个概念,30万个术语。
②中医药学语言系统中医临床术语系统
中医临床术语系统为解决临床数据的采集问题以及信息传递中遇到的交流障碍提供了标准的术语,提高临床用语的规范化,促进临床经验的交流和共享。
中医临床术语系统分类结构定义了17个顶层分类,包括11万个概念,27万个术语,100万条语义关系。
3. 中医药知识图谱的构建:从结构化数据到知识图谱
广泛收集了中医药领域的数据资源,并对其进行数据清洗和规范化,然后将关系型数据库经过转换和融合存入Neo4j图数据库,最后根据应用需求进行数据转换、导出,可以导出多种格式。
4. 中医药知识图谱的构建:从文献到知识图谱
中医药领域的文献主要包括期刊论文、医案、指南等。基于本体对中医文献进行分词和概念实体识别,从中自动提取语义关系。建立中医药文献大数据平台,对从文献中的抽取的实体和语义关系进行集中管理、浏览和审核。导入知识图谱系统,实现知识结构化和可视化。
--
03 中医药知识图谱的应用
从2013年开始依据中医药领域语义标准,利用术语系统和数据库等资源来构建中医药知识图谱系统。到目前为止,该系统已成为由中医养生知识图谱、中医临床知识图谱、中药知识图谱、名医传承知识图谱以及中医特色疗法知识图谱等一系列子领域知识图谱相互关联所构成的大型知识系统。
1. 基于知识图谱优化知识检索
基于知识图谱实现更强大的检索功能:
知识图谱可用于实现精准的知识查询知识图谱中定义的同义关系被用于扩展检索知识图谱中定义的相关关系用于关联检索2. 基于知识图谱实现知识可视化
知识图谱能够以图形方式凸显核心概念之间的关系,快速呈现知识结构,帮助用户在概念层次上浏览中医药知识体系并迅速发现所关注的知识。
3. 基于知识图谱的智能推荐
应用场景包括中医临床辅助推荐,可以实现中成药推荐、处方推荐、养生方法推荐、辅助诊断。这里主要是中医养生方法的推荐。
4. 基于知识图谱的智能问答
基于中医药知识图谱的问答系统给用户提出尽可能准确的答案或建议。
5. 知识图谱在中医临床辅助决策系统中的应用
--
04 具体案例
1. 中医临床知识图谱
中医临床知识图谱是依据中医临床信息学,面向中医临床研究和实践而建立的知识系统。通过中医临床知识图谱,可建立病、证、症、理、法、方、药等核心临床概念之间的关系,把名医经验、临床指南、诊疗规范、医案、临床研究等各种资源关联起来,实现临床知识资源整合,服务于临床研究、医案挖掘和临床决策支持。
中医临床知识图谱的核心实体包括中医疾病、西医疾病、证候、症状、治法、方剂、中药等,核心的语义关系包括症状关联关系、症状疾病关系、症状证候关系、中西医疾病关系、治疗关系、方药组成关系等。
(1)中医临床知识图谱构建:以脾胃病为例
中医临床知识图谱以中医分科和疾病为研究对象,构建了中医皮肤科、中医哮喘、胃肠病等围绕专科专病的临床知识图谱。以脾胃病为例,介绍图谱构建方法和过程。
(2)脾胃病知识图谱的构建与应用
①数据预处理
为了构建脾胃病知识图谱,我们需要收集临床诊疗术语、病症分类与代码等,对已有研究建立的脾胃病中医药本体进行扩充。同时,收集科技文献、医案、现行教材、最新研究进展等文件形成脾胃病专题文献库,通过文献大数据加工系统对这些文件进行标注,构建语料库。
②基于医案构建知识图谱
左侧为一则医案,以文本形式记载中医临床的诊疗过程。首先识别医案中的概念、实体、事件,以及概念实体之间的关系,区分一个医案中的多个诊治是不同的事件。经过医案的解析,提取出医案中的实体和关系。
③古今医案云平台
医案的挖掘来源古今医案云平台,包含40万医案数据,支持各种医案挖掘的方法。
④从中医医案到知识图谱
从医案到知识图谱的构建过程:首先,收集医案,比如脾胃病相关的医案。然后,医案数据预处理实现数据标准化和结构化。接下来,从医案中抽取知识,构建“病—症—治” 知识图谱。最后,医案知识共享与传承。
⑤基于文献大数据平台进行众包式加工
基于文献大数据平台进行众包式加工的过程:首先,将医案文献进行OCR实体识别录入、校对等,然后自动提取医案的文字内容,经人工校对和专家审核并完成实体识别之后,再自动发现其中的语义关系和医案中的事件,由人工经过校对,完成医案的结构化和知识图谱的构建。
⑥基于医案构建知识图谱--查询示例
知识图谱构建好之后,可以查询实体。例如:可以查询某一个方剂可以治疗哪些疾病,该方剂包含哪些中药等等。
2. 中医临床知识图谱的应用
(1)基于临床知识图谱的知识问答
基于临床知识图谱实现知识问答,它能回答用户用自然语言提出的中医临床场景下的问题,直接给出答案或推荐结果。比如,“治疗某病吃什么药?”
(2)基于知识图谱的智能问答
问答系统的基本原理是当用户用自然语言输入查询请求或问题时,系统首先识别问句特征词并对问句进行解析,再将用户问题转换为一个知识图谱查询,最终将知识图谱查询结果封装为便于理解的答案,返回给用户。
(3)中成药推荐
根据用户输入的临床表现,返回给用户适合的中成药。基于知识图谱实现中成药推荐的基本思想是,根据知识图谱之中疾病、证候、症状、病因及方药功效之间关系,搜寻临床表现与中成药之间的路径,这些路径就代表了临床表现与中成药之间的潜在关系。通过这些路径找到在某个场景下可以适用或不适用的中成药。
3. 名医传承知识图谱
为了支持中医名家学术传承,首先建立专家信息库(包括2000多位专家),支持专家信息检索和分析服务。在专家信息库的基础上,结合专家的文献和医案,构建中医名家知识图谱,用于梳理中医名家的师承关系和经验性知识。
中医名家知识图谱以名医为核心,展示任职机构、论著、师承关系、合作关系及代表性方药、擅长疾病等信息,有助于分析中医代表性流派的学术发展脉络和学术思想源流。名医与名医之间的师承关系是中医名家知识图谱的核心关系。
4. 名医传承知识图谱:赵炳南
中医名家赵炳南是我国当代中医皮肤科泰斗,已经形成了自己的学术流派。我们在整理赵炳南及其弟子的著作、论文、医案等文献资料的基础上,构建了赵炳南传承知识图谱,它不仅记录了赵炳南的学术思想和经验,还梳理了师承关系与学术脉络。梳理赵炳南传承谱系,共搜到赵炳南传承关系72条,共有三代弟子。
构建知识图谱后,可以利用知识图谱分析名医的临床思维路径和思维模型。系统总结赵炳南“辩证论治组方”思维模式,用知识图谱表达为由“证型—症状—病机—治则—治法—方剂—中药”所构成的思维路径,将上述思维模式和路径融合为赵炳南辩治思维模型。
通过这个知识图谱,用户可以完成如下的知识查询:
查询赵炳南擅长疾病、经验方和特色用药分析流派的知识传承情况传承关系:查询名医与弟子之间的传承关系精准的知识查询:查询赵炳南治疗银屑病的方剂(1)名医传承知识图谱:朱仁康
采用类似的方法构建了朱仁康流派的知识图谱。朱仁康知识图谱包括传承关系、学术思想、临证经验、擅长疾病、经验方、擅长中药等知识,并对朱仁康传承关系进行了梳理。同时,可以对朱仁康的临证经验、经验方等进行查询。并用知识图谱表达朱仁康治疗疾病过程中由“证型—症状—病机—治则—治法—方剂—中药”所构成的“辩证论治组方”思维路径,并将这些思维路径融合形成思维模式。
(2)知识图谱应用:皮肤科名医流派辩治思路比较
沿着上面的思路,通过不同名医的知识图谱,我们可以清晰地看出他们的学术特点和思维特色,比较他们辩证论治组方的异同。
以用方经验比较举例,在构建不同名医的知识图谱之后,我们就可以对他们的经验方和用药经验进行比较,找出共性和差异。
因为中医组方的灵活性,所用方剂或所治病证一定不会完全相同,只要在病证、治法、组成上具有相似性就属于用方经验传承。
(3)知识图谱应用:流派用方经验传承
经过查询和比较,可以发现弟子传承了名医的配伍经验,再加以化裁。例如,朱仁康和弟子弟子许铣的用方不完全相同,但有传承性,利用知识图谱记载和查询出这种相似的方子,以及证型、治法等概念的复杂相关性。
(4)知识图谱应用:流派用方经验差异对比
不同流派的中医的用方经验的确有所不同。通过知识图谱查询,可以表现出流派之间在病机设别和组方用药等方面的差异。不同用方经验的确有不同之处,但可能也存在相互借鉴和融合;通过知识图谱将多篇文献的知识结合起来可分析这种异同性。
5. 中医养生知识图谱
我们基于中医养生古今文献资源,广泛收集饮食、药膳、药物、针灸、运动、 *** 、起居等12类养生方法,通过知识图谱梳理中医养生知识体系,建立养生思想、原则、方法与疾病、体质、证候、环境、节气等因素之间的关系。
(1)中医养生知识图谱的应用
中医养生知识图谱可支持多种养生知识服务:
基于知识图谱和问答提供中医养生知识问答服务。基于个体特征和时空环境,进行养生保健、疾病防治的个性化知识推荐。重点研发的内容包括:药食同源、运动养生、皮肤科与美容、养生日历等。(2)应用案例:基于体质的个性化养生知识推荐
中医将体质分为九种,不同的体质有不同的养生方法,根据养生方面的文献制定了以体质为中心的养生知识图谱。例如,“湿热质”体质在不同的病理下表现不同的症状,针对不同的症状会有不同的治则,针对不同的治则会有不同的养生方式。
(3)个性化养生知识推荐
构建以体质为中心的养生知识图谱后,可以支持个性化的养生知识推荐。例如,针对体质为气虚质,表现出易汗出、精神不振症状,且忌口为“南瓜”,查询适合他的养生方法。
--
04 总结
中医药知识图谱实现了中医药知识体系的可视化,建立知识点之间的有机联系,在知识检索、知识推荐、知识问答和和中医临床辅助决策系统中也都发挥了实际的作用。
知识汇聚:实现各类文档、数据库、网站中碎片化知识的集成。知识关联:疾病、药品、检查的关联;中西医疾病名称关联;中西药成分关联等。智能应用:将案例研究中的智能问答、智能推荐方法推广应用于其他智能化知识服务场景,包括临床决策支持中的辅助诊断、处方推荐、医案知识挖掘、个性化养生知识推荐等。在中医药领域开发知识图谱的意义:
为中医药知识体系的系统梳理和完整保存提供创新性的方法。为中医药领域知识遗产的深度挖掘与利用提供有效手段。在中医药领域的知识管理、知识服务、教育、培训等方面都具有应用价值。今天的分享就到这里,谢谢大家。
阅读更多技术干货文章、下载讲师PPT,请关注微
分享嘉宾:于彤 中医科学院中医药信息研究所
出品平台:DataFunTalk
分享嘉宾
报名看直播 免费领PPT
---【DataFunSummit2022:自然语言处理峰会】
时间:7月30日9:00-18:102. 地点:DataFunTalk直播间
3. 报名:添加小助手报名观看
DataFunSummit】更新所有讲师的PPT资料,届时可回复关键字【20220730】免费下载!
以下是本次峰会的【整体论坛】介绍:关于我们
DataFun:专注于大数据、人工智能技术应用的分享与交流,百万+阅读,14万+精准粉丝。欢迎转载分享,转载请私信留言。