一种面向医学短文本的自适应聚类方法

doi:10.12068/j.issn.1005-3026.2015.01.005

东北大学学报:自然科学版 ›› 2015, Vol. 36 ›› Issue (1): 19-23.DOI: 10.12068/j.issn.1005-3026.2015.01.005

一种面向医学短文本的自适应聚类方法

栗伟¹，许洪涛²，赵大哲^1,3，刘积仁³

(1. 东北大学医学影像计算教育部重点实验室，辽宁沈阳110819; 2. 郑州市人力资源和社会保障数据管理中心，河南郑州450000; 3. 东软集团股份有限公司，辽宁沈阳110179)

收稿日期:2013-12-05 修回日期:2013-12-05 出版日期:2015-01-15 发布日期:2014-11-07
通讯作者: 栗伟
作者简介:栗伟(1980-)，男，河南驻马店人，东北大学博士研究生; 赵大哲(1960-)，女，辽宁沈阳人，东北大学教授，博士生导师; 刘积仁(1955-)，男，辽宁丹东人，东北大学教授，博士生导师.
基金资助:
国家自然科学基金资助项目(61172002); 国家科技支撑计划项目(2014BAI17B01); 国家高技术研究发展计划项目(2012AA02A607).

An Adaptive Clustering Method on Medical Short Text

LI Wei¹， XU Hong-tao²， ZHAO Da-zhe^1,3， LIU Ji-ren³

1. Key Laboratory of Medical Image Computing， Ministry of Education， Northeastern University， Shenyang 110819， China; 2. The Zhengzhou Municipal Human Resources and Social Security Data Management Center， Zhengzhou 450000， China; 3. Neusoft Group Ltd.， Shenyang 110179， China.

Received:2013-12-05 Revised:2013-12-05 Online:2015-01-15 Published:2014-11-07
Contact: LI Wei
About author:-
Supported by:
-

摘要/Abstract

摘要： 针对电子病历中疾病诊断文本同义词识别和命名标准化问题，提出了一种自适应的文本聚类方法.首先提出了一种新的基于集合的文本相似性度量算法;然后采用基于相似度分布的文本聚类算法实现同义文本识别，该算法能够自动确定类簇个数;最后采用基于序列模式的中心概念提取算法实现了疾病命名的标准化，同时对聚类簇进行合并和优化，进一步提升了聚类的准确性.测试结果表明，所述方法具有较高的准确率和聚类效率，在病历文本的预处理、分类和分析中具有广泛意义.

关键词: 聚类分析, 相似性度量, 频繁序列模式, 电子病历, 相似度分布

Abstract: An adaptive clustering method on short text was presented for synonyms text recognition and disease naming standardization of diagnosis in electronic medical record. Firstly， a new set based text similarity measure algorithm was proposed. Then， a similarity distribution based text clustering algorithm which could automatically determine the number of clusters was applied to recognize the synonymous disease texts. Finally， the disease naming texts were standardized by the central concept extraction algorithm based on frequent sequence pattern， while clusters were merged and optimized to further improve the clustering accuracy. The results showed that the proposed approach has a high accuracy and clustering efficiency which is of great significance for medical application such as medical text preprocessing， classification and analysis.

Key words: clustering analysis, similarity measurement, frequent sequence pattern, electronic medical record, similarity distribution

中图分类号:

TP391

栗伟，许洪涛，赵大哲，刘积仁. 一种面向医学短文本的自适应聚类方法[J]. 东北大学学报:自然科学版, 2015, 36(1): 19-23.

LI Wei， XU Hong-tao， ZHAO Da-zhe， LIU Ji-ren. An Adaptive Clustering Method on Medical Short Text[J]. Journal of Northeastern University Natural Science, 2015, 36(1): 19-23.

[1]	李建华，朱泽阳，徐礼胜，孙国哲. 基于深度嵌入聚类的ICU患者生理数据缺失插补[J]. 东北大学学报（自然科学版）, 2022, 43(5): 639-645.
[2]	于震梁，孙志礼，张毅博，王健. 一种自适应PC-Kriging模型的结构可靠性分析方法[J]. 东北大学学报:自然科学版, 2020, 41(5): 667-672.
[3]	袁中臣，马宗民. 基于语义和结构的UML类图的检索[J]. 东北大学学报:自然科学版, 2020, 41(1): 23-28.
[4]	季策，姜雨田. 基于方向幅值比的欠定盲源分离算法[J]. 东北大学学报:自然科学版, 2019, 40(7): 920-924.
[5]	魏国辉，齐守良，钱唯，张魁星. 基于相似性度量的肺结节图像检索算法[J]. 东北大学学报:自然科学版, 2018, 39(9): 1226-1231.
[6]	肖冬，包晶晶. 一种基于聚类分析的3MAD-MMMD过失误差侦破方法[J]. 东北大学学报:自然科学版, 2015, 36(8): 1089-1092.
[7]	方正，陈娟娟，谢涛，万欣. 基于聚类分析和AHP的商场类建筑火灾风险评估[J]. 东北大学学报:自然科学版, 2015, 36(3): 442-447.
[8]	吕伍，毛志忠，袁平，贾明兴. 基于模型迁移方法的精炼炉钢水终点硫含量预报[J]. 东北大学学报:自然科学版, 2014, 35(3): 314-317.
[9]	依玉峰;高立群;郭丽;. 基于全局空间相似性的模糊聚类算法[J]. 东北大学学报(自然科学版), 2012, 33(2): 178-181.
[10]	依玉峰;高立群;郭丽;. 和声搜索算法在聚类分析中的应用[J]. 东北大学学报(自然科学版), 2012, 33(1): 47-51.
[11]	陈晓青;任凤玉;张国建;丁航行;. 一种复杂矿体相邻断面的匹配算法[J]. 东北大学学报(自然科学版), 2011, 32(4): 579-582.
[12]	柳玉辉;阎倩倩;张广渊;袁淮;. 一种基于优化模板匹配的红外目标跟踪算法[J]. 东北大学学报(自然科学版), 2010, 31(10): 1389-1392.
[13]	于春海;樊治平;孙新波;. 一种基于多指标语言评价信息的聚类方法[J]. 东北大学学报(自然科学版), 2006, 27(6): 698-701.
[14]	于涛;韩清凯;孙伟;闻邦椿;. 基于隐Markov模型的图像方位识别[J]. 东北大学学报(自然科学版), 2006, 27(3): 304-307.
[15]	徐野;赵海;苏威积;张文波;. 油藏预测中的贝叶斯网络融合方法[J]. 东北大学学报(自然科学版), 2005, 26(12): 1145-1148.

一种面向医学短文本的自适应聚类方法

An Adaptive Clustering Method on Medical Short Text

RichHTML

PDF (PC)

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价