以电子病历数据源建立重大疾病预警机制的研究:数据源
时间:2018-12-24 03:36:25 来源:雅意学习网 本文已影响 人
摘 要:本文依据最新的电子病历系统,提出了用数据挖掘的方法,以电子病历做为数据源建立重大疾病预警机制,描述了基于数据仓库的疾病预警系统的框架,并讨论了其中的关键技术。
关键词:疾病预警 数据仓库 数据挖掘
电子病历是在计算机应用技术发展较为成熟的基础上实现的信息化病历,是一个比较新的计算机应用领域。使用电子病历不仅能够记录纸制病历中的所有信息,而且能够使信息系统化、及时化,通过通用的电子病历系统能够实现病人信息的采集、加工、存储、提取、处理和预测等功能。
一、电子病历数据挖掘可行性分析
随着数据挖掘技术的快速发展,我们已经可以从大量的数据中提取出对我们有用的数据进行处理,并得到以前认为无关信息间的密切关联关系,或者根据现有经验预测将来有可能发生的事情。据医学相关领域研究成果显示,许多重大疾病甚至造成严重后果的传染病在发病前或多或少都会有一些症状产生。而对于不严重的病症如体温变化,腰部酸痛等,很多人都会忽略,致使医生和研究人员无法掌握完整的信息和资料对重大疾病进行预防性研究。
现在的电子病历基本上能够做到对有记录的病人的身体情况做较为详细的记录,以电子病历为数据源,利用数据挖掘技术可以研究重大疾病发生前的有关特征,并建立相关的疾病预警机制。比如:国家医疗卫生机构可以在某一时期内对某种重大传染病的传播情况进行实时追踪(如:危及一时的非典传染数据,利用本方案,准确感染人数和传播范围即时可得,并且可以根据发病比例做出重大疾病预警),国家可以根据病情实际传染情况进行及时、准确的决策、预警。
二、数据挖掘开发环境及主要功能
1.开发环境与系统要求:SQL SERVER 2005,要求有统一的电子病历标准,以便便利地进行数据提取和病历信息的数字化。
2.主要功能:对电子病历进行数据提取、存储,并且能够建摸、训练模型和预测得到可能发生重大疾病的概率,发出预警信号;用于研究微小症状和重大疾病间的关联关系。
3.触发器预警:当预测结果达到一定的可能性比例后,通过数据库触发机制触发已有的重大疾病预警机制以发出预警信号。
4.对病历书写时限和内容能实时监控。
5.病历信息查询、检索、统计和分析。
三、主要模块及技术办法
系统构架:
(一)数据采集
1.确定以电子病历为数据源,要求大量的数据源有统一的标准,以便数据传输和提取。病历信息在就诊时,就可以通过互联网传输到总的电子病历系统中,在与数据库连接的条件下可同步进入基础数据库,数据的实效性得到了强有力保证,这使得电子病历的上述重大作用发挥到了极至。
2.建立系统工作日志表:利用SQL Server存储过程建立工作日志,记录登陆、退出系统的时间,书写、修改、保存等操作。外部人员无法访问日志表。同时,建立工作日志定期备份机制。
(二)数据处理
1.选择。这里只是粗略地把一些冗余或无关的数据除去,或由于资源的限制、数据使用的限制和质量问题而必须做出的选择。主要根据知识库中所要用的和有可能用到的数据来进行选择,祛除原始数据中的噪音。
2.信息传送到电子病历系统后,通过一定程序对数据进行处理,可将病历信息数据化(如:疼痛性质:针刺疼痛、刀割样疼痛、灼痛、电击样疼痛、跳痛、抽痛、胀痛,可分别用1―7的数字将其提取保存),便于统计发生概率。将所得到的结果存入数据仓库中。
(三)建立疾病模型和自动分析机制
1.在SQL SERVER 2005中按照疾病的种类建立相应的模型。若是已知发病前兆,需要根据症状预测发生疾病的机率,则所填加的字段为知识库中以有的病症,使用贝叶斯算法预测发病概率;若是需要探测微小症状与重大疾病间的关联关系,则要把病历中有的所有症状都列为填加字段,使用决策树算法可测试单独或并列的微小症状与重大疾病的关联关系。
2.建立知识库和方法库。知识库用以存放根据经验或已有结论能够预测的重大疾病的特征症状、伴发症和危险因素,为预测疾病发生概率提供依据;通过决策树得到了正确的关联关系,用来扩充知识库。方法库是存储相关的算法和预测方式的,可从多层次、多个角度考察数据的规律,用多种形式展现结果。从数据仓库中挖掘出知识,并将其放入知识库中,通过知识推理达到定性分析辅助决策。
(四)疾病预警机制
1.模型图
其中推理机制是核心,它是以症状为线索,按照症状出现的缓急、程度、部位和时间等因素为主要参数,再结合伴随症状和该疾病的危险因素等信息进行疾病预警。
2.机器学习
疾病预警中的机器学习是运用概率论与数理统计的原理及方法,结合医学实际,通过对数字资料的搜集、整理分析与推断,让系统在不断重复的工作中增强和改进本身能力,使建立的智能模型能从有限的病人描述中归纳出可靠的预警算法。这种预警工具可以作为提高医师的工作效率的辅助工具。
(五)采用的主要算法
1.预测疾病发生概率采用贝叶斯算法:使用条件概率和无条件概率的组合,即如果您有一个假设H和关于假设E的证据,那么可以使用下面的公式来计算H的概率:
2.使用贝叶斯算法在SQL Server 2005上建立数据挖掘模型:
CREATEMININGMODELILLNESS
{
[ID]LONG KEY,
[NAME] CHAR,
[SUFFER] BOOL,
[TIME] DATETIME,
[BLOOD PRESS]CHAR,
......
} USING Microsoft_Naive_Bayes
训练模型:
INSERTINTOILLNESS
OPENQUERY([ILLNESS],‘SELECT*FROMILLNESS’)
预测:
SELECTPredict() FROMILLNESS
NATURALPREDICTIONJOIN
(SELECT@BLOOD PRESS AS[BLOODPRESS],
@TONGUE FUR AS [TONGUEFUR] ) as t
预测的结果将会基于参数中指定的值。
3.微小症状与重大疾病间的关联关系鉴定采用决策树算法:递归地将数据拆分成子集,以便每一个子集包含目标变量类似的状态,这些目标变量是可预测属性。每依次对树进行拆分,都要评价所有的输入属性对可预测属性的影响。当这个递归的过程结束时,决策树也就创建完了。
4.使用决策树算法在SQL Server 2005上建立数据挖掘模型:
CreateminingmodelILL
(ID LONG Key,
NAMECHAR,
SUFFERBOOL,
TIMEDATETIME,
BLOODPRESSCHAR,
......
)UsingMicrosoft_Decision_Trees(Complexity_Penalty=0.5)
训练模型:
INSERTINTOILL
(ID,SUFFER,TIME,BLOOD PRESS,......)
OPENROWSET(‘Microsoft.Jet.OLEDB.4.0’,
‘DataSource=C:\data|CollegePlan.mdb;’,
‘selectID,SUFFER,TIME,BLOOD PRESS,......FROM ILL’)
浏览该模型:
Select*fromILL.Content
四、将来要研究的问题:
目前电子病历还没有一个统一的模式和标准,导致在全国甚至全世界范围的电子病历无法进入统一的电子病历系统,妨碍了大规模统一数据信息的提取,需要尽快解决标准问题。
在统一了标准的基础上,要解决数据的实时计算概率问题,以便系统能够达到真实、实时预警的效果。
参考文献:
[1]薛万国.XML与电子病历.国外医学医院管理,2002,1:33-34.
[2][荷兰]J. H. Van Bemmel,[美国]M.A.Musen主编. 包含飞,郑学侃主译.医学信息学,第1版.上海:上海科学技术出版社,2002,100.
[3][荷兰]J. H. Van Bemmel,[美国]M.A.Musen主编. 包含飞,郑学侃主译.医学信息学,第1版.上海:上海科学技术出版社,2002,435.
[4] [荷兰]J. H. Van Bemmel,[美国]M.A.Musen主编. 包含飞,郑学侃主译.医学信息学,第1版.上海:上海科学技术出版社,2002,263.
[5]刘克新,李英,高艳华等.网上病历的质量现状分析.中国医院管理,2003,1:37-38.
[6] [美国]Jamie MacLennan,[美]Data Mining with SQL Server 2005.
[7] 陈晓美,王树明,李德昌.基于数据仓库的高校教师疾病预警模式研究.情报科学,Vol. 23,No. 7,July, 2005.
四川省教育厅青年项目,项目编号:2006B095
注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。”
本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文