首页 > 文献资料
-
基于大概率法探讨中医症状信息提取与标准化
目的:通过比较两个基于大概率法的症状提取方案,探讨中医症状信息的提取和标准化.方法:数据分析和处理在R 3.3.2上进行.运用《诊断学》《中医诊断学》及1 000份已标记的肺炎住院病历建立症状标准化数据库,症状描述词库和关键词-形容词词库.基于大概率法分别设计出中文分词方案,直接提取方案和组合提取方案.并用这3种方案对2 311份肺炎病历进行症状信息提取和标准化,从产生维度、手工处理情况、症状提取效果对方案进行比较.结果:直接提取方案和组合提取方案均能有效降低维度,组合提取方案手工处理百分比较小和症状提取效果较好.结论:基于大概率法的组合提取方案能有效提取中医症状信息.
-
中文病历文本分词方法研究
探索适合医学文本的分词方法,为医学数据挖掘和临床决策支持的语义分析奠定基础.分别使用单纯中科院ICTCLAS分词、ICTCLAS+自定义词典、ICTCLAS+统计分词和ICTCLAS+自定义词典结合互信息统计分词4种策略,对1 500份出院记录中的病历文本进行分词处理,并从准确率、召回率和综合指标值等3个方面对分词结果进行评价.以人工分词的50份出院记录结果为标准依据,4种分词策略的综合指标值分别为45.77%、58.76%、64.93%和78.06%.结果证实,自定义词典结合基于互信息的统计分词方法,能够有效地对病历中出院记录文本进行分词处理,可以满足临床数据分析的需求,具有良好的推广意义.
-
中文医疗文本匿名化方法研究
医疗文档的匿名化工作能够有效保护患者隐私,推动中国电子病历匿名化的发展.但传统的人工筛检患者隐私信息方法不仅效率低下,错检、漏检频繁,且消耗大量人力资源.针对这一问题,引入中文分词技术,提出并实现了一种基于中文分词技术的识别并处理中文人名的算法.该方法通过对医疗文本当中的自然句切割和切词以及充分挖掘姓名和其上下文信息的关联程度,实现了在电子病历中批量处理中文医疗文档.通过此方法,人名的检出率达到96.80%,超过临床人员对PHI的人工平均检出率81%,同时获得了90.57%的精确率.在保护患者隐私的同时,大化地减少匿名化对医疗文档临床医用价值的影响.
-
基于文本挖掘的中医文本情感分析
对中医评论性文本进行情感分析具有重要的学术研究价值,是了解中医发展的社会认可情况、探索民众对中医的情感倾向的有效途径.研究基于文本挖掘的情感分析方法,改进了基于词典的中文分词方法,利用基于细粒度词汇权重的情感分析方法进行中医文本情感分析.以典型的中医评论文本为例,进行评论语句的识别解析和情感计算.通过与其它情感分析方法的比较,验证了基于细粒度词汇情感权重算法在中医文本情感分析中的有效性.
-
医学文献全文检索的中文分词方法研究
中文分词作为中文信息处理重要的预处理手段被广泛应用,该文对医学领域文献全文检索的中文分词进行分析研究,提出了一种如何解决同义词、近义词的方法;并对传统正向大匹配算法进行改进,更全面地实现了"长词优先"的系统功能.本方法应用于医学文献全文检索系统中,取得了很好的效果,具有一定的实用性.