首页 > 文献资料
-
利用大数据开源项目实现医疗临床大数据筛选
目的:用大数据技术,实现对复杂类型数据即席查询、文本搜索处理的临床大数据筛选和分析平台.方法:应用基于Hadoop的文件分布存储(HDFS)、大数据仓库(Hive)、数据抽取技术(Sqoop)以及分布式文本搜索(Solr)大数据开源项目,实现对临床大数据的分布存储管理、即席查询、筛选规则加载和病历文本分析.结果:按照“Bolondi再分期模型对肝切除术后患者总体生存预测”课题的数据筛选要求,平台能帮助研究者从大量的具有复杂结构的临床数据中获取符合规则的样本数据.结论:融合应用大数据开源项目是海量医疗临床数据筛选和分析的有效技术方法.
-
Solr在医疗大数据检索中的应用
目的:利用开源软件Solr搭建一套高速检索引擎,实现海量异构数据及非结构化医疗数据的高效检索.方法:采用高速开源检索引擎Solr,通过把各种类型医疗数据的meta数据上传到Solr上并建立索引,实现高速检索.结果:使用存储与开源软件Solr搭建的医疗大数据检索平台,并在医疗大数据平台上开发一个Web检索展示系统,对平台中的医疗数据进行检索、分析和利用.结论:通过与传统关系型数据库检索性能的对比,证明使用Solr检索的性能远超传统关系型数据库,在实际工作环境中Solr具有高可用性与高实用性.
-
基于Solr的特色库发现系统
针对DSpace开源系统基于Lucene的全文索引和关键词检索技术存在的问题,在特色库建设中引入了Solr搜索服务,替换了原有的Lucene分析器,强化了分面搜索、分面浏览、访问统计的发现功能,探索了词汇控制规范检索、分类法强化学科属性、自由词检索方式。