案例|柏睿数据库RapidsDB在某健康医疗大数据中心之落地实践
项目背景
在数字化转型大潮下,打通政府、医疗机构、制药公司、医保机构、商保公司之间的数据孤岛,盘活数据实现价值变现,不仅对地方政府的公共卫生把控工作有着现实意义,也一直是业界长期以来探索的重点领域。
某医疗大数据中心是通过国家卫健委试点评估,并由部委、省、市共建签约的健康医疗大数据中心,围绕健康医疗大数据领域开展数据汇聚、治理、开放、应用,业务覆盖 “健康医疗大数据”、“智慧健康医疗”、“健康医疗产业园”等板块,开展医疗大数据基础设施、平台和应用的建设运营,提供公共卫生、保险创新、精准医疗、互联网医院、医药研发、健康管理、医学教育等多种数据服务。
为了保证政府对于省、市的卫生政策能够安全、顺利的实施,该医疗大数据平台建设构建了“一湖三台”的核心技术体系架构,即健康医疗大数据湖、数据中台、业务中台和开放平台,汇集人口学、生理学、生物学、环境学等方面数据,建立标准化、全方位、多维度个人生命体征和健康信息库;制定分类、分级、分域健康医疗大数据开放应用政策规范,实现跨部门、跨层级、跨区域、跨领域的数据共享共用新格局;率先实现政府数据与社会、行业、企业及互联网数据的开放融合,有效支撑健康医疗大数据汇聚、治理、存储、开放、应用等。
当前痛点与挑战
在技术支撑平台上,当前医疗大数据平台使用了Hadoop和MySQL作为数据存储,以Hive作为离线数据查询、ClickHouse作为实时数据查询作为应用分析的支撑技术引擎。
在实际应用过程中,这套系统组合【MySQL+Hadoop+Hive+ClickHouse】在支撑目前20亿行数据、1TB数据存储、数据治理和数据探查等业务需求,但在复杂数据分析的性能和灵活性方面遇到了瓶颈。
业务发起的灵活查询的需求以及即席交互查询越来越多,而且探索查询的SQL也越来越复杂,这对数据库底层的技术要求特别高。医疗数据中心在可预见的未来将会按需创建更多的数据主题库,这些后添加的数据库和主题数量将会逐渐使ClickHouse实时查询变得越来越慢,但其通过建立宽表优化系统查询性能的机制也明显不利于医疗大数据未来所面对的场景。
图:在相同评测环境中,RapidsDB查询性能远优于ClickHouse
另外,考虑到随着中心业务的不断发展、数据源的不断增多,在未来1年内,数据量将达到数百亿行数据、40-50TB的量级,现有大数据平台的技术肯定不足以支撑未来的业务发展。医疗大数据中心需要尝试一个更为理想的解决方案。
成功的解决方案与验证
在探索新的解决方案时,医疗数据中心在考量了扩展能力、查询性能以及高可用性等方面后,邀请了柏睿数据的分布式全内存数据库RapidsDB进行现场测试。
因为内存数据处理是当前解决性能问题的热门方向,而采取分布式和内存计算来解决并优化数据库的分析性能正是RapidsDB的主打方向。
医疗数据中心历时一个月做了性能和高可用性的严格测试和验证,并在部署、集群、资源占用、内存利用率、存储模型、性能、兼容、OLAP特性、异构数据支持、大数据支持等方面比对评测了国内外同类数据库产品。测试结果如下:
注:
用例1-7为数据探查用例脚本,用例8-11为医疗治理脚本。
由于Oracle执行时间与其他产品差异过大,柱状图中未体现Oracle,在下表中将加入Oracle在场景下耗时。由此也可看出,在海量数据处理的场景下需要分布式架构来提升性能,传统Oracle的集群架构难以满足大数据量的处理和分析。
在相同评测环境中,RapidsDB在查询性能方面远优于同类国内外MPP产品,RapidsDB作为完全自研安全可控的国产数据库,使用基于内存计算的动态优化手段,整体响应时间少。而产品所支持的MPP线性扩展更是满足了医疗数据中心未来随着业务增长的平台可扩展性问题。
应用成效
柏睿数据RapidsDB数据库于2021年7月开展环境部署、产品安装以及PoC测试工作。在历时1个月的验证和压力测试后,进行了4个月业务和系统试运行,并终在2021年12月,RapidsDB在生产环境正式上线运行。
投产之后,RapidsDB性能表现优异,强助力医疗大数据发展,获得用户高度评价。
来源 https://www.modb.pro/db/409877
相关文章