2019年11月-至今 清华大学信息国家研究中心 副研究员

2025-11-02 15:04:01 4阅读

(1)人工智能与数据库系统: 人工智能和数据库系统在现代信息系统中起着至关重要的作用。这方面的工作包含两个部分: 1)AI4DB: 机器学习、深度学习和大语言模型(LLM)被应用于数据库系统,以提升其性能。 2)DB4AI: 对数据库中的数据进行整理加工,使其成为一个合理的数据集,从而增强人工智能算法的有效性。

(2)数据全生命周期管理:用于管理信息系统中数据流动的整个生命周期的方法。具体而言,它涉及数字资源的长期保存和可访问性,最终支持诸如研究、商业和政策制定等再利用活动。数据全生命周期包括但不限于规划、收集、传输、存储、处理、利用、分析和归档等阶段。数据全生命周期的构建需要根据不同的任务目标灵活选择和合理应用。我们构建了一个数据全生命周期平台,用于管理来自学术研究以及商业的数据集。

(3)数据融合与探索:在商业中需要处理的海量数据通常来自多个数据源。这些不同来源的数据在格式、结构、语义和质量方面往往存在显著差异。为了弥合或消除这些差异,有必要建立或遵循相关标准,并进行数据清洗、转换、增强和融合等操作,最终形成一个统一、可追溯且高质量的数据集。基于知识图谱,我们开发了一套全面的数据融合方法,能够整合海量、多源和异构数据,从而支持商业运营和决策制定。在利用这些数据的过程中,我们开发了交互式数据探索方法,能够预测用户意图并推荐相关数据集。

(4)健康/医学数据管理:健康数据管理是医学领域的一个关键问题,涵盖数据收集、存储、处理、共享和安全等多个方面。一定规模的高质量健康数据对于真实世界研究至关重要。我们与安贞医院合作,建立了心血管大数据联盟数据中心;与301医院合作开发了连接院前急救与手术室的院前急救系统;与清华大学长庚医院合作,协助诊断脓毒症和膝骨关节炎;与北京大学人民医院合作,利用多模态数据优化医疗流程;与北京大学医学大数据中心联合开发了面向医疗的大模型;并与医渡云合作,基于大模型创建了辅助医生诊断、治疗和研究的平台。

(5)知识图谱增强型数据湖:数据湖在存储多样性、可扩展性和灵活性方面具有显著优势,但在管理与治理、数据质量控制以及数据分析复杂性方面也面临挑战。为解决这些问题,我们利用知识图谱技术增强了数据湖,构建了一个大数据管理和服务平台。通过该平台,我们标准化了数据湖中的实体和关系,并利用底层并行处理技术进行高效数据分析。

(6)华鼎大数据管理和分析平台研发及应用:该平台面向行业大数据,提供了海量数据管理、快速检索和可配置分析,目前已经应用到同方股份、河北心神、北京倍肯和安贞医院等单位。以该平台为核心研发了区域医疗资源共享平台,已经在鞍山、锦州、哈尔滨、南宁等地区的医院得到了应用,有效的降低了死亡率,产生了较好的社会影响。

免责声明:由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权,根据《信息网络传播权保护条例》,如我们转载的作品侵犯了您的权利,请您通知我们,请将本侵权页面网址发送邮件到qingge@88.com,深感抱歉,我们会做删除处理。