南湖红帆“学术领航” ——劳动与社会保障系举办“机器学习在医疗健康领域的应用”学术讲座

时间:2025-11-17浏览:10


(通讯员:孟雨涵)2025年11月13日,南湖红帆“学术领航”读书会第四期在文瀚楼803A顺利举行。本次读书会特邀哈尔滨商业大学张敬信副教授作题为“机器学习在医疗健康领域的应用”的学术报告。会议由薛新东老师主持,劳动与社会保障系本硕博学生共同参与了此次学术活动。


张敬信老师从R语言在数据科学领域的学科优势切入,系统比较了其与Python在统计分析、数据可视化及学术研究应用场景中的特点。他重点介绍了R语言中Tidyverse这一完整的数据科学生态系统,该框架通过统一的语法结构和管道操作,实现了从数据获取、清洗、转换到建模与报告的全流程整合。

在机器学习方法层面,张老师剖析了当前R语言中两大主流框架——mlr3verse与tidymodels的技术特点,展示了mlr3verse在超参数调优、嵌套重抽样和模型解释等方面的先进特性,并对机器学习进行了算法归类,给出了具体训练过程。

本次报告的核心内容是基于真实医疗数据集的实证研究案例——“糖尿病患者30天内再入院预测”。张老师完整演示了一个机器学习研究的全流程:

在数据预处理阶段,通过Tidyverse生态系统实现了缺失值处理、分类变量重构与特征工程等的构建,完成了包括基于规则的特征编码、分箱离散化处理以及通过管道操作实现的批量数据清洗。针对医疗数据中普遍存在的样本不平衡问题(正例样本仅占9%,负例样本占91%),研究采用过采样技术有效改善了模型对少数类的识别能力,并通过病例ID去重确保样本独立性,从方法学层面保障了数据的质量与可靠性。

在建模与优化环节,完整演示了机器学习研究的流程:从创建任务开始,划分训练集与测试集,构建包括服务使用频次、用药变更模式等在内的领域相关特征,并基于特征重要性评估筛选出对预测目标贡献度最高的特征子集。研究选用LightGBM算法充分发挥其处理类别特征和高维数据的优势,通过实施混合调参策略并结合早停机制优化超参数选择,最终建立了具有良好泛化能力的预测模型,确保了研究结果的可复现性与科学性。

最后,薛新东老师对本次讲座内容给予高度评价,并指出,数据科学方法为传统社会科学研究提供了新的方法论工具,而医疗健康领域因其数据丰富性和政策相关性,成为跨学科研究的重要切入点,因此,本次讲座为师生们提供了共同的方法论启示,期待在未来看到更多数据驱动的政策研究成果。

本次读书会通过理论讲解与实证案例相结合的方式,深化了师生对机器学习方法在社会科学研究中应用的理解,为后续开展数据驱动的政策研究提供了方法学支持。南湖红帆“学术领航”系列学术活动将持续推动跨学科对话,为提升学术创新力搭建高质量交流平台。


编辑:孟雨涵

审核:薛新东


Baidu
map