基于机器学习模型的糖尿病带病人群医疗风险保费测算

[发布日期]:2020-12-30  [浏览次数]:

这篇文章是在“医险创新”的大背景下聚焦于糖尿病带病人群医疗风险保费测算,是中国金融科技研究中心一系列健康财富融合研究的一部分。

这篇文章主要利用广义线性模型和机器学习模型——LassoRFLightGBMXGboost,对糖尿病带病人群住院费用进行估算。文章还对住院率、社保支付比例进行测算,并结合不同的免赔额和自付比例,对年龄、性别、并发症、主要合并症做敏感性分析,预测保费。

模型

一、费用预测模型:

本文使用的模型是:广义线性模型、LasooRFXGBoostLightGBM

广义线性模型基于指数族分布,通过联结函数将自变量的线性组合和因变量联系起来,是常用的非寿险定价模型。而且广义线性模型的因变量的方差是其均值的函数,这一特点也很适合保险公司的数据。

      Lasso回归在目标函数中通过添加正则项(L1范式)有效地解决过拟合、多重共线性问题,还可以实现特征选择的功能。

随机森林、XGBoostLightGBM都是集成学习方法(若对集成学习不了解,可翻至公众号119号推文)。RF属于bagging集成学习方法,XGBoostLightGBM属于boosting集成学习方法。RF简单、容易实现、计算开销小,还可以处理高维度数据,被广泛应用于风险因子重要性测度、准备金相关测算等领域。XGBoostChenGuestrin(2016)提出的一种集成学习模型,是GBDT算法(GradientBoostingDecisionTreeGBDT)的工程实现。XGBoost对损失函数进行二阶泰勒展开,并加入了正则项来防止过拟合,从而进一步提高了模型泛化能力。LightGBM基于 GBDT 数据模型,同时加入了梯度单边采样技术和独立特征合并技术,采用更高效率的叶子生长算法,速度得到很大提升。

二、住院率模型

,类似估计。

这里为糖尿病主要诊断人数和糖尿病次要诊断人数,为对应时间的门诊人数,为通过Lee-Carter模型估计的发病率。该式是一个线性结构,可以通过最小化误差求解一个最优结果

三定价模型

保单纯保费p的测算公式:

COB为社保等其他保障支付所占总费用比例,d为免赔额,c为赔付比例,E(N)是住院率。

 

数据和模型应用

本文选取20152017年来自全国30个省、自治区和直辖市的主要诊断或者其他诊断的住院病例共计3835960条,表2是变量类型及描述性统计表

模型预测效果如下表所示。

其中LightGBM拟合效果最佳,因此选用LightGBM预测住院费用

费用预测结果如下图所示:

5、图6

保费测算与分析

1 基础因素的定价影响与分析

从下面的图表可以看出年龄、地区、性别、社保类型、婚姻、并发症、重点合并症都会影响最后的保费测算结果。

2综合测算结果

1214给出了以某省为例的带有糖尿病并发症的保费综合测算结果。该结果测算的保费为精算纯保费。

结论

本研究在医疗保险协同创新的背景下,通过机器学习方法,考虑不同因素的“非标准体”保费测算,并给出了不同因素对保费的影响,从而支持针对非标准体的定价,为保险公司开发带病投保的产品,进行保费测算提供基础。从应用视角看,借助机器学习的保费测算还可以为保险反欺诈和运营控费提供支持

以上内容只是对论文的简单介绍,如果想要深入了解论文内容,可点击左下角查看原文。

 



上一条:多位中心成员参与的《金融科技学》教材由高等教育出版社出版 下一条: 中心成员助力金融科技行业发展

关闭