学院动态

学术观点

经济学院2019年第十六次学术讲座:Nonparametric Statistical Process Monitoring for High Dimensional Data

文章来源: 发表时间:2019-04-16 11:49:21点击次数:

本网讯(通讯员高达)4月15日(周一)上午10点,经济学院第十六次讲座在413教室顺利举行,来自加州大学河滨分校统计系Li Jun副教授为大家做了题为《Nonparametric Statistical Process Monitoring for High Dimensional Data》的主题讲座。本次讲座由经济学院青年教师魏杰老师主持,吸引了数位经济学院教授、青年教师和硕士研究生,博士研究生的参与。

讲座伊始,Li Jun副教授给我们先介绍了高纬数据的相关概念。她在讲座中提到,统计中的维度是指数据集具有多少属性。例如,医疗保健数据因大量变量(例如血压,体重,胆固醇水平)等。在理想的世界中,这些数据可以在电子表格中表示,其中一列代表每个维度。在实践中,这很难做到,部分原因是许多变量是相互关联的(如体重和血压)。高维意味着维度的数量非常高-如此之高,以至于计算变得非常困难。对于高维数据,特征的数量可以超过观察的数量。例如,测量基因表达的微阵列可包含数百个样品。每个样本可包含数万个基因。维度越高就会出现所谓的维度的诅咒。维度的诅咒通常是指当您向多变量模型添加越来越多的变量时会发生什么。添加到数据集的维度越多,预测某些数量就越困难。你会认为越多越好。但是,在添加变量时,情况正好相反。每个添加的变量都会导致预测能力呈指数下降。通常在在处理高纬数据是都是采用降维的方式,减少维度意味着简化数据的理解,无论是数字还是视觉。保持数据完整性。要降低维度,可以使用多维缩放等工具将相关数据组合到组中,以识别数据中的相似性。

Li Jun副教授具体给我们介绍了采用非参数统计过程去估计高纬度数据。首先Li Jun副教授强调该方法的核心思想在于把全局数据系统进行分成局部组,通过估计出局部组的数据后,在采用统计的方法将各个局部组合成总体,最后达到估计的目的。其中Li Jun副教授指出,在作估计时采用的是G统计量,由于不同的局部组合的数据之间可以有着不同的分布,如果G仍然在之前设置的掌控组,则这个数据流就是可控的并可以继续检测,如果G仍然在超出之前设置的掌控组,则这个数据流就是不可控制的。由于突变点很可能在不同的是数据流的不同时间点,所以一种比较好的做法是首先选择一个合适的局部估计统计量,然后再综合成一个全局检测统计量。然后,Li Jun副教授给我们介绍了具体如何为每个数据流选取一个合适的局部检测统计量,以及具体如何讲局部的检测统计量合并成一个全局的检测统计量。针对第一个问题,Li Jun副教授在累积统计量的基础上构造了非参数的自适应的累计统计量去检测每一个单变量数据流的分布。针对第二个问题,Li Jun副教授通过构造扩展的扩展的S统计量,该统计量在已有的统计量上采用包含能够甄别数据流发生变化的点的自适应的机制,并且采用蒙特卡洛模拟的方法对构造的方法进行验证。

最后,Li Jun副教授总结到,她提出的对于高纬度数据的非参数的检测方法是对任意的数据集的分布都具有一致的估计。同时对于任意的数据集的分布的改变和检测改变的时点的改变都是有效的。但是这个理论的缺点在于假设比较强,不能很好的运用于实际的例子,其原因在于无法找到不相关的数据组,即使是现实中,很多数据之间存在的是弱相关,这也是无法适用于她提出的方法。

据悉,Li Jun,加州大学河滨分校副教授,Rutgers大学统计学博士,香港科技大学应用数学硕士,北京大学应用数学本科。在Annals of Statistics, JASA, Biometrika等期刊发表文章30余篇。

微信公众号