好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

Bootstrap和刀切法jackknife授课讲义课件.ppt

56页
  • 卖家[上传人]:夏**
  • 文档编号:570527189
  • 上传时间:2024-08-05
  • 文档格式:PPT
  • 文档大小:785KB
  • / 56 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 上节课内容总结n n统计推断基本概念统计推断基本概念n n统计模型:参数模型与非参数模型统计模型:参数模型与非参数模型n n统计推断统计推断/ /模型估计:点估计、区间估计、假设检验模型估计:点估计、区间估计、假设检验n n估计的评价:无偏性、一致性、有效性、估计的评价:无偏性、一致性、有效性、MSEMSEn n偏差、方差、区间估计偏差、方差、区间估计n nCDFCDF估计:估计:n n点估计、偏差、方差及区间估计点估计、偏差、方差及区间估计n n统计函数估计统计函数估计n n点估计点估计n n区间估计区间估计/ /标准误差标准误差n n影响函数影响函数n nBootstrapBootstrapn nBootstrapBootstrap也可用于偏差、置信区间和分布估计等计算也可用于偏差、置信区间和分布估计等计算1Bootstrap和刀切法(jackknife)授课讲义 本节课内容n n重采样技术(重采样技术(resamplingresampling))n nBootstrapBootstrapn n刀切法(刀切法(jackknifejackknife))2Bootstrap和刀切法(jackknife)授课讲义 引言n n 是一个统计量,或者是数据的某个函数,是一个统计量,或者是数据的某个函数,数据来自某个未知的分布数据来自某个未知的分布F F,我们想知道,我们想知道 的某些性质的某些性质(如偏差、方差和置信区间)(如偏差、方差和置信区间)n n假设我们想知道假设我们想知道 的方差的方差n n如果如果 的形式比较简单,可以直接用上节课学习的形式比较简单,可以直接用上节课学习的嵌入式估计量的嵌入式估计量 作为作为 的估计的估计n n例:例: ,则,则n n ,其中,其中 n n ,其中,其中n n问题:若问题:若 的形式很复杂(任意统计量),如何的形式很复杂(任意统计量),如何计算计算/ /估计?估计?3Bootstrap和刀切法(jackknife)授课讲义 Bootstrap简介n nBootstrapBootstrap是一个很通用的工具,用来估计标准误差、置是一个很通用的工具,用来估计标准误差、置信区间和偏差。

      由信区间和偏差由Bradley EfronBradley Efron于于19791979年提出,用于计年提出,用于计算任意估计的标准误差算任意估计的标准误差n n术语术语“ “Bootstrap”Bootstrap”来自短语来自短语“to pull oneself up by one’s “to pull oneself up by one’s bootstrapsbootstraps” ” (源自西方神话故事(源自西方神话故事“ “ The Adventures of The Adventures of Baron Munchausen”Baron Munchausen”,男爵掉到了深湖底,没有工具,所,男爵掉到了深湖底,没有工具,所以他想到了拎着鞋带将自己提起来)以他想到了拎着鞋带将自己提起来)n n计算机的引导程序计算机的引导程序bootboot也来源于此也来源于此n n意义:不靠外界力量,而靠自身提升自己的性能,翻译为自助意义:不靠外界力量,而靠自身提升自己的性能,翻译为自助/ /自举自举n n19801980年代很流行,因为计算机被引入统计实践中来年代很流行,因为计算机被引入统计实践中来4Bootstrap和刀切法(jackknife)授课讲义 Bootstrap简介n nBootstrapBootstrap:利用计算机手段进行:利用计算机手段进行重采样重采样n n一种基于数据的一种基于数据的模拟模拟((simulationsimulation)方法,用于统计推断。

      方法,用于统计推断基本思想是:利用样本数据计算统计量和估计样本分布,基本思想是:利用样本数据计算统计量和估计样本分布,而不对模型做任何假设(非参数而不对模型做任何假设(非参数bootstrapbootstrap))n n无需标准误差的理论计算,因此不关心估计的数学形式有无需标准误差的理论计算,因此不关心估计的数学形式有多复杂多复杂n nBootstrapBootstrap有两种形式:非参数有两种形式:非参数bootstrapbootstrap和参数化的和参数化的bootstrapbootstrap,但基本思想都是模拟,但基本思想都是模拟5Bootstrap和刀切法(jackknife)授课讲义 重采样n n通过从原始数据通过从原始数据 进行进行n n次有放回采次有放回采样样n n个数据,得到个数据,得到bootstrapbootstrap样本样本n n对原始数据进行对原始数据进行有放回有放回的随机采样,抽取的样本数目的随机采样,抽取的样本数目同原始样本数目一样同原始样本数目一样n n如:若原始样本为如:若原始样本为n n则则bootstrapbootstrap样本可能为样本可能为…6Bootstrap和刀切法(jackknife)授课讲义 计算bootstrap样本n n重复重复B B次,次,n n1. 1. 随机选择整数随机选择整数 ,每个整数的取值范围为,每个整数的取值范围为[1, [1, n n] ],,选择每个选择每个[1, [1, n n] ]之间的整数的概率相等,均为之间的整数的概率相等,均为n n2. 2. 计算计算bootstrapbootstrap样本为:样本为:n nWebWeb上有上有matlabmatlab代码:代码:n nBOOTSTRAP MATLAB TOOLBOX, by Abdelhak M. BOOTSTRAP MATLAB TOOLBOX, by Abdelhak M. Zoubir and D. Robert Iskander,Zoubir and D. Robert Iskander,n n toolbox.html toolbox.htmln nMatlabMatlab函数:函数:bootstrpbootstrp7Bootstrap和刀切法(jackknife)授课讲义 Bootstrap样本n n在一次在一次bootstrapbootstrap采样中,某些原始样本可能没被采样中,某些原始样本可能没被采到,另外一些样本可能被采样多次采到,另外一些样本可能被采样多次n n在一个在一个bootstrapbootstrap样本集中不包含某个原始样本样本集中不包含某个原始样本 的概率为的概率为n n一个一个bootstrapbootstrap样本集包含了大约原始样本集的样本集包含了大约原始样本集的1-0.368 1-0.368 = = 0.6320.632,另外,另外0.3680.368的样本没有包括的样本没有包括8Bootstrap和刀切法(jackknife)授课讲义 模拟n n假设我们从假设我们从 的分布的分布 中抽取中抽取IIDIID样本样本 ,,当当 时,根据大数定律,时,根据大数定律,n n也就是说,如果我们从也就是说,如果我们从 中抽取大量样本,我们中抽取大量样本,我们可以用样本均值可以用样本均值 来近似来近似n n当样本数目当样本数目B B足够大时,样本均值足够大时,样本均值 与期望与期望 之间之间的差别可以忽略不计的差别可以忽略不计9Bootstrap和刀切法(jackknife)授课讲义 模拟n n更一般地,对任意均值有限的函数更一般地,对任意均值有限的函数h h,当,当 有有n n则当则当 时,有时,有n n用模拟样本的方差来近似方差用模拟样本的方差来近似方差10Bootstrap和刀切法(jackknife)授课讲义 模拟n n怎样得到怎样得到 的分布?的分布?n n已知的只有已知的只有X X,但是我们可以讨论,但是我们可以讨论X X的分布的分布F Fn n如果我们可以从分布如果我们可以从分布F F中得到样本中得到样本 ,我们可以计算,我们可以计算n n怎样得到怎样得到F F?用?用 代替(嵌入式估计量)代替(嵌入式估计量)n n怎样从怎样从 中采样?中采样?n n因为因为 对每个数据点对每个数据点 的质量都为的质量都为1/n1/n n n所以从所以从 中抽取一个样本中抽取一个样本等价于等价于从原始数据随机抽取一个样本从原始数据随机抽取一个样本n n也就是说:为了模拟也就是说:为了模拟 ,可以通过有放回地随机,可以通过有放回地随机抽取抽取n n个样本(个样本(bootstrap bootstrap 样本)来实现样本)来实现11Bootstrap和刀切法(jackknife)授课讲义 Bootstrap:一个重采样过程n n重采样重采样::n n通过从原始数据通过从原始数据 进行有放回采样进行有放回采样n n个个数据,得到数据,得到bootstrapbootstrap样本样本n n模拟模拟::n n为了估计我们感兴趣的统计量为了估计我们感兴趣的统计量 的方差的方差/ /中值中值/ /均值,我们用均值,我们用 bootstrapbootstrap样本对应的统计量样本对应的统计量((bootstrapbootstrap复制复制)) 近似,其近似,其中中12Bootstrap和刀切法(jackknife)授课讲义 例:中值X = (3.12, 0, 1.57, 19.67, 0.22, 2.20)Mean=4.46X1=(1.57,0.22,19.67, 0,0,2.2,3.12)Mean=4.13X2=(0, 2.20, 2.20, 2.20, 19.67, 1.57)Mean=4.64X3=(0.22, 3.12,1.57, 3.12, 2.20, 0.22)Mean=1.7413Bootstrap和刀切法(jackknife)授课讲义 Bootstrap方差估计n n方差:方差: n n其中其中n n注意:注意:F F为数据为数据X X的分布,的分布,G G为统计量为统计量T T的分布的分布n n通过两步实现:通过两步实现:n n第一步:用第一步:用 估计估计 n n插入估计,积分符号变成求和插入估计,积分符号变成求和n n第二步:通过从第二步:通过从 中采样来近似计算中采样来近似计算n nBootstrapBootstrap采样采样+ +大数定律近似大数定律近似14Bootstrap和刀切法(jackknife)授课讲义 Bootstrap:方差估计n nBootstrapBootstrap的步骤:的步骤:n n1. 1.画出画出n n2. 2.计算计算n n3. 3.重复步骤重复步骤1 1和和2 2共共B B次,得到次,得到n n4. 4.(大数定律)(计算boostrap样本)(计算boostrap复制)15Bootstrap和刀切法(jackknife)授课讲义 例:混合高斯模型:n n假设真实分布为假设真实分布为n n现有现有n n=100=100个观测样本:个观测样本:直接用嵌入式估计结果:16Bootstrap和刀切法(jackknife)授课讲义 例:混合高斯模型(续)n n用用BootstrapBootstrap计算统计量计算统计量 的方差:的方差:n n1. 1. 得到得到B B=1000=1000个个bootstrapbootstrap样本样本 ,其中,其中n n2. 2. 计算计算B B=1000=1000个个bootstrapbootstrap样本对应的统计量的值样本对应的统计量的值n n 3. 3. 与直接用嵌入式估计得到的结果比较:17Bootstrap和刀切法(jackknife)授课讲义 Bootstrap:方差估计n n真实世界:真实世界:n nBootstrapBootstrap世界:世界:n n发生了两个近似发生了两个近似n n近似的程度与原始样本数目近似的程度与原始样本数目n n及及bootstrapbootstrap样本的数目样本的数目B B有关有关18Bootstrap和刀切法(jackknife)授课讲义 Bootstrap:方差估计n n在方差估计中,在方差估计中, 可为任意统计函数可为任意统计函数n n如均值(混合高斯模型的例子)如均值(混合高斯模型的例子)n n中值(伪代码参见教材)中值(伪代码参见教材)n n偏度(例子参见教材)偏度(例子参见教材)n n极大值(见后续例子)极大值(见后续例子)n n……n n除了用来计算方差外,还可以用作其他应用除了用来计算方差外,还可以用作其他应用n nCDFCDF近似、偏差估计、置信区间估计近似、偏差估计、置信区间估计19Bootstrap和刀切法(jackknife)授课讲义 CDF近似n n令令 为为 的的CDFCDFn n则则 的的bootstrapbootstrap估计为估计为20Bootstrap和刀切法(jackknife)授课讲义 偏差估计n n偏差的偏差的bootstrapbootstrap估计定义为:估计定义为:n nBootstrapBootstrap偏差估计的步骤为:偏差估计的步骤为:n n得到得到B B个独立个独立bootstrapbootstrap样本样本n n计算每个计算每个bootstrapbootstrap样本样本 对应的统计量的值对应的统计量的值n n计算计算bootstrapbootstrap期望:期望:n n计算计算bootstrapbootstrap偏差:偏差:21Bootstrap和刀切法(jackknife)授课讲义 例:混合高斯模型: n n标准误差估计标准误差估计n n在标准误差估计中,在标准误差估计中,B B为为5050到到200200之间结果比较稳定之间结果比较稳定n n偏差估计偏差估计B B1010202050501001005005001000100010000100000.13860.13860.21880.21880.22450.22450.21420.21420.22480.22480.22120.22120.21870.2187B B1010202050501001005005001000100010000100005.05875.05874.95514.95515.02445.02444.98834.98834.99454.99455.00355.00354.99964.99960.06170.0617-0.0417-0.04170.02740.0274-0.0087-0.0087-0.0025-0.00250.00640.00640.00250.002522Bootstrap和刀切法(jackknife)授课讲义 Bootstrap置信区间n n正态区间:正态区间:n n简单,但该估计不是很准确,除非简单,但该估计不是很准确,除非 接近正态分布接近正态分布n n 百分位区间:百分位区间: ,对应,对应 的的样本分位数样本分位数n n还有其他一些计算置信区间的方法还有其他一些计算置信区间的方法n n如枢轴置信区间:如枢轴置信区间:23Bootstrap和刀切法(jackknife)授课讲义 例:Bootstrap置信区间n n例例8.68.6::BootstrapBootstrap方法的发明者方法的发明者Bradley EfronBradley Efron给出了下列用语解释给出了下列用语解释BootstrapBootstrap方法的例子。

      这些数据是方法的例子这些数据是LASTLAST分数(法学院的入学分数)和分数(法学院的入学分数)和GPAGPA计算相关系数及其标准误差相关系数及其标准误差LSAT LSAT ( (Y Y) )576576635635558558578578666666580580555555661661651651605605653653575575545545572572594594GPA (GPA (Z Z) )3.393.393.303.302.812.813.033.033.443.443.073.073.003.003.433.433.363.363.133.133.123.122.742.742.762.762.882.882.962.9624Bootstrap和刀切法(jackknife)授课讲义 例8.6 (续)n n相关系数的定义为:相关系数的定义为:n n相关系数的嵌入式估计量为:相关系数的嵌入式估计量为:n nBootstrapBootstrap得到的相关系数插入估计的标准误差为:得到的相关系数插入估计的标准误差为:标准误差趋向稳定于B B2525505010010020020040040080080016001600320032000.1400.1400.1420.1420.1510.1510.1430.1430.1410.1410.1370.1370.1330.1330.1320.13225Bootstrap和刀切法(jackknife)授课讲义 例8.6 (续)n n当当B B=1000=1000时,时,n n 的直方图为下图,可近似为从的直方图为下图,可近似为从 的分布采样的分布采样n n95%95%的正态区间为:的正态区间为:n n95%95%的百分点区间为:的百分点区间为:n n当大样本情况下,这两个区间趋近于相同当大样本情况下,这两个区间趋近于相同26Bootstrap和刀切法(jackknife)授课讲义 非参数bootstrap过程总结n n对原始样本数据对原始样本数据 进行重采样,得到进行重采样,得到B B个个bootstrapbootstrap样本样本 ,其中,其中b b=1, …, =1, …, B Bn n 对每个对每个bootstrapbootstrap样本样本 ,计算其对应的统计量,计算其对应的统计量的值(的值(bootstrapbootstrap复制)复制)n n根据根据bootstrapbootstrap复制复制 ,计算其方差、偏差和置,计算其方差、偏差和置信区间等信区间等n n称为非参数称为非参数bootstrapbootstrap方法,因为没有对方法,因为没有对F F的先验(即的先验(即F F的知的知识仅从样本数据中获得)识仅从样本数据中获得)27Bootstrap和刀切法(jackknife)授课讲义 非参数bootstrapn n统计量统计量/ /统计函数:统计函数:n n没有对没有对F F的先验,的先验,F F的知识仅从样本数据中获得的知识仅从样本数据中获得((CDFCDF估计),统计函数的估计变为嵌入式估计估计),统计函数的估计变为嵌入式估计n n真实世界:真实世界:n nBootstrapBootstrap世界:世界:n n如方差计算中,发生了两个近似如方差计算中,发生了两个近似n n近似的程度与样本数目近似的程度与样本数目n n及及bootstrapbootstrap样本的数目样本的数目B B有关有关28Bootstrap和刀切法(jackknife)授课讲义 Bootstrap的收敛性n n例:混合高斯模型:例:混合高斯模型:n n n nn n=100=100个观测样本:个观测样本:n n4 4次试验得到不同次试验得到不同B B的偏差和方差的结果的偏差和方差的结果29Bootstrap和刀切法(jackknife)授课讲义 Bootstrap的收敛性n nB B的选择取决于的选择取决于n n计算机的可用性计算机的可用性n n问题的类型:标准误差问题的类型:标准误差/ /偏差偏差/ /置信区间置信区间/…/…n n问题的复杂程度问题的复杂程度30Bootstrap和刀切法(jackknife)授课讲义 Bootstrap失败的一个例子n n ,我们感兴趣的统计量,我们感兴趣的统计量 为为 n n 的的CDFCDF用用G G表示表示n n则则 的的pdfpdf为为 31Bootstrap和刀切法(jackknife)授课讲义 Bootstrap失败的一个例子(续)n n对非参数对非参数bootstrapbootstrap,令,令n n则则n n所以所以 ,非参数,非参数bootstrapbootstrap不能很好地模拟不能很好地模拟真正的分布真正的分布32Bootstrap和刀切法(jackknife)授课讲义 Bootstrap失败的一个例子(续)n n假设样本数目假设样本数目n n=10=10,样本为,样本为 ,取参数,取参数 X X = (0.5729,0.1873,0.5984,0.2883,0.8722,0.4320,0.4896,0.7106,0.2754,0.7637) = (0.5729,0.1873,0.5984,0.2883,0.8722,0.4320,0.4896,0.7106,0.2754,0.7637) 非参数bootstrap复制的直方图B=1000,最高峰为理论结果:33Bootstrap和刀切法(jackknife)授课讲义 Bootstrap失败的一个例子n n为什么失败?为什么失败?n nEDF EDF 不是真正分布不是真正分布 的很好近似的很好近似n n为了得到更好的结果,需要为了得到更好的结果,需要F F的参数知识或者的参数知识或者 的的平滑性平滑性n n参数化的参数化的bootstrapbootstrap表现很好,能很好模拟真正的表现很好,能很好模拟真正的分布分布34Bootstrap和刀切法(jackknife)授课讲义 Bootstrap的收敛性n n给定给定n n个个IIDIID数据数据 ,要求,要求n n当当 ,, 收敛于收敛于F Fn n 为为 的嵌入式估计的嵌入式估计n n统计函数的平滑性统计函数的平滑性n n平滑函数:平滑函数:n n均值、方差均值、方差……n n不平滑函数:数据的一个小的变化会带来统计量的很大变化不平滑函数:数据的一个小的变化会带来统计量的很大变化n n顺序统计量的极值(极大值、极小值)顺序统计量的极值(极大值、极小值)35Bootstrap和刀切法(jackknife)授课讲义 参数化的bootstrapn n真实世界:真实世界:n nBootstrapBootstrap世界:世界:n n与非参数的与非参数的bootstrapbootstrap相比:相比:n nF F的先验用参数模型表示的先验用参数模型表示n n多了一个步骤:根据数据估计参数多了一个步骤:根据数据估计参数 (参数估计),从而得到(参数估计),从而得到 不不是经验分布函数是经验分布函数EDFEDFn n重采样:从估计的分布重采样:从估计的分布 采样(产生随机数)采样(产生随机数)F的先验36Bootstrap和刀切法(jackknife)授课讲义 例: 非参数bootstrap失败的例子n n ,取参数,取参数 ,假设样本数目,假设样本数目n n=10=10,样本为,样本为 X X = (0.5729,0.1873,0.5984,0.2883,0.8722,0.4320,0.4896,0.7106,0.2754,0.7637) = (0.5729,0.1873,0.5984,0.2883,0.8722,0.4320,0.4896,0.7106,0.2754,0.7637)n n在参数在参数bootstrapbootstrap中:中:n nF F的先验:的先验:n n根据数据估计根据数据估计F F中的参数:中的参数:n n得到得到F F的估计:的估计:n n从分布从分布 产生产生B B=1000=1000个样本个样本 ,, 得到得到B B个个 , , 直方图如右图直方图如右图的分布为真正的分布37Bootstrap和刀切法(jackknife)授课讲义 参数化的bootstrapn n当当F F为参数模型时,参数化的为参数模型时,参数化的bootstrapbootstrap也可用于计算方差、也可用于计算方差、偏差、置信区间等偏差、置信区间等n n如计算方差:如计算方差:0. 根据数据 估计 f 的参数 ,得到 f 的估计1. 抽取样本2. 计算3. 重复步骤1和2 B次,得到4.38Bootstrap和刀切法(jackknife)授课讲义 参数bootstrap Vs. 非参数的bootstrapn nF F的先验的先验n n参数参数bootstrapbootstrap中利用了分布中利用了分布F F的先验,表现为一个参数模型,因的先验,表现为一个参数模型,因此多了一个步骤,估计此多了一个步骤,估计F F模型中的参数。

      当先验模型正确时,参模型中的参数当先验模型正确时,参数数bootstrapbootstrap能得到更好的结果能得到更好的结果n n而非参数而非参数bootstrapbootstrap不利用不利用F F的先验知识就能得到正确的标准误差的先验知识就能得到正确的标准误差(在大多数情况下)(在大多数情况下)n n参数参数bootstrapbootstrap能得到与能得到与DeltaDelta方法(计算变量的函数的方差)相方法(计算变量的函数的方差)相当的结果,但更简单当的结果,但更简单n n重采样重采样n n参数参数bootstrapbootstrap中,通过从分布中,通过从分布 中产生随机数,得到中产生随机数,得到bootstrapbootstrap样本,得到的样本通常与原始样本不重合样本,得到的样本通常与原始样本不重合n n非参数非参数bootstrapbootstrap中,通过对原始样本进行有放回采样实现对中,通过对原始样本进行有放回采样实现对 的采样,每个的采样,每个bootstrapbootstrap样本都是原始样本集合的一部分样本都是原始样本集合的一部分二者相同的是模拟的思想39Bootstrap和刀切法(jackknife)授课讲义 Bootstrap(参数/非参数)不适合的场合n n小样本(小样本(n n太小)太小)n n原始样本不能很好地代表总体分布原始样本不能很好地代表总体分布n nBootstrapBootstrap只能覆盖原始样本的一部分,带来更大的偏差只能覆盖原始样本的一部分,带来更大的偏差n n结构间有关联结构间有关联n n如时间如时间/ /空间序列信号空间序列信号n n因为因为bootstrapbootstrap假设个样本间独立假设个样本间独立n n脏数据脏数据n n奇异点奇异点(outliers)(outliers)给估计带来了变化给估计带来了变化40Bootstrap和刀切法(jackknife)授课讲义 刀切法(jackknife)41Bootstrap和刀切法(jackknife)授课讲义 引言n nBootstrapBootstrap方法并不总是最佳的。

      其中一个主要原因是方法并不总是最佳的其中一个主要原因是bootstrapbootstrap样本是从样本是从 产生而不是从产生而不是从F F产生n n问题:能完全从问题:能完全从F F采样或重采样吗?采样或重采样吗?n n如果样本数目为如果样本数目为n n,答案是否定的!,答案是否定的!n n若样本数目为若样本数目为m m ( (m m < < n n) ),则可以从,则可以从F F中找到数目为中找到数目为m m的采样的采样/ /重采样,重采样,通过从原始样本通过从原始样本X X得到不同的子集就可以!得到不同的子集就可以!n n寻找原始样本的不同子集相当于从观测寻找原始样本的不同子集相当于从观测 进行无进行无放回采样,得到数目为放回采样,得到数目为m m的重采样样本(在此称为子样本)的重采样样本(在此称为子样本)这就是这就是jackknifejackknife的基本思想的基本思想42Bootstrap和刀切法(jackknife)授课讲义 刀切法(jackknife)n nJackknifeJackknife由由Maurice Quenouille (1949)Maurice Quenouille (1949)首先提出首先提出n n比比bootstrapbootstrap出现更早出现更早n n与与bootstrapbootstrap相比,相比,Jackknife ( Jackknife ( m m= =n n-1) -1) 对计算机不敏感。

      对计算机不敏感n nJackknifeJackknife为一种瑞士小折刀,很容易携带通过类比,为一种瑞士小折刀,很容易携带通过类比, John W. Tukey (1958)John W. Tukey (1958)在统计学中创造了这个术语,作为在统计学中创造了这个术语,作为一种通用的假设检验和置信区间计算的方法一种通用的假设检验和置信区间计算的方法43Bootstrap和刀切法(jackknife)授课讲义 Jackknife样本n nJackknifeJackknife样本定义为:一次从原始样本样本定义为:一次从原始样本 中留出一个样本中留出一个样本 ::n n JackknifeJackknife样本中的样本数目为样本中的样本数目为m m= =n n-1-1n n共有共有n n个不同的个不同的jackknifejackknife样本样本n n无需通过采样手段得到无需通过采样手段得到 jackknife jackknife样本样本BOOTSTRAP MATLAB TOOLBOX中也有该功能44Bootstrap和刀切法(jackknife)授课讲义 Jackknife复制n n统计量为:统计量为:n nJackknifeJackknife复制为:复制为:n n均值的均值的jackknifejackknife复制为:复制为:45Bootstrap和刀切法(jackknife)授课讲义 Jackknife方差估计n n 从原始样本从原始样本X X中计算中计算n n个个jackknifejackknife样本样本n n计算计算n n个个jackknifejackknife复制:复制:n n计算计算jackknifejackknife估计的方差:估计的方差:n n 46Bootstrap和刀切法(jackknife)授课讲义 例:计算均值的方差n n ,,则则n n所以所以方差的无偏估计47Bootstrap和刀切法(jackknife)授课讲义 例:计算均值的方差n n因子因子 比比bootstrapbootstrap中的因子中的因子 大多了。

      大多了n n直观上,因为直观上,因为jackknife jackknife 方差方差 比比bootstrapbootstrap中中的方差的方差 小得多(相比小得多(相比bootstrapbootstrap样本,样本,jackknifejackknife样本与原始样本更相似样本与原始样本更相似n n事实上,因子事实上,因子 就是考虑特殊情况就是考虑特殊情况 得到的得到的 ((有点武断有点武断))48Bootstrap和刀切法(jackknife)授课讲义 例:混合高斯模型: n nBootstrapBootstrap结果:结果:n nJacknifeJacknife结果:结果:B B1010202050501001005005001000100010000100000.13860.13860.21880.21880.22450.22450.21420.21420.22480.22480.22120.22120.21870.21870.06170.0617-0.0417-0.04170.02740.0274-0.0087-0.0087-0.0025-0.00250.00640.00640.00250.002549Bootstrap和刀切法(jackknife)授课讲义 例:混合高斯模型: n n复制的直方图复制的直方图1000个Bootstrap复制100个Jacknife复制Jackknife复制之间的差异很小,每两个Jackknife样本中只有两个单个的原始样本不同50Bootstrap和刀切法(jackknife)授课讲义 Jackknife Vs. bootstrapn n当当n n较小时,能更容易(更快)计算较小时,能更容易(更快)计算 n n个个 jackknifejackknife复制。

      复制n n但是,与但是,与bootstrapbootstrap 相比,相比,jackknifejackknife只利用了更少的只利用了更少的信息(更少的样本)信息(更少的样本) n n事实上,事实上, jackknifejackknife为为bootstrapbootstrap的一个近似的一个近似((jackknifejackknife方差为方差为bootstrapbootstrap方差的一阶近似)!方差的一阶近似)!n n估计样本分位数时,估计样本分位数时,jackknifejackknife计算的方差不是一致估计计算的方差不是一致估计51Bootstrap和刀切法(jackknife)授课讲义 Jackknife的其他应用n nJackknifeJackknife可用于类似可用于类似bootstrapbootstrap的应用,如偏差估计的应用,如偏差估计52Bootstrap和刀切法(jackknife)授课讲义 Jackknife不适合的场合n n统计函数不是平滑函数:数据小的变化会带来统计量的统计函数不是平滑函数:数据小的变化会带来统计量的一个大的变化一个大的变化n n如极值、中值如极值、中值n n如对数据如对数据 X X=(10,27,31,40,46,50,52,104,146)=(10,27,31,40,46,50,52,104,146)的中值的中值n n得到的结果为得到的结果为48,48,48,48,45,43,43,43,4348,48,48,48,45,43,43,43,43n n偶数个数的中值为最中间两个数的平均值偶数个数的中值为最中间两个数的平均值n n当函数不平滑时,可以用当函数不平滑时,可以用delete-delete-d d jackknife jackknife子采样来弥补子采样来弥补n n每个每个delete-delete-d d jackknife jackknife样本中的样本的数目为样本中的样本的数目为n n- -d dn n共有共有 个不同的个不同的delete-d jackknifedelete-d jackknife样本样本n nd d的取值:的取值:53Bootstrap和刀切法(jackknife)授课讲义 参考文献n nBooksBooksn nAn Introduction to BootstrapAn Introduction to Bootstrap, B. , B. Efron and R. J. Tibshirani, Chapman Efron and R. J. Tibshirani, Chapman & Hall, 1998.& Hall, 1998.n nBootstrap Methods and Their ApplicationBootstrap Methods and Their Application, A. Davidson and D. , A. Davidson and D. HinkleyHinkley, Cambridge University Press, 1997., Cambridge University Press, 1997.n nRandomization, Bootstrapping, and Monte Carlo Methods in BiologyRandomization, Bootstrapping, and Monte Carlo Methods in Biology, , Manly, Chapman & Hall, 1997.Manly, Chapman & Hall, 1997.n nSpecial issuesSpecial issuesn nSilver Anniversary of the BootstrapSilver Anniversary of the Bootstrap, Statistical Science, Vol. 18, , Statistical Science, Vol. 18, nb. 2, nb. 2, May 2003.May 2003.n nSignal Processing Applications Of The BootstrapSignal Processing Applications Of The Bootstrap by S. Shamsunder; by S. Shamsunder; Computer-intensive methods in statistical analysisComputer-intensive methods in statistical analysis by D.N. Politis; by D.N. Politis; The bootstrap and its application in signal processingThe bootstrap and its application in signal processing, A.M. Zoubir, A.M. Zoubir and B. Boashash, in IEEE Signal Processing Magazine, January 1998. and B. Boashash, in IEEE Signal Processing Magazine, January 1998.————有有DemoDemo54Bootstrap和刀切法(jackknife)授课讲义 参考文献n n对对bootstrapbootstrap的批判的批判n nExploring the limits of bootstrap editedExploring the limits of bootstrap edited, , by Le Page and by Le Page and Billard, 1990Billard, 199055Bootstrap和刀切法(jackknife)授课讲义 下节课内容n n作业:作业:n nChp8: Chp8: 第第1 1、、6 6题题n n第第1 1题题GPAGPA的最后一个数值为的最后一个数值为2.962.96n n下节课内容下节课内容n n参数推断:参数推断:Chp9Chp956Bootstrap和刀切法(jackknife)授课讲义 。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.