好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

关于bootstrap的思想的讨论.doc

4页
  • 卖家[上传人]:平***
  • 文档编号:14054780
  • 上传时间:2017-10-27
  • 文档格式:DOC
  • 文档大小:69.77KB
  • / 4 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 关于 bootstrap 的思想的讨论1 楼 rtist看了 http://cos.name/view.php?tid=48&id=86 之后想留言,可是那里不让留了,就贴在这儿了bootstrap 的思想并不是再抽样,而是 plug-in principle;再抽样仅仅是实现这个思想的一种手段所以bootstrap 也并不一定非要抽样 B 次,只要可以 plug-in,有时候一次也不用抽就可以得到精确结果但是不可否认,样本的重复利用的确是一个 incredibly amazing 的方法,而且经常 counter-intuitive最难理解的(对我来说)就是,信息都蕴含在样本中,再抽样究竟能提不提供样本之外的新的信息;如果不能,怎么抽得到的都是原来样本里面的信息;如果能,新信息从哪儿来?2 楼 keynesI think the information contained in a sample is not always fully exploited by a particular statistic. That is, a statistic typically only uses part of information in the data and the principle of data-reduction is one of such examples. To use bootstrap (maybe other resampling methods as well), we have to impose some extra assumptions, such like the sample (the data at hand, so to speak) is representative and informative of the population so that we can treat the former as the latter.Not quite clear what do you mean by the statement that the bootstrap is mainly a plug-in method. Would you make it more clear and detailed? Thanks.3 楼 rtistI don't think so, as bootstrap often works on complete sufficient statistics too. So it's not that the original statistic always loses information that allows bootstrap to exploit further. It's still counter-intuitive to me. My current understanding (subject to change in the future) is that we often make reasonable assumptions that give us the extra-information, so that bootstrap often works by using the information in the assumptions. For the plug-in principle, see Efron's review: http://www.jstor.org/view/08834237/sp040007/04x0072t/04 楼 keynesWell, "sufficient" just means that the statistic contain enough information for the purpose of point estimation of the parameter of interest. It does not say that all information is used up. Neither it prevents from exploiting other information contained in the sample.5 楼 rtistThis is also point that I was thinking of when I was writing the last post. It sounds reasonable, but it didn't completely persuade me to believe it at the time as I could not figure out just what is the "other" information. Are we treating the sd of some statistic as a new parameter to estimate? Probably.6 楼 statax我也一直觉得这个问题很玄乎。

      从 bootstrap 的词源上看,落水者解鞋自救, “自助” ,类比 monte carlo,monte carlo 是通过实验来发现实际问题的结构,因此叫模拟,但这种模拟是基于假设的模型以进行的 bootstrap 如果与此类比,就不是基于假设的结构,而是用真实的样本来进行模拟了 这样也许会提供一些新的信息,从大量重复中,发现一些隐藏的结构7 楼 keynesIn the Monte Carlo simulation, the true data generating process is specified while in the bootstrap we assume the sample can be treated as the population from which the sample was drawn. I think "the other information" comes from this assumption, which may be strong though.8 楼 StatsfuActually, I just read one paper about bootstrap. It says that bootstrapping is to sample from EDF. However, MC is to sample from real distribution. I have no idea why bootstrapping is so powerful. It looks I need to read more about it. My teacher says Jun Shao's book is a good one.9 楼 谢益辉我那篇小文章中确实有一个小错误,Bootstrap 抽的样本量不一定非要和原来相同,甚至有些情况下抽的样本量必须和 n 不同(比如 o(n)等)plug-in principle 我还不太清楚,不过看楼上的一些帖子倒是又提出了一个新问题,即:新的信息从哪里来?我觉得 Bootstrap 首先要认为现在手头的样本的代表性是足够好的,不然对一组差样本再怎么 Resample都没用;Bootstrap 真的提出了“ 新”的信息么?我觉得没有,至少在哲学角度上是这样:)10 楼 rtist天啊,我们的观点好像互换位置了。

      呵呵11 楼 rtist刚才重新翻了翻笔记和课本,整理一下思路:假定 x1,...,Xn 为 iid 随机变量,并有分布函数 F我们关心关于该分布的某个参数 t=t(F)plug-in 原则的最常见的应用,就是用 t'=t(Fn)来作为参数 t 的一个估计值,这里经验分布函数 Fn 被用来替换参数 t 中的真正的分布函数 F这个原则的极为简单的例子就是用样本均值来作为期望的估计值假定我们现在同时关心 t'=t(Fn)的某一特征,比如关心它的偏倚 b,根据定义可得b=E(t')-t=E(t(Fn))-t(F)=integral t(Fn) d F -t(F).注意这里 t 是已知函数、F 是未知函数, b 是一个未知的常量,也是分布函数 F 的另外一个特征—— 换句话说,b 是另外一个我们所关心的参数(类似于我在 4 楼所说的最后一句话)!既然 b 是另外一个参数,那么就可以像前面估计参数 t 那样来估计它—— 还像以前一样用 plug-in 原则,用经验分布函数 Fn 替换真正的分布函数 F,即用b'=integral t(Fn) d Fn - t(Fn)作为 b 的一个估计值这里 F 在上面 b 公式里出现两次,所以两个 F 都用 Fn 所代替。

      这个 b'就是 b 的 bootstrap 偏倚估计值!可见,bootstrap 在原则上没有任何新东西——不过就是用样本估计量替换了真实量(即经验分布替换真实的分布)!plug-in 原则用在参数 t 上得到估计量,用在另外一个参数 b 上就叫做 bootstrap 估计 ——换汤不换药,改了个名字而已!那现在还有一个问题,b' 中的那个积分怎么求?如果问题简单的话,显然这个积分是可以求出解析解的如果真的可以求出来这个解析解,那么得到的 b'就是精确的 bootstrat 估计可是通常情况下这个积分很难求,所以需要用其他方法来近似近似的方法就是 Monte Carlo!为什么可以用 Monte Carlo 呢?Monte Carlo 不是假定我们知道真正的数据生成机制、然后根据该机制随机生成新的数据来近似的么?如 6 楼、7 楼对此均有论述但是这里的 trick是 Monte Carlo 应用在什么上!我们现在想要的仅仅是得到 b' 的近似值,而 b' 的公式里面的出现的是 d Fn,而不是像 b 的公式里面出现的 dF也就是说,现在的 Monte Carlo 所要随即模拟的数据是来自于 Fn的——我们恰恰知道 Fn 是什么,因为 Fn 不过是数据 X1,...,Xn 的一个函数,而观测数据都已经已知了(conditioned upon) 。

      所以,只要从 Fn 生成大量的随机数据,平均之后我们就也得到了 b' 中那个积分的近似值(大数定律) 这个通过 Monte Carlo 进一步近似之后的估计值 b'' 就是我们最最常见的bootstrap 的形式!那么怎么从 Fn 生成大量数据呢?不用我多解释了,大家应该可以看出来这就是所说的再抽样—— Fn 就是一个多项分布的分布函数,有替换的再抽样就是从多项分布里面模拟数据!可见,通常说的 bootstrap 其实不是真正的 bootstrap,而仅仅是 bootstrap 的一个 Monte Carlo 近似值说到此,常见的 bootstrap 应该比较容易理解了—— 它包含两层内容,一个是使用 plug-in 原则,即用样本替换真值来得到参数估计;另一个就是通过大数定律让 Monte Carlo 模拟来得到 plug-in 估计值的近似值所以说 bootstrap 的主要思想就是 plug-in 原则,次要思想是大数定律,应用过程是 Monte Carlo,Monte Carlo 的表现形式才是再抽样—— 如顶楼所说,bootstrap 的思想绝对不是再抽样顶楼所说的 bootstrap 有时候可能一次再抽样都不用,意思就是说个别情况下那个积分可以求出解析解,所以根本用不着 Monte Carlo 模拟,也就不用什么再抽样。

      话说回来,回到最初的问题——新信息从哪儿来?现在看,这好像是个似是而非的问题,问题本身就不甚合理如 3 楼所说的,最开始的时候,我们关心的是 F 的某一参数 t,而后来我们关心的另外一。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.