您所在位置：网站首页 > 行业资料 > 其它行业文档 > 关于bootstrap的思想的讨论

关于bootstrap的思想的讨论.doc

4页

卖家[上传人]：平***

文档编号：14054780

上传时间：2017-10-27

文档格式：DOC

文档大小：69.77KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10金贝

下载

/ 4 举报版权申诉马上下载

文本预览

下载提示

常见问题

关于 bootstrap 的思想的讨论1 楼 rtist看了 http://cos.name/view.php?tid=48&id=86 之后想留言，可是那里不让留了，就贴在这儿了bootstrap 的思想并不是再抽样，而是 plug-in principle；再抽样仅仅是实现这个思想的一种手段所以bootstrap 也并不一定非要抽样 B 次，只要可以 plug-in，有时候一次也不用抽就可以得到精确结果但是不可否认，样本的重复利用的确是一个 incredibly amazing 的方法，而且经常 counter-intuitive最难理解的（对我来说）就是，信息都蕴含在样本中，再抽样究竟能提不提供样本之外的新的信息；如果不能，怎么抽得到的都是原来样本里面的信息；如果能，新信息从哪儿来？2 楼 keynesI think the information contained in a sample is not always fully exploited by a particular statistic. That is, a statistic typically only uses part of information in the data and the principle of data-reduction is one of such examples. To use bootstrap (maybe other resampling methods as well), we have to impose some extra assumptions, such like the sample (the data at hand, so to speak) is representative and informative of the population so that we can treat the former as the latter.Not quite clear what do you mean by the statement that the bootstrap is mainly a plug-in method. Would you make it more clear and detailed? Thanks.3 楼 rtistI don't think so, as bootstrap often works on complete sufficient statistics too. So it's not that the original statistic always loses information that allows bootstrap to exploit further. It's still counter-intuitive to me. My current understanding (subject to change in the future) is that we often make reasonable assumptions that give us the extra-information, so that bootstrap often works by using the information in the assumptions. For the plug-in principle, see Efron's review: http://www.jstor.org/view/08834237/sp040007/04x0072t/04 楼 keynesWell, "sufficient" just means that the statistic contain enough information for the purpose of point estimation of the parameter of interest. It does not say that all information is used up. Neither it prevents from exploiting other information contained in the sample.5 楼 rtistThis is also point that I was thinking of when I was writing the last post. It sounds reasonable, but it didn't completely persuade me to believe it at the time as I could not figure out just what is the "other" information. Are we treating the sd of some statistic as a new parameter to estimate? Probably.6 楼 statax我也一直觉得这个问题很玄乎。

从 bootstrap 的词源上看，落水者解鞋自救， “自助” ，类比 monte carlo，monte carlo 是通过实验来发现实际问题的结构，因此叫模拟，但这种模拟是基于假设的模型以进行的 bootstrap 如果与此类比，就不是基于假设的结构，而是用真实的样本来进行模拟了这样也许会提供一些新的信息，从大量重复中，发现一些隐藏的结构7 楼 keynesIn the Monte Carlo simulation, the true data generating process is specified while in the bootstrap we assume the sample can be treated as the population from which the sample was drawn. I think "the other information" comes from this assumption, which may be strong though.8 楼 StatsfuActually, I just read one paper about bootstrap. It says that bootstrapping is to sample from EDF. However, MC is to sample from real distribution. I have no idea why bootstrapping is so powerful. It looks I need to read more about it. My teacher says Jun Shao's book is a good one.9 楼谢益辉我那篇小文章中确实有一个小错误，Bootstrap 抽的样本量不一定非要和原来相同，甚至有些情况下抽的样本量必须和 n 不同（比如 o(n)等）plug-in principle 我还不太清楚，不过看楼上的一些帖子倒是又提出了一个新问题，即：新的信息从哪里来？我觉得 Bootstrap 首先要认为现在手头的样本的代表性是足够好的，不然对一组差样本再怎么 Resample都没用；Bootstrap 真的提出了“ 新”的信息么？我觉得没有，至少在哲学角度上是这样：）10 楼 rtist天啊，我们的观点好像互换位置了。

呵呵11 楼 rtist刚才重新翻了翻笔记和课本，整理一下思路：假定 x1,...,Xn 为 iid 随机变量，并有分布函数 F我们关心关于该分布的某个参数 t=t(F)plug-in 原则的最常见的应用，就是用 t'=t(Fn)来作为参数 t 的一个估计值，这里经验分布函数 Fn 被用来替换参数 t 中的真正的分布函数 F这个原则的极为简单的例子就是用样本均值来作为期望的估计值假定我们现在同时关心 t'=t(Fn)的某一特征，比如关心它的偏倚 b，根据定义可得b=E(t')-t=E(t(Fn))-t(F)=integral t(Fn) d F -t(F).注意这里 t 是已知函数、F 是未知函数， b 是一个未知的常量，也是分布函数 F 的另外一个特征—— 换句话说，b 是另外一个我们所关心的参数（类似于我在 4 楼所说的最后一句话）！既然 b 是另外一个参数，那么就可以像前面估计参数 t 那样来估计它—— 还像以前一样用 plug-in 原则，用经验分布函数 Fn 替换真正的分布函数 F，即用b'=integral t(Fn) d Fn - t(Fn)作为 b 的一个估计值这里 F 在上面 b 公式里出现两次，所以两个 F 都用 Fn 所代替。

这个 b'就是 b 的 bootstrap 偏倚估计值！可见，bootstrap 在原则上没有任何新东西——不过就是用样本估计量替换了真实量（即经验分布替换真实的分布）！plug-in 原则用在参数 t 上得到估计量，用在另外一个参数 b 上就叫做 bootstrap 估计 ——换汤不换药，改了个名字而已！那现在还有一个问题，b' 中的那个积分怎么求？如果问题简单的话，显然这个积分是可以求出解析解的如果真的可以求出来这个解析解，那么得到的 b'就是精确的 bootstrat 估计可是通常情况下这个积分很难求，所以需要用其他方法来近似近似的方法就是 Monte Carlo！为什么可以用 Monte Carlo 呢？Monte Carlo 不是假定我们知道真正的数据生成机制、然后根据该机制随机生成新的数据来近似的么？如 6 楼、7 楼对此均有论述但是这里的 trick是 Monte Carlo 应用在什么上！我们现在想要的仅仅是得到 b' 的近似值，而 b' 的公式里面的出现的是 d Fn，而不是像 b 的公式里面出现的 dF也就是说，现在的 Monte Carlo 所要随即模拟的数据是来自于 Fn的——我们恰恰知道 Fn 是什么，因为 Fn 不过是数据 X1,...,Xn 的一个函数，而观测数据都已经已知了（conditioned upon）。

所以，只要从 Fn 生成大量的随机数据，平均之后我们就也得到了 b' 中那个积分的近似值（大数定律）这个通过 Monte Carlo 进一步近似之后的估计值 b'' 就是我们最最常见的bootstrap 的形式！那么怎么从 Fn 生成大量数据呢？不用我多解释了，大家应该可以看出来这就是所说的再抽样—— Fn 就是一个多项分布的分布函数，有替换的再抽样就是从多项分布里面模拟数据！可见，通常说的 bootstrap 其实不是真正的 bootstrap，而仅仅是 bootstrap 的一个 Monte Carlo 近似值说到此，常见的 bootstrap 应该比较容易理解了—— 它包含两层内容，一个是使用 plug-in 原则，即用样本替换真值来得到参数估计；另一个就是通过大数定律让 Monte Carlo 模拟来得到 plug-in 估计值的近似值所以说 bootstrap 的主要思想就是 plug-in 原则，次要思想是大数定律，应用过程是 Monte Carlo，Monte Carlo 的表现形式才是再抽样—— 如顶楼所说，bootstrap 的思想绝对不是再抽样顶楼所说的 bootstrap 有时候可能一次再抽样都不用，意思就是说个别情况下那个积分可以求出解析解，所以根本用不着 Monte Carlo 模拟，也就不用什么再抽样。

话说回来，回到最初的问题——新信息从哪儿来？现在看，这好像是个似是而非的问题，问题本身就不甚合理如 3 楼所说的，最开始的时候，我们关心的是 F 的某一参数 t，而后来我们关心的另外一。

点击阅读更多内容

相关文档

保健护理行业市场前瞻与未来投资战略分析报告.pptx 观光旅游行业供需趋势及投资风险研究报告.pptx 牙刷市场发展现状调查及供需格局分析预测报告.pptx 耐火材料行业市场调研与前景趋势预测报告.pptx 电气自动化技术与智能制造——融合创新驱动工业变革的引擎.docx 电气自动化技术工业发展的核心驱动力与变革引擎.docx 电气自动化技术赋能多领域发展的核心动力.docx 电气自动化技术的融合智能与可持续的未来图景.docx 构建可靠高效的工业控制体系.docx 电气自动化技术从原理到应用的基石.docx 调资预算的制定与控制.docx 在数字经济中创业的方法.docx 网络营销的最新趋势与发展.docx 网络营销与传统营销的本质区隔从单向传播到双向互动.docx 小企业网络推广从精准定位到持续增长的破局之道.docx 数据赋能营销：构建全链路效果分析体系与价值增长引擎.docx 网络推广与品牌建设的深度融合.docx 网络推广成功案例全景解析.docx 提升网络推广效果从精准定位到数据驱动.docx 网络推广策略与技巧的深度探索.docx

猜您喜欢

小博士实验小学四年级下册期末模拟考试语文试题.doc 新人教版七年级下册第七章《三角形的内角》说课稿.doc 软文炒作案例分享100629.doc 新人教版七年级下册第七章《三角形的内角》说课稿[1].doc 小哥白尼杯小学生阅读能力测试网上答题及答案.doc 新人教版七年级下册英语unit 8 is there a post office near here.doc 苏教版五年级上册数学期中测试题.doc 关于Austin的performative的概念的表述和意义.docx 司法考试刑事诉讼法：违法所得没收程序.doc 新人教版七年级历史上册第二单元检测题.doc 思想品德(鲁教版)七年级(下)知识点归纳.doc 浅谈物管企业如何开拓创收空间.doc 中南民族大学数字图像处理程序及图像.doc 新人教版七年级思想品德上册第一单元的测试题及答案.doc 软文营销推广论如何写软文推广和软文营销经典成功案例.docx 苏教版五年级上册语文导学案1-10.doc 软文营销是拓展品牌的好渠道.docx 苏教版五年级上册语文教学计划-夏军.doc 北师大版五年级数学下导学案.doc 北师大版五年级数学下第一单元练习一.doc

进入店铺

收藏店铺

相似文档更多>

正为您匹配相似的精品文档