您所在位置：网站首页 > 行业资料 > 其它行业文档 > 随机数的首位数字出现概率统计分析

随机数的首位数字出现概率统计分析.doc

13页

卖家[上传人]：ldj****22

文档编号：31534350

上传时间：2018-02-08

文档格式：DOC

文档大小：177.88KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10金贝

下载

/ 13 举报版权申诉马上下载

文本预览

下载提示

常见问题

1随机数的首位数字出现概率统计分析西南大学 2011 级朱熹朱心阳周亚晶何龙刘伟田宸宇内容摘要：本文运用一系列统计方法对学生人数进行统计分析，以及自己对实验现象的隐含的原理的猜测、证明实验结果表明：a）首位数字是 1 的数字出现的几率最大，依次是 2 至 9 逐个递减并且满足一定的函数关系b）所有数字所在的数量级一定要有很大的差距，不然无法得出这个结论c）所统计的数字一定不要受太大的人为因数影响以此定律，我们可以检验一些记账的数据是否被私自删改，以及比赛投票的结果的检验复查，防止一些简单的造假行为关键词：统计分析；首位数字；数量级；随机1、引言2001 年，美国最大的能源交易商安然公司宣布破产，当时传出了该公司高层管理人员涉嫌做假账的传闻事后人们发现，安然公司在 2001 年到 2002 年所公布的每股盈利数字就不符合本福特定律，这证明了安然的高层领导确实改动过这些数据如今做假账这些行为应当严厉打击，也许在次定律发现之前，做的一些假账逃过了法律的制裁传闻 1935 年，美国的一位叫做本福特的物理学家2在图书馆翻阅对数表时发现，对数表的头几页比后面的页更脏一些，这就说明了前几页翻阅得跟多，由此本福特发现了这一定律。

本福特定律看似不符合逻辑，实质上它是经得起检验的为此我们作出此次统计调查再一次亲身感受结论的正确性，同时我们也将作出自己的猜想，以及自己对定律的理解2、提出问题对于自然出现的数字的首位数，是否 1~9 这九个数字的出现概率一定为 1/9？如果不是，那它们将满足什么关系？为什么会出现不等于 1/9 这种情况？这种规律能否在实际生活工作中应用？能不能对此有一个直观的理解？这就是本次统计方案设计大赛我们队所研究的课题——首位数字出现几率的概率统计3、分析问题对于自然出现的这些数字 0、1、2、3、4、5、6、7、8、9，如果按照一定的度量单位制，这里我们假设他们为十进制进位方式，且数字按固定比例增长，那么在首位数字较小时，首数增长得会很慢，这意味着首位数变化的速率会很慢，但是当首位数字增长后，随着首位数字变大，首位数字的值增长也会加快举个例子，假设股票市场上的指数一开始是 1000 点，并以每年 10%的程度上升，那么要3用 7 年多时间，这个指数才能从 1000 点上升到 2000 点的水平；而由 2000 点上升到 3000 点只需要 4 年多时间；但是，如果要让指数从 10000 点上升到 20000 点，还需要等 7 年多的时间。

也就是说，如果这些数据随机地出现，就算出现概率是等可能的，那么在一段时间内，我们看到的 1 出现的次数也将大于其他数字，所以这直接造成了首位数字是 1 出现的几率最大4、设计统计方案我们猜想这些数字出现的规律满足由 1 开始逐渐递减，并且符合一定的函数关系为此，我们将采集大量数据，为了让数据满足“随机、自然出现”这个条件，我们对重庆沙坪坝、洋人街和北碚的商铺做了调查，调查对象为这些商店的月营业额由于商店类型不同，所以它们的营销额差距也是相当大的，可以产生相差几个数量级的营销额，且不受太多人为因素的影响不要过多的选择同一地点且同一种商品的商店，那样可能将产生一些相似的数据按照不同的月份分为 12 组，那么每个商店将可以为我们提供出 12 个数据例如，第一家一月份的营业额为 38914 元，第二家一月份营业额为4339 元，第三家一月份营业额为 985 元，第四家……那第一组的数据便为：38914、4339、985……之后，通过 java 编程统计，便能得到每个组中这九个数字在首位时出现的概率之后再进行分析比对，于是得出结果为了验证该结果，我们同时也将对其他一些数据进4行同样的统计分析，例如贴吧点击数、不同投票的结果等等。

5、统计结果所有调查的商店每月份的营销额的首位数字数量及比列如下：（第一行为首位数字，第二行为数据的个数，第三行为数据个数占总个数的百分数后面的表同此）1 2 3 4 5 6 7 8 9287 174 102 84 74 66 59 54 4830.4% 18.4% 10.7% 8.8% 7.9% 6.9% 6.3% 5.6% 5.0%通过对采集到的数据进行汇总和统计，我们发现在这些数据中，首位为 1 的出现概率远大于其他数字，并且接近于 30%；而 2~9 这些数字出现的概率不仅远小于 1 出现的概率，其出现概率也是符合逐级递减的规律并且符合数字越大递减的速率越慢的这一规律与前面的猜想一致6、误差分析将我们得到的数据与标准值相比较得方差σ=【(0.304-0.301)^2+(0.184-0.176)^2+(0.107-0.097)^2+（0.088-0.097）^2+（0.079-0.079)^2+(0.069-0.067)^2+ (0.063-0.058)^2+(0.056-0.051)^2+（0.050-0.046）^2】÷9=0.00545σ 相对较小，所以此次验证比较准确于是我们得出结论，自然随机变量中，只要样本空间够大，那么数字 1~9 出现的概率并不是想象中的满足 1/9，而是满足下图中所示线性规律：7、资料搜索与自己理解通过查阅相关资料，我们发现，自然出现的随机数据满足 Benford定律——只要数据的样本足够多，数据中以 1 为开头的数字出现的频率并不是 1/9，而是 30.1%。

而以 2 为首的数字出现的频率是17.6%，往后出现频率依次减少，9 的出现频率最低，只有 4.6%对应不同的进位制其函数关系为：6dddPbbb 1logl1log其中，b 为进位制，如采用 10 进位制，则 b=10，如采用 8 进位制，则 b=8；d 为首位数字（d=1、2、3······b-1）我们可以用使用二进制时来简单的检验一下这个结果二进制中，以 1 开头的数占 100%而按照本福特定律，二进制中，以 1 开头的数占 P=ln2/ln2-ln1/ln2=100%完全符合从数数目来说，顺序从 1 开始数，1,2,3,...,9，从这点终结的话，所有数起首的机会似乎相同，但 9 之后的两位数 10 至 19，以1 起首的数又大大抛离了其他数了而下一堆 9 起首的数出现之前，必然会经过一堆以 2,3,4,...,8 起首的数若果这样数法有个终结点，以 1 起首的数的出现率一般都比 9 大本福特定律产生的根源，就在于指数增长，如果要增长相同的高度，那么越在后面所需要的时间就会越少，也就是说从 1 增长到 2 所停滞的时间最长，所以这样的数据个数在自然界出现的概率也将会大一些。

然而从 8 到 9 的增长时间就很短了，这些数据自然会很少这幅图可以直观的显示，如果一个变量随时间成指数增长的话，那么这个变量开头的数字随着时间的变化就应该是如下图：（横轴代表时间，纵轴代表那个变量）7显然，在某时刻你得到它以 1 开头的概率要大于 9 开头而这是只取一个值的情况，如果是取大量的数据的话，在某时刻你观察到他以 1 开头的数据数量就大于以 9 开头的数量了而指数增长的形式在自然界是十分普遍的，只要一个变量的增长率和他的大小成正比，结果就会是指数增长比如说人类科技发展的速度大致和已有的科技成果成正比，所以人类的科技发展就是个指数增长；人口增长率会和已存在人口数成正比，因此没有资源限制的人口增长也是指数增长指数增长是自然中极为普遍的一种变化规律，而这种变化规律可以直接导致本福特定律而关于该定律严谨的证明，可以参考 Hill, T. P. “A Statistical Derivation of the Significant-Digit Law.” Stat. Sci. 10, 354-363, 1996.同时，我们也参考了 2010 年年末百度贴吧投票的结果，由于贴吧数8量极大而且参与投票者极多，虽然存在刷票现象，但对整体并不造成极大影响。

但从减小误差考虑，我们只调查了当时贴吧人气大于1 的部分参与人数多的贴吧，并按贴吧分类进行分组动漫类贴吧：首位数字数量及其比例1 2 3 4 5 6 7 8 92286 843 723 441 427 383 278 258 17639.3% 14.5% 12.4% 7.6% 7.3% 6.6% 4.7% 4.5% 3.0%人气为 10000 以上的贴吧数量：2499首位数字数量及其比例1 2 3 4 5 6 7 8 9944 481 315 207 155 120 114 95 6837.8%37.8%12.6%8.3% 6.2% 4.8% 4.6% 3.8% 2.7%于是不难发现，不管是营业额或者投票的排名都满足该定律，即首位出现 1 的概率最大，依次递减而对于那种按一定规律排序的，或者人为修饰过的数字则不满足上述规律，例如身份证号、号码等以下是对在校学生人数出生的数据统计分析得到的结果首位数字及其比例91 2 3 4 5 6 7 8 9988 1023 1056 946 1123 1307 896 954 100711.8% 12.0% 12.5% 11.2% 13.3% 15.5% 10.6% 11.3% 11.9%可以看出，这种经过人为修饰后的数据与标准值相差甚大。

为什么会产生这样的原因？人数之间数量级的波动并不大，几乎没有数量级的跨越，而且几乎是平均分配的，所以产生的比例也就接近于1：1对于该定律的应用，发现在物理里面也同样满足，例如强子的宽度、统计物理的三个重要分布，Boltzmann-Gibbs 分布，Bose-Einstein分布，Fermi-Dirac 分布也基本遵循这个定律8、数据仿真采用 1 至 100 中的任意两个数、三个数、四个数······十个数相乘产生至数量级的数字采用 java 编程，设计此程序，01然后随机筛选出部分数据，按首位数进行统计得下表：1 2 3 4 5 6 7 8 9数据个数3017 1765 1242 971 782 661 583 519 466所占比例0.3020.1760.1240.0970.0780.0660.0580.0520.047采用 matlab 作出函数图像如下： 10得出其函数： 5682.037.125.026.019.0.0)( 345  xxxxxxf与已知的函数相比较)lg()xp将两个函数作差得 )1lg(5682.037.125.06.019..0)(g 345 xxxxxxx 将函数 P（x）用泰勒公式在 x=0 处展开得： 5432 01.019.016.135.0372.5684.0)( xxxxxp 所以 g（x）几乎趋于 0，也就是说 f(x)与 p(x)几乎相等。

所以模拟出来的结果与真实结果几乎相同119、理论分析对此定律提出自己的看法，建立自己的模型设 a>1, ，为以 n 为首的数字出现的概率 nanf则定义为数 a 升到 n 的难度系数那么再定义为数字 n-1n 1n上升到 n 的难度系数那么我们可以想象从 n-1 上升到 n 的难度系数占总难度系数和的比例就是 n-1 为首的数字在所有随机出现的数字的概率因为上升的难度系数越大，首位数字停滞的时间越久，以此为开头的数据个数就越多对等式两边取 b 为底的对数得logbna令得到NNP11log()bNnPa那么我们可以得到 921PfnL最后化简可以得到公式与已知公式完全一样log()lg()1() lg()1010bnnnfx10、总结在贴吧的统计结果中，比标准值偏大，造成这项误差的原因，因为12投票不可能是规律排布，所以只能是人为修饰，考虑到当时有刷票现象，所以判断出有可能是这个因素导致的误差偏大。

点击阅读更多内容