帕累托分布.docx
5页小组成员:142090304李志慧142090308杜晶鑫142090311葛霞142090313宋志娟142090321刘芳帕累托分布一、什么是帕累托分布帕累托分布是以意大利经济学家维弗雷多•帕雷托命名的是从大量真实世界 的现象中发现的幂次定律分布这个分布在经济学以外,也被称为布拉德福分布帕累托因对意大利20%的人口拥有80%的财产的观察而著名,后来被约瑟夫侏 兰和其他人概括为帕累托法则(80/20法则),后来进一步概括为帕累托分布的 概念帕累托分布的提出背景19世纪末期,意大利经济学家维弗雷多•帕竝认为,贫与富的存在,既是经 济问题,也有政治原因帕累托在研究英国人的收入分配问题时发现,绝大部分社会财富最终总会流向 少数人群;他还发现,某一部分人口占总人口的比例,与这一部分人所拥有的财 富的份额具有比较确定的计量经济关系;进一步的研究证实,这种不平衡模式可 以重复出现,甚至可以预测经济学把这一社会财富的分布状态,称为“帕累托 分布”帕累托分布可以归纳为一个非常简洁的表述:通过市场交易,20%的人将占有 80%的社会财富,如果交易可以不断进行下去,那么,“在因和果、努力和收获 之间,普遍存在着不平衡关系,典型的情况是:80%的收获来自20%的努力;其 他80%的力气只带来20%的结果”。
丹尼尔•贝尔在《帕累托分布与收入最大化》 中进一步叙述到:“如果待分配的财富总量是100万元,人数为100人,那么我 们会有这样一组对应的分配比例:排在前面的20个人,分得80万元;同理,这 20人中的4个人,分得64万元;4个人中的1个人,分得50万元如果我们把这些数据用数学公式简单处理一下,就会显示一条收缩中的“财富 曲线”以及一条发散中的“贫困曲线”它的最终走向,是必然会“清零”的, 也只有如此,“财富”中所包含的生产力因子才能重新释放出来帕累托分布从经济学角度论证出,社会分配的“绝对的失衡”必然导致“绝对的贫困”, 甚至导致“宗教末日审判”的来临,除非我们可以通过政治手段,人为地阻止财富向高端不 断聚集,否则,贫富双方的利益冲突是不可避免的二、帕累托参数分布3+0X52.0L0(),00234图:帕累托分布(X =1)min在帕累托分布中,如果X是一个随机变量,则X的概率分布如下面的公式所示:其中x是任何一个大于x的数,x是X最小的可能值(正数),k是为正的参数帕累 min min托分布曲线族是由两个数量参数化的:x和k分布密度则为帕累托分布属于连续概率分布"吉普夫定律”,也称为"zeta分布”.也可以被认为是在离散概率分布中的帕累托分布。
一个遵守帕累托分布的随机变量的期望值为叮一〕•(如果【匕i,期望值为无穷大)且随机变量的标准差为「二 ;(如果°「I,标准差不存在)三、帕累托分布参数及背景操作风险损失的尾部分布和参数的确定:设X1,X2, -X n是操作风险损失样本数据,用u表示阀值,假设超过阀值u的样本 个数为n u ,用X 1 , X 2 , -X n u表示超过阀值的样本观测值,设样本X 1 , X 2 , -X n u 独立同分布 ,分布函数为 F(x), 令:Y i =X i -u i =1,2,3 , -n ux F =sup x WR ;F(x)<1定义X相对u的超额值的分布函数为:F u (y)=P(X-u Wy X >u) 0 Wy Wx F -u (1) 显然F u (y)= F(u +y)-F(u)/1-F(u)=F(x)-F(u)/1-F(u) (2)由定理(Pickands(1975), Balkema-de Haan(1974))得,对充分大的阀值u,超额值的分布函数近似地服从广义帕累托分布F Ju,其中:F & (x)= 1-[ 1+gx -|1/ 0 ] - 1/ EEHOexp {-exp (- x 一卩/ o )} E=0 (3)由 F(x)=[ 1-F(u)] F u (y)+F(u)得出:F(x)=[ 1-F(u)] F & 出。
x-u)+F(u)其中是重要的形状参数,卩是位置参数,而是分布的尺度参数从理论上讲, 阀值应比较大 但阀值越大, 用来估计尾部分布函数的样本观察值的数量 就越少, 估计的参数变化比较大, 所以需要找到合适的阀值在此先研究随机变量 X 服从形 状参数E>0的帕累托分布时的条件期望e(u)=E(X-u X >u)由于 X 的分布函数为:F & (x)=1-[ 1+E(x 一|1/)] 一 1/E, x 三 H,于是有:e(u)= -E|i+o+Eu/1-E (4)下面考虑样本平均余值函数 :e(u)= 1 /n uE n i =1 (X i -u) + (5)其中:n为样本总数,(X i -u) +表示大于值u的样本值与u的差,En i =1 (x i -u) +表示超过 值u的样本余值的总和,n u = En i =1 l(X i >u)表示大于值u的样本值的个数可知,平均 余值函数e(u)是超过阀值损失的真实期望值的经验估计值,即为e(u)= E(X -u|X >u)的估计 值,而由式⑷可知:de(u)/ du=E/1-&这表明若损失分布的尾部服从形状参数0 据此,可以用样本数据得出 的平均余值散点图在超过某一特定临界值 u 0 时基本呈一条直线(或至少具有正斜率)来判 定超过临界值u 0的损失值服从广义帕累托分布,同时估计u 0值下面来研究操作风险损 失的尾部分布的其它参数估计 ,为此先考虑条件一阶矩 E(X -u|X >u) 和条件二阶矩 E[(X -u) 2|X >u]可以证明:E(X-u|X >u)=/(1 一0[ 1 +E(u (6)E[(X -u) 2|X >u] =22/(1-0(1 -2E) [ 1 +g(u 一“o )] 2 (7)将来自总体 X 的简单随机样本按从小到大排列, 记 为 X 1 , X 2 , -X n , u 是 一 个 常 数,且 E[(X-u) k|X >u]存在且为 入(未知),记 x i = X i -u,n u = E n i =1 l(x i >0),入=1 n u E n i =1 1(x i >0)・x k i,则由条件矩估计理论可知,入为入的无偏估计为了估计操作风险损失 的尾部分布的参数, 可以建立以下参数估计方程:o /1 弋[1 + E(u -卩)/o ] =1 /n uEn i =1 (x i ) +2o2 /(1 -g)(1 -20 [ 1 + E(u -y)/。 ] 2=1 /n u En i =1 (x i ) 2+解得 :E ={1/ n u E n i =1(x i ) 2+ - 2 n 2 u [E n i =1(x i ) + ] 2}/2 /n u E n i =1 (x i ) 2+ - 2 /n 2 u [E n i =1(x i ) + ] 2 (8)o +E(u -y)= (1 一E/)n uE n i =1 (x i ) + (9)由于再利用广义帕累托分布的三阶条件矩也只能估计出参数o + E (u-卩)的值,无法有效估 计出所要的参数卩和o的具体值,因此,在广义帕累托分布的参数估计中,可以通过结合 最小误差拟合方法进行具体思想以及操作如下:由第二极值定理 , 当临界值 u 相当大时 , (x i ) +近似服从广义帕累托分布F E,u,o (x),为使拟合效果比较好,希望(n x +1/ n)-g-(1-F E川(x))-E尽可 能地 小因此,采用最优拟合标准为:min u Ex i >0 [(n (x i +1)/ n) -g -(1 -G E (x i )) -g] 2 (10)记 k = 1 - E /n uE n i =1(x i ) +,将 o=k-E(u-u)代入式(10)可知:min u Ex i >0 [(n x i +1/ n)-g-(1 +g( x i -y/k-g(u -y)] 2解得:u={Ex i >0 (k +gx i-gu)(k +gx i-gu-mk +mgu)}/ {E Ex i >0 m(k +gx i-gu)} (11)其中,m =( n x +1/ n) -g, n x = E n i =1 1(x i >x)于是:o =k + Ex i >0 (k +gx i -gu)(k +gx i -gu -mk +mgu)/{E x i >0 m(k +gxi-gu)}-gu (12)这样便得到基于条件样本的广义帕累托分布的参数估计值, 即操作风险损失超出阀值 u 的样本值的极端损失分布函数为 :F(x)=[ 1 -F(u)] F g,y,o (x -u)+F(u)= 1 - n u n (1 +g(x -u -y/ o )) -1 E (13)四、参数的分布形态X服从帕累托分布,则其概率密度函数(p.d.f.)是这样:f(x) = a cAa / xA(a+1),当 x 不小于 c。 当 x < c 时 f(x) = 0其累积分布函数(c.d.f.)为:F(x) = 1 - (c / x)Aa,当 x 不小于 c当 x < c 时 F(x) = 0其中常数 c 为随机变量 X 的最小可能取值,常数 a 是决定分布形状的参数。





