好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

布拉德福特_齐普夫分布系的概率模型.pdf

12页
  • 卖家[上传人]:E****
  • 文档编号:109498593
  • 上传时间:2019-10-26
  • 文档格式:PDF
  • 文档大小:779.50KB
  • / 12 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 布拉德福特一齐普夫分布系的概率模型 马费城 布位 德福特一齐普夫分布系是一 系列经验性定律 , 这些定律在 情报科学的理 论 和应 用中占有十 分重要的地位 本文首先介绍了这些 定律的表现形式 , 讨论了它 们之 间 的 相 互 关 系 , 然后 用麦克斯 韦一玻尔兹 受球一箱输入模型对其进行了直观模拟 , 从概率 论角度导出了它们 的统一表式 , 最后特别用这个模型导出了布 拉德福特分布 函数及其推广形式 , 亚时若干 问题 进行了必要的讨论 布 拉德福特一齐普夫分 布系是一系列经 验性定律 这 些定律 不仅在情报学的理论和 应 用中占有十 · 分重要 的地位 , 而 且在社会科 学研究的其 它领域也有着较为广泛 的应用 费尔桑〔们称此为布拉德福特一齐普 夫一芝 代 尔布罗分布 或经验双曲分布 多年来 , 学者 们对此进行了大 量的研 究 , 力图从不 同的角 度 阐 明其基本机制 , 寻找它们 的理论基础 , 这 些 研 究无论 是定性的还 是定 量 的 , 都远 远超 , 出了这几个定律的局 限而有其更为 深刻 的意 义 尤其是 利用数学手段探索其共同的本质 时 , 无疑是 为整个情报科学的定量化开辟道 路 , 同时也为社会科学领 域如 何应 用数学 手 段研究许多现象提供了有效 方法 。

      本文首先给 出布 拉德福特一齐普夫分布 系的表现 形式 及相互关系 , 然后用麦克斯韦 一玻尔 兹曼的球一箱输入模型对其进行概率 模拟 , 导 出它们 的统一表式 , 最后特别 用这个 模型 推导布 拉德福特定 律及其推广形 式 , 并 对若干问题 进行必要 的讨 论 一 、 布 拉德福 特一齐普 夫分布 系诸 形式及其相互关 系 布拉德福特一齐 普夫分布系诸型 ¹文章中单词 出现频率的分布一齐普夫 型 在齐普夫以前就 有许多人研 究过较 长文 章中单词 出现的频率 , 力 图发现其分 布规 律 , 只是到齐普夫才有了定量 化形式 齐普 夫统计了英国著名作家 莎士比亚等人作品中 单词出现的频率 , 按出现频率递减顺序 排 列 , 则单词 出现频率f和顺序号 : 之间满足如 下关 系 f 二 k/ r (式中k为常数)(1) 之后有许多人进行了试验 , 发现较 长文 章中单词出现的频率近似 地满足 (1)式 , 有的学者进 行 了修正 , 记为 : f 二 k/ ra ( a 接近于 ]) (1 ‘ ) 齐普夫后来对美 国城市人口的分布进 行 排队统计 , 发现亦满足 (1)或( 1 ‘) 。

      º个人 收入 的分布一巴列陶型 巴列陶研究了资本主义 国家居民按收入 多少 的分布 , 提出经济学 中有名 的巴列陶定 律 : 某集团 中收入在 u 以上 的人所占的比例 p ( u ) 满足 : p ( u ) = k u 月 (2) 户为巴列 陶常数 , _ 且夭月兰 1 » 科学 家按发表论 文数量 的分布一洛特 情报科学 V o l 3 NO 2 1982 一 _ 一 - 一 - -‘-~ 一- ~ ~~-一一一一 一 - ~一 , ~ ~司-一~_ - 一 一 一 一 ~ .~ 一 ~ ~ ~ ~ 自.叮. . .‘. . .‘. 口 .口. / ⋯ , ⋯ ! 一/ ” 一 卡型 洛特卡对某一学科领域在一个期间发表 了 n 篇论 文 的作者数 (N)进行了统计研究 后发现 : N 二 k/ n “ (3) k为常数 , 后发 现k的值近似地为该学科 领域在所考虑的期间写 一篇论文的作者数 维利斯对生物的属 〔 g(s)〕按其包含的 种( s )的多少进行统计 , 发现其间满足 : g( s)= k/ s r (3 ’ ) 这与洛特卡 分布一样 , 所不 同的是 1 r 兰 2 而 洛特卡分布的指 数固定为 2 。

      ¼科学杂志载文 率的分布一布拉德福 特型 布拉德福特认为 , 有关某一学科主题的 论文 , 不仅载于该 学科 领域的杂 志 上 , 而且 广泛地分散于与此学科领域有关的其他学科 领域的杂志上 , 基于此 , 布拉德福特对 “应 用地球物理 ” 和 “润 滑” 这两个主题进行了 统计研究和定量 分析 , 得到如下结论 : 如果把科技期刊按其关于某一学科主题 的文章刊载多少以递减顺序排列 , · 在所得的 清单中 , 可以分 出直 接 为此学科服务的期刊 所形成的核心 , 和 另外几个区 , 其 中每区所 载文章的数量 同核心期刊所载文章数 量 相 同 , 这时核心期刊 数量与相 继各区中期刊数 量满足 : r ; 一 r: : r3= 1 :a:a“ (4) 这里 a 为常数 , 对于布拉德福特分析过 的数 据来说 a 二5 上 述定律称为布拉德福特离散定律 , 布 拉德福特还给出了他所发现的离散规律的曲 线 布鲁克斯 〔幻 导 出下式: S(r) = k · 109( r / s) (5) 若杂志总数为N , 则 (5) 成为 : S (N) = k · 109(N/ s) (6) _ _____ _ __ __ __ _ _ _ , _ ;)二二三1 - -了 户气尹 .d. . 勺 5 娜 峰准峥珍岭对 图一 、 布拉德福特离散曲线 (横轴取载文章顺序号的对数 , 纵 轴取 第 r 号前杂志所含相关论文的累计数) k , 、是参数 , 可从各学科所得到 的曲线对 横轴的倾角用实验方法求得 。

      (6) 式表示该学科领域相关论文总 数 , 若我们令 : x = r /N y =s ( r )/ s (N) 且 a= N/ s , 则由 (5) 、 (6)两式 可得 : y = 1 0 9( ax )/log a (7) (7) 式表示杂志比例为 x 中含的相关论 文 的比例 维克利把布拉德福特定律推广到任意i 个区间 : f王:r么 名r3: · · ⋯ ‘r i = l :a:aZ : ⋯ ⋯ a i一工 (8) 如果我们以m表示核心区中杂志总 数 , 用M 表 示其中包含的相关论文数 , 可得 : r= m + m a + m aZ+ ⋯ ⋯m i一a = m( a‘一 1)/(a 一1) 及 S( s ) = iM 从上两式消去i : S ( r ) 二 (M/log a ) x 1 0 9 {i + 〔( a 一1)/ m〕 · r ( 令 : M/lo g a= k , , ( a 一1) / m 则 上式变成 : S( r ) = k ‘10 9 〔1 + ( r//s, 一s, )〕 (5 尸) 情报科 学 Vo l . 3 N o 2 1982 这与 (5)具有相 同形式 , 可看作对布拉德 福特定律的修正 。

      菜姆库勒〔幻 由 (8)式 出 发导 出了布 拉德福特分布函数 : y 二 In(1 + 尸x)/ In(i + 月) (另 = N/ s尹) (9) 2 . 布拉德福特一齐普夫分布系诸形式 之间的关 系 前而所介 绍 的各种现象的分布两数有一 个共 同点 , ’ 都是某一主体中所含的某一特定 最的 分布 , 如果我们 把该主体看作 “箱” , 把 某 一 特定量看作投入箱中的球 , 那 么对于齐 普夫 分布 、 布拉德福特分布 、 洛特卡分布 、 巴列陶分布来说 , 箱好比词 汇 、 杂志 、 科学 工作者 、 收入者 ; 球好比每个单词 、 相关文 献 、 所著论文 、 单位责币等 显然 , 布拉德福特分布与巴列陶分布具 有累积性质 , 即主体中某一划定范围的量 , 而齐普夫分布与洛特卡分布具有密度性质 , 即某一指定点的量 下面我们 来讨论 它们 之 间的 关系 ¹ 齐普夫型 与布拉德福特型的关 系 齐普夫分布表示第 r 号箱的球数 , 布拉 德 福特分布则 表示第 r 号箱以前 的球的累 积 数 , 因此 , 后者对r微分便可得 到前者 (5)式 对r微 分 数 , 那么具 有 u 二 u + d u 个球的箱应是 : p( u ) 一p(u+ d u ) 二一p , ( u )d u= 户k u 一 ‘户+‘’ d u 因。

      1 由推 导 过程我们看到 , 当球以等概 率进入各箱时 , 服从泊松分布 , 而当球 进入 箱的概率与箱中已有的球成正比时 , 近 似地 服从负幂型分布 (1 0) 3 . 球一箱输入模型讨论 我们 用球一箱输入模 型 对 “人 为”因 素 , “倾向性” 进行了直观的模拟 , 从概率 论角度 导 出了布拉德福特一齐普夫分布系 的 统一 表式 (10) , 必须指 出的是 , 假设一和 假设 二使得模型简单化了 假设一是导出 (10) 式的关键 , 将其与导出泊松分布的随 机输入假设比较 , 不难看 出它 们之 间的本质 性差别 这里的数学 推导过程基本引用日本小野 寺复生的程序 该 模型最初是由西蒙导出 的 , 不过西蒙的推导 还要严格些 按 我们 的假 设 , 球进入空箱的概率为零 , 而在西蒙的假 设 里新输入的球无论进入空箱( r = 0 ) , 还 是 实箱 ( r今0 ) , 都是由一定的概率决定的 , 前者为N e ,(F) , 令其为 a , 这样满足 (2 5)式 的C R 的函数型式 亦确定了 在 西 蒙的模型 中 , 成 为负幂 型分布 的参数P与这 里的 a 具有相同的意 义 。

      按我们的模型 , 实箱个数将与输入的球 的总数成正比地增加下 去 , 实际上 , 这种增 加是随R的增加逐渐缓慢地增加 例如 , 一 本小说最初10 0页出现的不 同词 汇总数最多 , 次100页 出现的新词汇较少 , 第 3 个1 0 0页就 会更少⋯⋯ 又如某学科领域的文摘杂志 , 两年收录的杂志 总数并不是一年收录的杂志 总数的 2 倍 我们这里 避开 了西蒙的假设 , 仍然导 出 了 n ( r , R)对 r 的依存关系(3 2) 与 (3 2 , ) 在随机输入假设F导 出泊松分布的 过 程 , 我们并没有把n( r , R)分离为 r , R的 函数〔(23)式〕 因此 , 在解方程 (26) 时 , 一定也可以略去假设 二〔(1 6)式〕 , 这尚需要进一步研究 此外 , 我们 的模型仅考虑了实箱N e , 对于 空箱在内的箱的总数并未考虑 , 这 只有 当箱充分 多 , 实际是无 限多时才是比较理想 的模型 否则该模型就失去 了用武 之地 例 如用这个模型来考察关键词 的频率分布时 , 如果是 自然语言则较为合适 , 如果有词表进 行词 汇控制 , 则 因箱的总 数有限而不够理 想 。

      当箱的总数有限 时 , n ( r , R)不 是 如同 (10)一样的单调递减函数 对于某些 r 值 , 函数可达到峰值 , 在此位置后 , 随 着 R的增加 , 函数 曲线就会向右侧降 一 「 , 这样 的函数当然不能表示成变量分离形式简单求 解 因此 , 求出箱的总数 (包括空箱)有 限 时概率模型 的解将是今后研究的重要课题 四 、 布 拉 德 福 特 分 布函 数及其推 广 形 式 1 . 从输入模型导出布拉德福特分布函 数 莱姆库勒从维克利的结果 (8)出发 , 情报科学 V ol . 3 N o . 2 1982 导 出了布拉德福特分布函数〔(9)式〕 , 那只是当参数P 二 2 时的情形 这里我们 将 利用( 3 2 ‘) 导出布拉德福特分布函数及 其 推 广形式 , ‘ 而 且方法简单得多 现 将箱按其进入球数的 多少依递减顺序 排列 令装有 r 、个球 的箱的相对顺序(即 从 装有 : 个球到装有 r ! 个球的箱数对全部实箱 的比例)为幻从装有最多球的箱 到装有r 二球 的箱所包含的球数 对全部R的比例为Y , 仅口 : X “丁 :犷 · ‘ 1 ‘ , R, d r 了 ) “ · (r , ’ ‘’“r Y 二 r m I X n (r ,1 (r R)d 。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.