好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

Python数据分析与可视化教案4.2 数据的统计与描述.docx

6页
  • 卖家[上传人]:亦***
  • 文档编号:325045386
  • 上传时间:2022-07-16
  • 文档格式:DOCX
  • 文档大小:36.80KB
  • / 6 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 课 题4.2数据的统计与描述课 型讲练授课班级大数据授课时数2教学目标1 .能够计算数值型字段的统计指标2 .能够统计字符型字段的频数3 .掌握describe函数的用法教学重点1 .能够计算数值型字段的统计指标2 .能够统计字符型字段的频数教学难点1.掌握describe函数的用法在进行数据分析时,首先需要判断分析的字段是数值型还是字符串型,学情分析学情分析因为不同类型的字段处理方法是不同的,这一点在使用describe函数时就 非常明显数据的统计与描述可以用来概括和表示数据的状况,通过一些统计指标可以方便 地表示一组数据的集中趋势、离散程度、频数分布等特征一、数值型字段的统计与描述数值型字段是指该字段是用数值来描述的,如身高、体重、成绩等数值型字段 的描述性统计主要包括计算最小值、最大值、均值、中位数、四分位数、极差、方差、 标准差等统计指标1 .直接利用统计指标进行计算pandas提供了很多方法来计算数值型字段的各类指标,常用统计指标如表4-*所 Zjx O表4-*数值型数据统计指标方法名称说明方法名称说明mean均值max最大值median中位数min最小值mode众数PtP极差quantile四分位数std标准差sum总和cumsum累加和skew偏度kurt峰度其中,quantile表示四分位数,是指通过三个分割点将全部数据等分为四局部, 其中每局部包含25%的数据,这三个分割点就是四分位数。

      中间的四分位数就是中位 数,而处在25%位置上的四分位数称为下四分位数,处在75%位置上的四分位数称为 上四分位数skew表示偏度,是描述分布偏离对称性程度的一个特征数当分布左右对称时, 偏度系数为0当偏度系数大于时,该分布为右偏当偏度系数小于时,该分布 为左偏kurt表示峰度,是指用来反映频数分布曲线顶端尖峭或扁平程度的指标峰度大 于表示该数据分布与正态分布相比拟为陡峭,为尖顶峰;峰度小于0表示该数据分 布与正态分布相比拟为平坦,为平顶峰cumsum表示累加和,是指对列数据进行累加,其结果也是一列数据直接利用统计指标进行计算的一般方法为:DataFrame[column].统计指标 例如代码如下: import numpy as np import pandas as pdarr = np.arange( 1,17).reshape(4,4)data = pd.DataFrame(arr,columns=[,a7b,/c,/d']) print("初始数据为:\nn,data)printa 列的最大值=",data「a'].max()) print(Hb 列的平均值廿,data['c'].mean())print(nc列的标准差值二%.2F%(data『c1.std()))print,”)data「e']二data「d'].cumsum()printed列的累加和结果为e列:\n”,data[「d?e[]) 输出结果如图4-*所示。

      Run:4-2AC:\Users\liliang\Anaconda3\python.exe C:/Users/liliang/PycharmProjects/sjfx/4-2.py初始数据为: abed=$01234U15678”.29101112W 313141516■a列的最大值=13b列的平均值=9.0 c列的标准差值=5.16d列的累加和结果为e列:d e0441 81212 242 16 40Process finished with exit code 0图4-*统计指标计算例如结果2•利用describe函数进行计算pandas提供了 describe函数用来一次性计算数值型字段的八个统计指标,如表3-* 所示表4-*数值型字段的describe函数统计结果方法名称说明count非空个数mean均值std标准差min最小值25%25%分位数50%50%分位数,即中位数75%75%分位数max最大值在调用describe函数计算统计指标时,还可以采用describe()[i] (i=0,l,2,…)的方 法调用某个统计指标,如用describe[0]调用第1个统计指标count, describe()[U调用 第2个统计指标mean。

      同时,还可以利用指标名称来调用指标,如describeOHS%】 表示调用25%分位数,即调用下四分位数例如代码如下:des = data[a] .describeprint(na列的describe函数计算结果:\n”,round(des,2)) #利用round函数保存所有2 位小数print(”a 列的平均值=\des[l])print(na 列的 25%分位数二”,des『25%'])输出结果如图4-*所示Run:4-2► It=方C:\Users\liliang\Anaconda3\python.exe C:/Users/1iliang/PycharmProjects/sjfx/4-2.py a列的describe函数计算结果:count4.00mean7.00丑X 二■std5.16min1.0025%4.0050%7.0075%10.00max13.00Name: a, dtype: float64a列的平均值=7.0a列的25%分位数=4.0Process finished with exit code 0图4-*统计指标计算例如结果二、分类型字段的统计与描述分类型字段是指该字段的具有分类作用,如省份名、城市名、商品类别等,分类 型字段统计与描述主要是频数统计。

      1 .利用value_counts函数进行统计分析pandas提供了 value_counts函数用来统计分类型字段的频数,value_counts函数的一般用法为:_value_counts(normalize,ascending)其中,normalize表示是否按频率显示,True表示按频率显示,False表示按频数显示,默认为False,即默认按按频数显示例如代码如下:data[,f]=['A,;B7B,;C,]print("初始数据为:\n”,data)print("按频数统计f列降序的结果:\n",data['f].value_counts(ascending=False))print("按频率统计f列升序的结果:\n",data| T ]. value_counts(normalize=True,ascending=True))输出结果如图4-*所示Run:4-2>C:\Users\liliang\Anaconda3\python.exe C:/Users/liliang/PycharmProjects/sjfx/4-2.py初始数据为: a b c d e f5012344A共 1567gl2 B» . 2 9 10 11 12 24 B3 13 14 15 16 40 C ■ 按频数统计f列降序的结果:B 2A 1C 1Name: f, dtype: int64 技频率统Ilf列升序的结果:C 0.25A 0.25B 0.50Name: f, dtype: float64Process finished with exit code 0图4-* value_counts函数例如结果2 .利用describe函数进行统计分析pandas中describe函数除了可以对数值型字段进行统计描述,还可以对分类型字 段进行统计描述。

      对于分类型字段,describe函数可以统计分类数目、最多频数类别 等结果,具体统计结果如表4-*所示表4-*字符型数据describe函数统计结果例如代码如下:方法名称说明count表示非空数目unique表示数据的种类top表示出现最多的类型freq表示出现最多的类型的数目des二 data['f ].describe()print(Hf列describe函数统计结果为:\n”,des)print(4列的类别数量=H,des[l])printC'f列频数最多的类别为:%s,该类别出现的次数为^d^desltopldeslfreq】)) 输出结果如图3-*所示Run:4-2AC:\Users\liliang\Anaconda3\python.exe C:/Users/liliang/PycharmProjects/sjfx/4-2.py千列describe函数统计结果为:count 4■■力 unique3top b“ 看 freq2_ Name: f, dtype: objectf列的类别数量=3f列频数最多的类别为:b,该类别出现的次数为:2Process finished with exit code 0图4-* describe函数例如结果任务实训任务 1:利用 read_excel 导入 supermarket.xlsx (supermarket.xlsx 存放在 c:\data 路 径中)中的“销售统计”工作表(第1张工作表),导入时将“客户ID”列设为索引, 将导入数据命名为datal,完成:(1)直接计算“销售金额”列的平均值和中位数以及偏度,并根据这些统计指 标判断数据的大致分布。

      2)通过describe函数生成“单价”列统计指标,再单独输出其平均值任务1 (1)具体代码如下:pd.set_option('display.max_columns',None)pd.set_option('display. width',None)pd.set_option(,,,True)datal - pd.read_excel(,,c:\data\supermarket.xlsx,',index_col-'§r, ID')print导入的数据为:\n”,data l.head())mean 二 datal ['销售金额1.mean()median = datal ['销售金额1.medianskew = datal「销售金额,].skewprint销售金额的平均值二%.2An销售金额的中位数二%.2An销售金额的偏度 二 %.2f\nn%(mean,median,skew)) 输出结果如图3-*所示Run:4-2导入的数据为:订单ID产品ID产品名称客户姓名省城市单价数量销售金额折扣折扣金额5客户ID 14485US-2018-1357144办公用-用品-10002717Fiskars 剪刀,蓝色♦惠淅江杭州6521300.478.010165CN-2018-1973789办公用-信封-10004832GlobeWeis搭扣信封,红色许安四川内江6321260.0126.010165CN-2018-1973789办公用-装订-10001505Cardinal孔加固材料,回收许安四川内江162320.419.217170US-2018-3017568。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.