Python数据分析与数据挖掘教学课件第9章 数据分析
54页1、第9章 数据分析Python数据分析与数据挖掘9.1 统计分析9.1.1描述性统计9.1.2汇总统计9.1.3参数估计与假设检验9.1.4相关性分析9.1.1 描述性统计频数分析集中趋势分析离散程度分析其他num_legsnum_wingsfalcon22dog40cat40ant60bee64频数分析pandas.DataFrame.value_counts(subset = None, normalize= False, sort= True, ascending= False)df#原始数据df.value_counts()#统计df各系列数据取值的组合情况的频次num_legsnum_wings40264101221dtype:int64num_legsnum_wingsfalcon22dog40cat40ant60bee64频数分析pandas.Series.value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)df#原始数据dfnum_legs.unique()#统计
2、num_legs的取值array(2,4,6,dtype=int64)dfnum_legs.value_counts(normalize=True)#统计取值频次比例60.440.420.2Name:num_legs,dtype:float64集中趋势分析函数函数说明说明.mean()计算数据中各系列的均值;.median()计算数据中各系列的中位数值;.mode()计算数据中各系列的众数值;.quantile()计算数据中各系列的四(n)分位数值。集中趋势分析dfA.mean()#计算pandas.Series的均值48.32df.median()#计算各数据系列的中位数值A47.5B47.5C55.0dtype:float64A48.32B47.28C48.54dtype:float64df=pd.DataFrame(np.random.randint(1,100,(50,3),columns=list(ABC)df.mean()#计算各数据系列的均值集中趋势分析df.quantile(q=0.0,0.25,0.5,0.75,1.0)#计算各数据系列的四分位数ABC0.001.00
3、4.001.000.2529.7527.5021.750.5047.5047.5055.000.7576.7567.2573.001.0096.0099.0095.0001136266dtype:int32dfA.mode()#计算pandas.Series的众数值dfA.quantile(q=0.35)#计算特定分位数值离散程度分析函数函数说明说明.max().min()计算数据中各系列的最大值和最小值.std()计算数据中各系列的标准差值.mad()计算数据中各系列的平均绝对偏差平均绝对偏差.cov()计算数据中各系列的协方差值numpy.ptp()计算数据中各系列的极差值离散程度分析df.std()#计算各数据系列的标准差值A29.143165B26.264774C28.829697dtype:float64df.max()#计算各数据系列的最大值A96B99C95dtype:int32df=pd.DataFrame(np.random.randint(1,100,(50,3),columns=list(ABC)产生数据df.cov()ABCA849.324082-126.866
4、93963.599184B-126.866939689.8383679.743673C63.5991849.743673831.151429df.mad()#计算各数据系列的平均绝对偏差A24.6656B21.1200C25.3184dtype:float64其他df.describe()ABCcount50.0000050.00000050.000000mean56.9000050.90000045.680000std30.6256230.12575730.615749min1.000002.0000002.00000025%39.0000021.00000017.25000050%57.0000055.50000041.00000075%84.0000073.50000074.750000max99.0000099.00000099.000000df.aggregate(np.max,axis=0)A99B99C99dtype:int32df.apply(np.median,axis=0)A57.0B55.5C41.0dtype:float64汇总统计时序数据汇总resample交
5、叉表crosstable分类汇总groupby数据透视表pivot_table时序数据汇总resamplepandas.DataFrame.resample(rule, axis=0, closed=None, label=None, convention=start, kind=None, loffset=None, base=None, on=None, level=None, origin=start_day, offset=None)df.resample(3T).sum()#按3个样本进行汇总AB2000-01-0100:00:00782000-01-0100:03:00882000-01-0100:06:0023df.resample(4min).mean()#按4分钟进行汇总AB2000-01-0100:00:002.03.0000002000-01-0100:04:003.02.333333时序数据汇总resamplepandas.DataFrame.resample(rule, axis=0, closed=None, label=None, convention=s
《Python数据分析与数据挖掘教学课件第9章 数据分析》由会员AZ****01分享,可在线阅读,更多相关《Python数据分析与数据挖掘教学课件第9章 数据分析》请在金锄头文库上搜索。
外教社2024魅力上海 PPT课件8.4
重大社2024《web前端技术应用》教学课件项目五 任务一 将页面转为响应式设计
外教社2024魅力上海 PPT课件7.4
重大社2024《web前端技术应用》教学课件项目五 任务二 测试网页
外教社2024魅力上海 PPT课件6.4
外教社2024魅力上海 PPT课件3.4
外教社2024魅力上海 PPT课件3.1
重大社2024《web前端技术应用》教学课件项目四 任务三 制作志愿者招募交互板块
外教社2024魅力上海 PPT课件6.1
外教社2024魅力上海 PPT课件5.1
外教社2024魅力上海 PPT课件7.1
外教社2024魅力上海 PPT课件2.3
外教社2024魅力上海 PPT课件4.3
外教社2024魅力上海 PPT课件2.4
外教社2024魅力上海 PPT课件2.2
外教社2024魅力上海 PPT课件3.2
外教社2024魅力上海 PPT课件3.3
外教社2024魅力上海 PPT课件2.1
外教社2024魅力上海 PPT课件7.3
外教社2024魅力上海 PPT课件7.2
2024-05-19 5页
2024-05-19 8页
2024-05-19 5页
2024-05-19 7页
2024-05-19 5页
2024-05-19 5页
2024-05-19 14页
2024-05-19 21页
2024-05-19 13页
2024-05-19 15页