电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

Python 数据操作教程最佳Pandas教程通过 50 个示例学习

25页
  • 卖家[上传人]:云***
  • 文档编号:358434100
  • 上传时间:2023-08-23
  • 文档格式:DOCX
  • 文档大小:40.86KB
  • / 25 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、Pandas 是 Python 中最受欢迎的软件包之一,广泛用于数据操作。它是一个非常强大且用途广泛的软件包,使数据清理和整理变得更加轻松愉快。Pandas 库对 Python 社区做出了巨大贡献,它使 Python 成为数据科学和分析领域的顶级编程语言之一。它已成为数据分析师和科学家进行数据分析和操作的首选。什么是熊猫包?Pandas 包具有许多功能,这些功能是数据处理和操作的本质。简而言之,它可以为您执行以下任务1. 创建类似于 R 的数据框和 Excel 电子表格的结构化数据集。2. 从 CSV、TXT、XLSX、SQL 数据库、R 等各种来源读取数据。3. 从数据集中选择特定的行或列4. 按升序或降序排列数据5. 根据某些条件过滤数据6. 按分类变量汇总数据7. 将数据重塑为宽格式或长格式8. 时间序列分析9. 合并和连接两个数据集10. 遍历数据集的行11. 以 CSV 或 Excel 格式写入或导出数据数据集:在本教程中,我们将使用两个数据集:income和iris。1. income data: 该数据包含各米国各州从2002年到2015年的收入。该数据集包含51个观测值

      2、和16个变量。下载链接2. iris 数据:它包含 150 个观测值和 5 个变量。我们有 3 种花(每种 50 朵花),所有花的萼片长度和宽度以及花瓣长度和宽度都已给出。下载链接要记住的重要熊猫功能以下是常见任务以及 pandas 函数的列表。公用事业功能提取列名称df.列选择前 2 行df.iloc:2选择前 2 列df.iloc:,:2按名称选择列df.loc:,col1,col2选择随机编号行数df.样本(n = 10)选择随机行的分数df.sample(frac = 0.2)重命名变量df.重命名()选择一列作为索引df.set_index()删除行或列df.drop()排序值df.sort_values()分组变量df.groupby( )过滤df.查询()查找缺失值df.isnull( )删除缺失值df.dropna( )删除重复项df.drop_duplicates()创建假人pd.get_dummies( )排行df.rank( )累计金额df.cumsum( )分位数df.分位数()选择数值变量df.select_dtypes()连接两个数据帧pd.concat()

      3、基于公共变量合并pd.合并()导入熊猫库您需要先导入或加载 Pandas 库才能使用它。“Importing a library”就是把它加载到内存中,然后你就可以使用它了。运行以下代码导入 pandas 库:import pandas as pd“pd”是别名或缩写,将用作访问或调用 pandas 函数的快捷方式。要访问 pandas 库中的函数,您只需在每次需要应用时键入pd.function而不是pandas.function 。导入数据集要从 CSV 文件读取或导入数据,可以使用read_csv() 函数。在该函数中,您需要指定 CSV 文件的文件位置。income = pd.read_csv(C:UsersHpPythonBasicsincome.csv) Index State Y2002 Y2003 Y2004 Y2005 Y2006 Y2007 0 A Alabama 1296530 1317711 1118631 1492583 1107408 1440134 1 A Alaska 1170302 1960378 1818085 1447852 1861639 146

      4、5841 2 A Arizona 1742027 1968140 1377583 1782199 1102568 1109382 3 A Arkansas 1485531 1994927 1119299 1947979 1669191 1801213 4 C California 1685349 1675807 1889570 1480280 1735069 1812546 Y2008 Y2009 Y2010 Y2011 Y2012 Y2013 Y2014 Y2015 0 1945229 1944173 1237582 1440756 1186741 1852841 1558906 1916661 1 1551826 1436541 1629616 1230866 1512804 1985302 1580394 1979143 2 1752886 1554330 1300521 1130709 1907284 1363279 1525866 1647724 3 1188104 1628980 1669295 1928238 1216675 1591896 1360959 1329341

      5、 4 1487315 1663809 1624509 1639670 1921845 1156536 1388461 1644607 获取变量名称通过使用income.columns命令,您可以获取数据框的变量名称。Index(Index, State, Y2002, Y2003, Y2004, Y2005, Y2006, Y2007, Y2008, Y2009, Y2010, Y2011, Y2012, Y2013, Y2014, Y2015, dtype=object)income.columns0:2返回前两列名称“Index”、“State”。在 python 中,索引从 0 开始。了解变量类型您可以使用dataFrameName.dtypes命令提取数据框中存储的变量类型信息。income.dtypesIndex objectState objectY2002 int64Y2003 int64Y2004 int64Y2005 int64Y2006 int64Y2007 int64Y2008 int64Y2009 int64Y2010 int64Y2011 int64Y2012

      6、 int64Y2013 int64Y2014 int64Y2015 int64dtype: object这里的“对象”表示字符串或字符变量。int64指的是数字变量(没有小数)。要查看一个变量的变量类型(假设为“State”)而不是所有变量,您可以使用以下命令 -incomeState.dtypes它返回dtype(O)。在这种情况下,“O”指的是对象,即作为字符的变量类型。更改数据类型Y2008 是一个整数。假设我们想将其转换为浮点数(带小数的数字变量),我们可以这样写:income.Y2008 = income.Y2008.astype(float)income.dtypesIndex objectState objectY2002 int64Y2003 int64Y2004 int64Y2005 int64Y2006 int64Y2007 int64Y2008 float64Y2009 int64Y2010 int64Y2011 int64Y2012 int64Y2013 int64Y2014 int64Y2015 int64dtype: object查看数据的维度或形状inco

      7、me.shape(51, 16)51 是行数,16 是列数。您还可以使用shape0查看行数(类似于 R 中的 nrow()),使用shape1查看列数(类似于 R 中的 ncol())。income.shape0income.shape1仅查看部分行默认情况下,head() 显示前 5 行。如果我们想查看特定行数,可以在括号中提及。同样,tail() 函数默认显示最后 5 行。income.head()income.head(2) #shows first 2 rows.income.tail() income.tail(2) #shows last 2 rows或者,可以使用以下任何命令来获取前五行。income0:5income.iloc0:5定义分类变量就像 R 中的 factors() 函数一样,我们可以使用“category”dtype 在 python 中包含分类变量。s = pd.Series(1,2,3,1,2, dtype=category)s0 11 22 33 14 2dtype: categoryCategories (3, int64): 1, 2, 3提取

      8、唯一值unique()函数显示数据集中的唯一级别或类别。income.Index.unique()array(A, C, D, ., U, V, W, dtype=object)nunique( )显示唯一值的数量。income.Index.nunique()它返回 19,因为索引列包含不同的 19 个值。生成交叉表pd.crosstab( )用于创建双变量频率分布。这里的双变量频率分布在Index和State列之间。pd.crosstab(income.Index,income.State)创建频率分布income.Index选择“income”数据集的“Index”列,value_counts()创建频率分布。默认情况下ascending = False即它将在顶部显示具有最大频率的“索引”。income.Index.value_counts(ascending = True) F 1G 1U 1L 1H 1P 1R 1D 2T 2S 2V 2K 2O 3C 3I 4W 4A 4M 8N 8Name: Index, dtype: int64绘制样品income.sample()用于从包含所有列的数据集中抽取随机样本。这里 n = 5 表示我们需要 5 列,frac = 0.1表示我们需要 10% 的数

      《Python 数据操作教程最佳Pandas教程通过 50 个示例学习》由会员云***分享,可在线阅读,更多相关《Python 数据操作教程最佳Pandas教程通过 50 个示例学习》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.