您所在位置：网站首页 > IT计算机/网络 > PythonPython 数据操作教程在 PYTHON 中创建虚拟数据

Python 数据操作教程在 PYTHON 中创建虚拟数据

25页

卖家[上传人]：云***

文档编号：358434120

上传时间：2023-08-23

文档格式：DOCX

文档大小：40.89KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

5 金贝

/ 25 举报版权申诉马上下载

文本预览

下载提示

常见问题

1、Pandas 是 Python 中最受欢迎的软件包之一，广泛用于数据操作。它是一个非常强大且用途广泛的软件包，使数据清理和整理变得更加轻松愉快。Pandas 库对 Python 社区做出了巨大贡献，它使 Python 成为数据科学和分析领域的顶级编程语言之一。它已成为数据分析师和科学家进行数据分析和操作的首选。什么是熊猫包？Pandas 包具有许多功能，这些功能是数据处理和操作的本质。简而言之，它可以为您执行以下任务1. 创建类似于 R 的数据框和 Excel 电子表格的结构化数据集。2. 从 CSV、TXT、XLSX、SQL 数据库、R 等各种来源读取数据。3. 从数据集中选择特定的行或列4. 按升序或降序排列数据5. 根据某些条件过滤数据6. 按分类变量汇总数据7. 将数据重塑为宽格式或长格式8. 时间序列分析9. 合并和连接两个数据集10. 遍历数据集的行11. 以 CSV 或 Excel 格式写入或导出数据数据集：在本教程中，我们将使用两个数据集：income和iris。1. income data: 该数据包含各米国各州从2002年到2015年的收入。该数据集包含51个观测值

2、和16个变量。下载链接2. iris 数据：它包含 150 个观测值和 5 个变量。我们有 3 种花（每种 50 朵花），所有花的萼片长度和宽度以及花瓣长度和宽度都已给出。下载链接要记住的重要熊猫功能以下是常见任务以及 pandas 函数的列表。公用事业功能提取列名称df.列选择前 2 行df.iloc:2选择前 2 列df.iloc:,:2按名称选择列df.loc:,col1,col2选择随机编号行数df.样本（n = 10）选择随机行的分数df.sample(frac = 0.2)重命名变量df.重命名（）选择一列作为索引df.set_index()删除行或列df.drop()排序值df.sort_values()分组变量df.groupby( )过滤df.查询（）查找缺失值df.isnull( )删除缺失值df.dropna( )删除重复项df.drop_duplicates()创建假人pd.get_dummies( )排行df.rank( )累计金额df.cumsum( )分位数df.分位数（）选择数值变量df.select_dtypes()连接两个数据帧pd.concat()

3、基于公共变量合并pd.合并（）导入熊猫库您需要先导入或加载 Pandas 库才能使用它。“Importing a library”就是把它加载到内存中，然后你就可以使用它了。运行以下代码导入 pandas 库：import pandas as pd“pd”是别名或缩写，将用作访问或调用 pandas 函数的快捷方式。要访问 pandas 库中的函数，您只需在每次需要应用时键入pd.function而不是pandas.function 。导入数据集要从 CSV 文件读取或导入数据，可以使用read_csv() 函数。在该函数中，您需要指定 CSV 文件的文件位置。income = pd.read_csv(C:UsersHpPythonBasicsincome.csv) Index State Y2002 Y2003 Y2004 Y2005 Y2006 Y2007 0 A Alabama 1296530 1317711 1118631 1492583 1107408 1440134 1 A Alaska 1170302 1960378 1818085 1447852 1861639 146

4、5841 2 A Arizona 1742027 1968140 1377583 1782199 1102568 1109382 3 A Arkansas 1485531 1994927 1119299 1947979 1669191 1801213 4 C California 1685349 1675807 1889570 1480280 1735069 1812546 Y2008 Y2009 Y2010 Y2011 Y2012 Y2013 Y2014 Y2015 0 1945229 1944173 1237582 1440756 1186741 1852841 1558906 1916661 1 1551826 1436541 1629616 1230866 1512804 1985302 1580394 1979143 2 1752886 1554330 1300521 1130709 1907284 1363279 1525866 1647724 3 1188104 1628980 1669295 1928238 1216675 1591896 1360959 1329341

5、 4 1487315 1663809 1624509 1639670 1921845 1156536 1388461 1644607 获取变量名称通过使用income.columns命令，您可以获取数据框的变量名称。Index(Index, State, Y2002, Y2003, Y2004, Y2005, Y2006, Y2007, Y2008, Y2009, Y2010, Y2011, Y2012, Y2013, Y2014, Y2015, dtype=object)income.columns0:2返回前两列名称“Index”、“State”。在 python 中，索引从 0 开始。了解变量类型您可以使用dataFrameName.dtypes命令提取数据框中存储的变量类型信息。income.dtypesIndex objectState objectY2002 int64Y2003 int64Y2004 int64Y2005 int64Y2006 int64Y2007 int64Y2008 int64Y2009 int64Y2010 int64Y2011 int64Y2012

6、 int64Y2013 int64Y2014 int64Y2015 int64dtype: object这里的“对象”表示字符串或字符变量。int64指的是数字变量（没有小数）。要查看一个变量的变量类型（假设为“State”）而不是所有变量，您可以使用以下命令 -incomeState.dtypes它返回dtype(O)。在这种情况下，“O”指的是对象，即作为字符的变量类型。更改数据类型Y2008 是一个整数。假设我们想将其转换为浮点数（带小数的数字变量），我们可以这样写：income.Y2008 = income.Y2008.astype(float)income.dtypesIndex objectState objectY2002 int64Y2003 int64Y2004 int64Y2005 int64Y2006 int64Y2007 int64Y2008 float64Y2009 int64Y2010 int64Y2011 int64Y2012 int64Y2013 int64Y2014 int64Y2015 int64dtype: object查看数据的维度或形状inco

7、me.shape(51, 16)51 是行数，16 是列数。您还可以使用shape0查看行数（类似于 R 中的 nrow()），使用shape1查看列数（类似于 R 中的 ncol()）。income.shape0income.shape1仅查看部分行默认情况下，head() 显示前 5 行。如果我们想查看特定行数，可以在括号中提及。同样，tail() 函数默认显示最后 5 行。income.head()income.head(2) #shows first 2 rows.income.tail() income.tail(2) #shows last 2 rows或者，可以使用以下任何命令来获取前五行。income0:5income.iloc0:5定义分类变量就像 R 中的 factors() 函数一样，我们可以使用“category”dtype 在 python 中包含分类变量。s = pd.Series(1,2,3,1,2, dtype=category)s0 11 22 33 14 2dtype: categoryCategories (3, int64): 1, 2, 3提取

8、唯一值unique()函数显示数据集中的唯一级别或类别。income.Index.unique()array(A, C, D, ., U, V, W, dtype=object)nunique( )显示唯一值的数量。income.Index.nunique()它返回 19，因为索引列包含不同的 19 个值。生成交叉表pd.crosstab( )用于创建双变量频率分布。这里的双变量频率分布在Index和State列之间。pd.crosstab(income.Index,income.State)创建频率分布income.Index选择“income”数据集的“Index”列，value_counts()创建频率分布。默认情况下ascending = False即它将在顶部显示具有最大频率的“索引”。income.Index.value_counts(ascending = True) F 1G 1U 1L 1H 1P 1R 1D 2T 2S 2V 2K 2O 3C 3I 4W 4A 4M 8N 8Name: Index, dtype: int64绘制样品income.sample()用于从包含所有列的数据集中抽取随机样本。这里 n = 5 表示我们需要 5 列，frac = 0.1表示我们需要 10% 的数

《Python 数据操作教程在 PYTHON 中创建虚拟数据》由会员云***分享，可在线阅读，更多相关《Python 数据操作教程在 PYTHON 中创建虚拟数据》请在金锄头文库上搜索。

点击阅读更多内容

TA的资源