资源预览内容
第1页 / 共25页
第2页 / 共25页
第3页 / 共25页
第4页 / 共25页
第5页 / 共25页
第6页 / 共25页
第7页 / 共25页
第8页 / 共25页
第9页 / 共25页
第10页 / 共25页
亲,该文档总共25页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
Pandas 是 Python 中最受欢迎的软件包之一,广泛用于数据操作。它是一个非常强大且用途广泛的软件包,使数据清理和整理变得更加轻松愉快。Pandas 库对 Python 社区做出了巨大贡献,它使 Python 成为数据科学和分析领域的顶级编程语言之一。它已成为数据分析师和科学家进行数据分析和操作的首选。什么是熊猫包?Pandas 包具有许多功能,这些功能是数据处理和操作的本质。简而言之,它可以为您执行以下任务1. 创建类似于 R 的数据框和 Excel 电子表格的结构化数据集。2. 从 CSV、TXT、XLSX、SQL 数据库、R 等各种来源读取数据。3. 从数据集中选择特定的行或列4. 按升序或降序排列数据5. 根据某些条件过滤数据6. 按分类变量汇总数据7. 将数据重塑为宽格式或长格式8. 时间序列分析9. 合并和连接两个数据集10. 遍历数据集的行11. 以 CSV 或 Excel 格式写入或导出数据数据集:在本教程中,我们将使用两个数据集:income和iris。1. income data: 该数据包含各米国各州从2002年到2015年的收入。该数据集包含51个观测值和16个变量。下载链接2. iris 数据:它包含 150 个观测值和 5 个变量。我们有 3 种花(每种 50 朵花),所有花的萼片长度和宽度以及花瓣长度和宽度都已给出。下载链接要记住的重要熊猫功能以下是常见任务以及 pandas 函数的列表。公用事业功能提取列名称df.列选择前 2 行df.iloc:2选择前 2 列df.iloc:,:2按名称选择列df.loc:,col1,col2选择随机编号行数df.样本(n = 10)选择随机行的分数df.sample(frac = 0.2)重命名变量df.重命名()选择一列作为索引df.set_index()删除行或列df.drop()排序值df.sort_values()分组变量df.groupby( )过滤df.查询()查找缺失值df.isnull( )删除缺失值df.dropna( )删除重复项df.drop_duplicates()创建假人pd.get_dummies( )排行df.rank( )累计金额df.cumsum( )分位数df.分位数()选择数值变量df.select_dtypes()连接两个数据帧pd.concat()基于公共变量合并pd.合并()导入熊猫库您需要先导入或加载 Pandas 库才能使用它。“Importing a library”就是把它加载到内存中,然后你就可以使用它了。运行以下代码导入 pandas 库:import pandas as pd“pd”是别名或缩写,将用作访问或调用 pandas 函数的快捷方式。要访问 pandas 库中的函数,您只需在每次需要应用时键入pd.function而不是pandas.function 。导入数据集要从 CSV 文件读取或导入数据,可以使用read_csv() 函数。在该函数中,您需要指定 CSV 文件的文件位置。income = pd.read_csv(C:UsersHpPythonBasicsincome.csv) Index State Y2002 Y2003 Y2004 Y2005 Y2006 Y2007 0 A Alabama 1296530 1317711 1118631 1492583 1107408 1440134 1 A Alaska 1170302 1960378 1818085 1447852 1861639 1465841 2 A Arizona 1742027 1968140 1377583 1782199 1102568 1109382 3 A Arkansas 1485531 1994927 1119299 1947979 1669191 1801213 4 C California 1685349 1675807 1889570 1480280 1735069 1812546 Y2008 Y2009 Y2010 Y2011 Y2012 Y2013 Y2014 Y2015 0 1945229 1944173 1237582 1440756 1186741 1852841 1558906 1916661 1 1551826 1436541 1629616 1230866 1512804 1985302 1580394 1979143 2 1752886 1554330 1300521 1130709 1907284 1363279 1525866 1647724 3 1188104 1628980 1669295 1928238 1216675 1591896 1360959 1329341 4 1487315 1663809 1624509 1639670 1921845 1156536 1388461 1644607 获取变量名称通过使用income.columns命令,您可以获取数据框的变量名称。Index(Index, State, Y2002, Y2003, Y2004, Y2005, Y2006, Y2007, Y2008, Y2009, Y2010, Y2011, Y2012, Y2013, Y2014, Y2015, dtype=object)income.columns0:2返回前两列名称“Index”、“State”。在 python 中,索引从 0 开始。了解变量类型您可以使用dataFrameName.dtypes命令提取数据框中存储的变量类型信息。income.dtypesIndex objectState objectY2002 int64Y2003 int64Y2004 int64Y2005 int64Y2006 int64Y2007 int64Y2008 int64Y2009 int64Y2010 int64Y2011 int64Y2012 int64Y2013 int64Y2014 int64Y2015 int64dtype: object这里的“对象”表示字符串或字符变量。int64指的是数字变量(没有小数)。要查看一个变量的变量类型(假设为“State”)而不是所有变量,您可以使用以下命令 -incomeState.dtypes它返回dtype(O)。在这种情况下,“O”指的是对象,即作为字符的变量类型。更改数据类型Y2008 是一个整数。假设我们想将其转换为浮点数(带小数的数字变量),我们可以这样写:income.Y2008 = income.Y2008.astype(float)income.dtypesIndex objectState objectY2002 int64Y2003 int64Y2004 int64Y2005 int64Y2006 int64Y2007 int64Y2008 float64Y2009 int64Y2010 int64Y2011 int64Y2012 int64Y2013 int64Y2014 int64Y2015 int64dtype: object查看数据的维度或形状income.shape(51, 16)51 是行数,16 是列数。您还可以使用shape0查看行数(类似于 R 中的 nrow()),使用shape1查看列数(类似于 R 中的 ncol())。income.shape0income.shape1仅查看部分行默认情况下,head() 显示前 5 行。如果我们想查看特定行数,可以在括号中提及。同样,tail() 函数默认显示最后 5 行。income.head()income.head(2) #shows first 2 rows.income.tail() income.tail(2) #shows last 2 rows或者,可以使用以下任何命令来获取前五行。income0:5income.iloc0:5定义分类变量就像 R 中的 factors() 函数一样,我们可以使用“category”dtype 在 python 中包含分类变量。s = pd.Series(1,2,3,1,2, dtype=category)s0 11 22 33 14 2dtype: categoryCategories (3, int64): 1, 2, 3提取唯一值unique()函数显示数据集中的唯一级别或类别。income.Index.unique()array(A, C, D, ., U, V, W, dtype=object)nunique( )显示唯一值的数量。income.Index.nunique()它返回 19,因为索引列包含不同的 19 个值。生成交叉表pd.crosstab( )用于创建双变量频率分布。这里的双变量频率分布在Index和State列之间。pd.crosstab(income.Index,income.State)创建频率分布income.Index选择“income”数据集的“Index”列,value_counts()创建频率分布。默认情况下ascending = False即它将在顶部显示具有最大频率的“索引”。income.Index.value_counts(ascending = True) F 1G 1U 1L 1H 1P 1R 1D 2T 2S 2V 2K 2O 3C 3I 4W 4A 4M 8N 8Name: Index, dtype: int64绘制样品income.sample()用于从包含所有列的数据集中抽取随机样本。这里 n = 5 表示我们需要 5 列,frac = 0.1表示我们需要 10% 的数
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号