大家好,这是近期学习的data analysis 那本书的总结,发表这些东西的主要目的就是督促自己,希望大家关注评论指出不足,一起进步。


一如往常,在使用Pandas时,我们必须从导入模块开始:

导入之后就可以用read_excel从Excel文件中读取数据了。最简单方法是将文件名作为字符串传递。如果我们不传递任何其他参数(例如工作表名称,它将默认读取第一张工作表。在第一个示例中,我将不使用任何参数,如图,我直接用以下代码打开了桌面上的一个名字为“attention of tweets.xlsx”的文件:


预览文件内容如下图:

在这里,默认情况下,使用read_excel时,Pandas将为数据框分配一个数字索引或行标签。


如果您有一列数据可以用作更好的索引列,我们可以通过将index_col参数设置新的索引列。在下面的示例中,我们使用“日期”列作为索引。

得到如下图:


使用read_excel读取特定列

使用Pandas read_excel时,我们将自动从Excel文件中获取所有列。如果由于某种原因我们不想解析Excel文件中的所有列,则可以使用参数 usecols。假设我们只想创建一个具有转发和评论列的数据框。我们可以通过参数usecols做到这一点:


得到如下结果:



读取Excel文件时如何跳过行

现在,复习一下在使用Pandas加载Excel文件时如何跳过行。对于这个读取的上面的excel示例

通过上面的代就可以直接跳过头两行,得到如图所示的结果:

这个操作应该不常用。


将Pandas数据框写入Excel

使用Pandas to_excel方法可以在Python中创建Excel文件。首先,我们将创建一个包含一些变量的数据框,我们将使用字典创建数据框。键将是列名,值将是包含我们的数据的列表:

然后,我们使用to_excel方法将数据框写入Excel文件。值得注意的是,在下面的代码块中使用Pandas to_excel时,我们不用任何参数。

这个时候在目录中就生成了一个名叫“NamesAndAges.xlsx"的文件,打开它,得到如下图:

可以看到我们在Excel文件中获得了一个包含数字的新列。这些是数据框的索引。

如果我们希望将工作表命名为其他名称,并且也不希望引入索引列,那么在使用Pandas写入Excel时可以添加以下参数:

这样就会得到一个叫“Names and Ages”的工作表,并且不含自动加的索引列。


好了,今天就是这些,希望看完的朋友可以留言建议,一起交流成长!