Hello,Jupyter!读取Excel中的数据
在操作之前,首先要引入pandas包,后续所有操作都是基于pandas包(可以起个别名叫df)来做计算。
引入包之后,我们可以使用pd中的read_excel函数来打开一个excel文件。
如果一个excel文件有多个sheet表格,我们还可以指定sheet_name的名字,来导入指定sheet的数据。
假设我们导入了指定sheet的数据、为df,此时可以基于df做一些基础的操作:比如我们想知道这个表格有多少行多少列?这个表格都有哪些字段?每个字段是什么数据类型的(是不是字符串、是不是数字类型、是不是日期类型等)?或者还想看看这个表格的前几行或者后几行长什么样子?
带着上面的几个问题,我们一起熟悉下平时这些常见的操作,在pandas中是如何实现的。
数据导入(导入excel的数据)
import pandas as pd #引入包
df = pd.read_excel("lhp.xlsx", sheet_name="risk_train") # 读取excel中指定sheet_name的数据
数据预览
df.head() #查看表的前几行,默认是头5行
df.head(n=10) #自定义查看前N行
df.tail() #默认查看后5行
df.tail(n=10) #自定义查看后n行
查看数据量级(多少行、多少列)
df.shape #查看当前表格有多少行,多少列
查看表的数据结构(有哪些字段和字段类型)
df.info() #查看表结构,dtypes就是表中所有的字段类型和个数
文件保存
df.head().to_excel("./前五行.xlsx", index=False) #保存前5行至另外一个excel文件