这是一个适合初学pandas的基础教程。
我将挑选一些最常用的内容,以最通俗易懂的方式提供解析,方便大家理解,以便大家尽早掌握pandas数据分析。
计划每天一更新,希望大家先理解其用法,然后多动手,用多了也就记住了。如果觉得有帮助,就动动小手点一下关注吧,毕竟我粉丝这么少。
读取数据,作为数据分析的第一步,用好了,可大大减少后续的数据清洗的步骤。
(一)pd.read_excel属性
首先我们来看一下pd.read_excel的常用属性(带注释的为常用属性,初学者掌握这些就可以了)
pd.read_excel(
io, #文件路径
sheet_name=0, #表名
header=0, #表头,指定列名行
names=None, #表头的名称
index_col=None, #选取索引列
usecols=None, #所要使用的列
squeeze=False,
dtype=None, #数据类型
engine=None,
converters=None,
true_values=None,
false_values=None,
skiprows=None, #要跳过的行
nrows=None, #要读取的行数
na_values=None,
keep_default_na=True,
na_filter=True,
verbose=False,
parse_dates=False, #设置日期字段
date_parser=None,
thousands=None,
comment=None,
skipfooter=0,
convert_float=True,
mangle_dupe_cols=True,
storage_options: Union[Dict[str, Any], NoneType] = None
(二)详解常用属性。
1,sheet_name=0 要读取的表名,默认为0,即读取第一张表,表索引从0开始,1表示第二张表,以此类推。 也可以用表名来读取,如sheet_name='Sheet1’。也可读取多张表,如sheet_name=[0,1,‘sheet3’],用列表表示,此时表示选取第一页,第二页和第三页作为DataFrame的字典。
读取多张表,如sheet_name=[0,1],用列表表示,此时表1,表2为DataFrame的字典。具体到某一张表,要用切片形式表示。
2,header=0:指定哪一行为列名,默认为0,即选取第一行的值为列名。若不想指定列名,则设定header=None。
3,names=None 重设列名。需以列表的形式将每一列都重设,如数量不相等则不能重设。
4,index_col:指定某列为索引值,默认None,以系统默认方式生成行标签。
5,usecols=None, 要读取的列,默认全部读取。
6,dtype: 设置列的类型,可用字典的形式设置。
7,skiprows:要跳过的行,默认从第一行开始。
8,nrows=None, 要读取的行数,默认全部读取。
9,parse_dates=False, 设置日期字段。
pd.read_csv(data, parse_dates=True) # 自动解析日期时间格式
pd.read_csv(data, parse_dates=['日期']) # 指定某字段为时间
也可把某两列合并为时间,如图将时间,日期字段合并解析成名为 time的时间字段。
第一次写,写的不好多多包涵,你的点赞转发是我继续的动力。