这是一个适合初学pandas的基础教程。
我将挑选一些最常用的内容,以最通俗易懂的方式提供解析,方便大家理解,以便大家尽早掌握pandas数据分析。
计划每天一更新,希望大家先理解其用法,然后多动手,用多了也就记住了。如果觉得有帮助,就动动小手点一下关注吧,毕竟我粉丝这么少。


读取数据,作为数据分析的第一步,用好了,可大大减少后续的数据清洗的步骤。

(一)pd.read_excel属性
首先我们来看一下pd.read_excel的常用属性(带注释的为常用属性,初学者掌握这些就可以了)

pd.read_excel( io, #文件路径 sheet_name=0, #表名 header=0, #表头,指定列名行 names=None, #表头的名称 index_col=None, #选取索引列 usecols=None, #所要使用的列 squeeze=False, dtype=None, #数据类型 engine=None, converters=None, true_values=None, false_values=None, skiprows=None, #要跳过的行 nrows=None, #要读取的行数 na_values=None, keep_default_na=True, na_filter=True, verbose=False, parse_dates=False, #设置日期字段 date_parser=None, thousands=None, comment=None, skipfooter=0, convert_float=True, mangle_dupe_cols=True, storage_options: Union[Dict[str, Any], NoneType] = None

(二)详解常用属性。


1,sheet_name=0 要读取的表名,默认为0,即读取第一张表,表索引从0开始,1表示第二张表,以此类推。 也可以用表名来读取,如sheet_name='Sheet1’。也可读取多张表,如sheet_name=[0,1,‘sheet3’],用列表表示,此时表示选取第一页,第二页和第三页作为DataFrame的字典。


读取多张表,如sheet_name=[0,1],用列表表示,此时表1,表2为DataFrame的字典。具体到某一张表,要用切片形式表示。


2,header=0:指定哪一行为列名,默认为0,即选取第一行的值为列名。若不想指定列名,则设定header=None。


3,names=None 重设列名。需以列表的形式将每一列都重设,如数量不相等则不能重设。


4,index_col:指定某列为索引值,默认None,以系统默认方式生成行标签。


5,usecols=None, 要读取的列,默认全部读取。


6,dtype: 设置列的类型,可用字典的形式设置。


7,skiprows:要跳过的行,默认从第一行开始。


8,nrows=None, 要读取的行数,默认全部读取。


9,parse_dates=False, 设置日期字段。

pd.read_csv(data, parse_dates=True) # 自动解析日期时间格式 pd.read_csv(data, parse_dates=['日期']) # 指定某字段为时间


也可把某两列合并为时间,如图将时间,日期字段合并解析成名为 time的时间字段。

第一次写,写的不好多多包涵,你的点赞转发是我继续的动力。