Pandas.DataFrame重置列的行名实现(set_index)_Python

pandas.DataFrame中的现有列分配给索引index（行名，行标签）。为索引指定唯一的名称很方便，因为使用loc，at选择（提取）元素时很容易理解。

将描述以下内容。

set_index（）的使用方法

基本用法
将指定的列保留为数据：参数drop
分配多索引
将索引更改为另一列（重置）
更改原始对象：参数inplace

读取csv文件等时指定索引

使用索引（行名）提取（选择）行和元素

了解如何更改索引的一部分或将整个列表替换为列表等，而不是将现有列分配给索引。

请参考以下文章，

Pandas.DataFrame的行名和列名的修改

以下面的数据为例。

				?

									import pandas as pd

									df = pd.read_csv('./data/22/sample_pandas_normal.csv')

									print(df)

									#       name  age state  point

									# 0    Alice   24    NY     64

									# 1      Bob   42    CA     92

									# 2  Charlie   18    CA     70

									# 3     Dave   68    TX     70

									# 4    Ellen   24    CA     88

									# 5    Frank   30    NY     57

set_index（）的使用方法

基本用法

在第一个参数键中指定用作索引的列的列名（列标签）。指定的列设置为索引。

				?

									df_i = df.set_index('name')

									print(df_i)

									#          age state  point

									# name                     

									# Alice     24    NY     64

									# Bob       42    CA     92

									# Charlie   18    CA     70

									# Dave      68    TX     70

									# Ellen     24    CA     88

									# Frank     30    NY     57

将指定的列保留为数据：参数drop

默认情况下，如上例所示，从数据列中删除指定的列。如果参数drop = False，则指定的列将设置为index，并且也将保留在data列中。

				?

									df_id = df.set_index('name', drop=False)

									print(df_id)

									#             name  age state  point

									# name                              

									# Alice      Alice   24    NY     64

									# Bob          Bob   42    CA     92

									# Charlie  Charlie   18    CA     70

									# Dave        Dave   68    TX     70

									# Ellen      Ellen   24    CA     88

									# Frank      Frank   30    NY     57

分配多索引

如果在第一个参数键中指定了列名列表（列标签），则将多列分配为多索引。

				?

									df_mi = df.set_index(['state', 'name'])

									print(df_mi)

									#                age  point

									# state name               

									# NY    Alice     24     64

									# CA    Bob       42     92

									#       Charlie   18     70

									# TX    Dave      68     70

									# CA    Ellen     24     88

									# NY    Frank     30     57

使用sort_index（）排序时，它可以整齐显示。

				?

									df_mi.sort_index(inplace=True)

									print(df_mi)

									#                age  point

									# state name               

									# CA    Bob       42     92

									#       Charlie   18     70

									#       Ellen     24     88

									# NY    Alice     24     64

									#       Frank     30     57

									# TX    Dave      68     70

使用sort_values（）对行进行排序以进行说明。有关排序的详细信息，请参见以下文章。

pandas.DataFrame，Series排序（sort_values，sort_index）

默认情况下，如果在set_index（）中指定一列，则原始索引将被删除。

				?

									print(df_i)

									#          age state  point

									# name                     

									# Alice     24    NY     64

									# Bob       42    CA     92

									# Charlie   18    CA     70

									# Dave      68    TX     70

									# Ellen     24    CA     88

									# Frank     30    NY     57

									df_ii = df_i.set_index('state')

									print(df_ii)

									#        age  point

									# state            

									# NY      24     64

									# CA      42     92

									# CA      18     70

									# TX      68     70

									# CA      24     88

									# NY      30     57

如果将参数append设置为True，则除了原始索引之外，还将将指定的列添加为新的层次结构索引。

				?

									df_mi = df_i.set_index('state', append=True)

									print(df_mi)

									#                age  point

									# name    state            

									# Alice   NY      24     64

									# Bob     CA      42     92

									# Charlie CA      18     70

									# Dave    TX      68     70

									# Ellen   CA      24     88

									# Frank   NY      30     57

添加的列是最底层。使用swaplevel（）切换图层。

				?

									print(df_mi.swaplevel(0, 1))

									#                age  point

									# state name               

									# NY    Alice     24     64

									# CA    Bob       42     92

									#       Charlie   18     70

									# TX    Dave      68     70

									# CA    Ellen     24     88

									# NY    Frank     30     57

将索引更改为另一列（重置）

与前面的示例一样，如果使用set_index（）指定列，则原始索引将被删除。

如果要保留原始索引，请使用reset_index（），它会从0开始按顺序对索引重新编号。

				?

									print(df_i)

									#          age state  point

									# name                     

									# Alice     24    NY     64

									# Bob       42    CA     92

									# Charlie   18    CA     70

									# Dave      68    TX     70

									# Ellen     24    CA     88

									# Frank     30    NY     57

									df_ri = df_i.reset_index()

									print(df_ri)

									#       name  age state  point

									# 0    Alice   24    NY     64

									# 1      Bob   42    CA     92

									# 2  Charlie   18    CA     70

									# 3     Dave   68    TX     70

									# 4    Ellen   24    CA     88

									# 5    Frank   30    NY     57

如果要将索引更改（重置）到另一列，请在reset_index（）之后使用set_index（）。如果一次性全部编写，将如下所示。

				?

									df_change = df_i.reset_index().set_index('state')

									print(df_change)

									#           name  age  point

									# state                     

									# NY       Alice   24     64

									# CA         Bob   42     92

									# CA     Charlie   18     70

									# TX        Dave   68     70

									# CA       Ellen   24     88

									# NY       Frank   30     57

请注意，为方便起见，在此示例中将具有重叠值的列设置为索引，但是如果索引值不重叠（每个值都是唯一的），则更容易选择数据。

另请参见以下有关reset_index（）的文章。

Pandas.DataFrame,重置Series的索引index(reset_index)

更改原始对象：参数inplace

默认情况下，set_index（）不会更改原始对象并返回新对象，但是如果inplace参数为True，则原始对象将被更改。

				?

									df.set_index('name', inplace=True)

									print(df)

									#          age state  point

									# name                     

									# Alice     24    NY     64

									# Bob       42    CA     92

									# Charlie   18    CA     70

									# Dave      68    TX     70

									# Ellen     24    CA     88

									# Frank     30    NY     57

读取csv文件等时指定索引

从csv文件等中读取并生成pandas.DataFrame或pandas.Series时，如果原始文件包含要用作索引的列，则可以在读取时指定该列。

使用read_csv（）读取文件时，在参数index_col中指定一个列号，该列即成为索引。

				?

									df = pd.read_csv('./data/22/sample_pandas_normal.csv', index_col=0)

									print(df)

									#          age state  point

									# name

									# Alice     24    NY     64

									# Bob       42    CA     92

									# Charlie   18    CA     70

									# Dave      68    TX     70

									# Ellen     24    CA     88

									# Frank     30    NY     57

有关读取csv和tsv文件的详细信息，请参见以下文章。

Pandas读取csv/tsv文件（read_csv，read_table）

使用索引（行名）提取（选择）行和元素

与前面的示例一样，如果在索引（行名，行标签）中指定唯一的字符串，则可以按名称提取（选择）行或元素。

				?

									print(df)

									#          age state  point

									# name                     

									# Alice     24    NY     64

									# Bob       42    CA     92

									# Charlie   18    CA     70

									# Dave      68    TX     70

									# Ellen     24    CA     88

									# Frank     30    NY     57

									print(df.loc['Bob'])

									# age      42

									# state    CA

									# point    92

									# Name: Bob, dtype: object

									print(df.at['Bob', 'age'])

									# 42