pandas.DataFrame中的现有列分配给索引index(行名,行标签)。为索引指定唯一的名称很方便,因为使用loc,at选择(提取)元素时很容易理解。
将描述以下内容。
set_index()的使用方法
- 基本用法
- 将指定的列保留为数据:参数drop
- 分配多索引
- 将索引更改为另一列(重置)
- 更改原始对象:参数inplace
读取csv文件等时指定索引
使用索引(行名)提取(选择)行和元素
了解如何更改索引的一部分或将整个列表替换为列表等,而不是将现有列分配给索引。
请参考以下文章,
Pandas.DataFrame的行名和列名的修改
以下面的数据为例。
1
2
3
4
5
6
7
8
9
10
11
|
import pandas as pd df = pd.read_csv( './data/22/sample_pandas_normal.csv' ) print (df) # name age state point # 0 Alice 24 NY 64 # 1 Bob 42 CA 92 # 2 Charlie 18 CA 70 # 3 Dave 68 TX 70 # 4 Ellen 24 CA 88 # 5 Frank 30 NY 57 |
set_index()的使用方法
基本用法
在第一个参数键中指定用作索引的列的列名(列标签)。指定的列设置为索引。
1
2
3
4
5
6
7
8
9
10
|
df_i = df.set_index( 'name' ) print (df_i) # age state point # name # Alice 24 NY 64 # Bob 42 CA 92 # Charlie 18 CA 70 # Dave 68 TX 70 # Ellen 24 CA 88 # Frank 30 NY 57 |
将指定的列保留为数据:参数drop
默认情况下,如上例所示,从数据列中删除指定的列。如果参数drop = False,则指定的列将设置为index,并且也将保留在data列中。
1
2
3
4
5
6
7
8
9
10
|
df_id = df.set_index( 'name' , drop = False ) print (df_id) # name age state point # name # Alice Alice 24 NY 64 # Bob Bob 42 CA 92 # Charlie Charlie 18 CA 70 # Dave Dave 68 TX 70 # Ellen Ellen 24 CA 88 # Frank Frank 30 NY 57 |
分配多索引
如果在第一个参数键中指定了列名列表(列标签),则将多列分配为多索引。
1
2
3
4
5
6
7
8
9
10
|
df_mi = df.set_index([ 'state' , 'name' ]) print (df_mi) # age point # state name # NY Alice 24 64 # CA Bob 42 92 # Charlie 18 70 # TX Dave 68 70 # CA Ellen 24 88 # NY Frank 30 57 |
使用sort_index()排序时,它可以整齐显示。
1
2
3
4
5
6
7
8
9
10
|
df_mi.sort_index(inplace = True ) print (df_mi) # age point # state name # CA Bob 42 92 # Charlie 18 70 # Ellen 24 88 # NY Alice 24 64 # Frank 30 57 # TX Dave 68 70 |
使用sort_values()对行进行排序以进行说明。有关排序的详细信息,请参见以下文章。
pandas.DataFrame,Series排序(sort_values,sort_index)
默认情况下,如果在set_index()中指定一列,则原始索引将被删除。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
|
print (df_i) # age state point # name # Alice 24 NY 64 # Bob 42 CA 92 # Charlie 18 CA 70 # Dave 68 TX 70 # Ellen 24 CA 88 # Frank 30 NY 57 df_ii = df_i.set_index( 'state' ) print (df_ii) # age point # state # NY 24 64 # CA 42 92 # CA 18 70 # TX 68 70 # CA 24 88 # NY 30 57 |
如果将参数append设置为True,则除了原始索引之外,还将将指定的列添加为新的层次结构索引。
1
2
3
4
5
6
7
8
9
10
|
df_mi = df_i.set_index( 'state' , append = True ) print (df_mi) # age point # name state # Alice NY 24 64 # Bob CA 42 92 # Charlie CA 18 70 # Dave TX 68 70 # Ellen CA 24 88 # Frank NY 30 57 |
添加的列是最底层。使用swaplevel()切换图层。
1
2
3
4
5
6
7
8
9
|
print (df_mi.swaplevel( 0 , 1 )) # age point # state name # NY Alice 24 64 # CA Bob 42 92 # Charlie 18 70 # TX Dave 68 70 # CA Ellen 24 88 # NY Frank 30 57 |
将索引更改为另一列(重置)
与前面的示例一样,如果使用set_index()指定列,则原始索引将被删除。
如果要保留原始索引,请使用reset_index(),它会从0开始按顺序对索引重新编号。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
|
print (df_i) # age state point # name # Alice 24 NY 64 # Bob 42 CA 92 # Charlie 18 CA 70 # Dave 68 TX 70 # Ellen 24 CA 88 # Frank 30 NY 57 df_ri = df_i.reset_index() print (df_ri) # name age state point # 0 Alice 24 NY 64 # 1 Bob 42 CA 92 # 2 Charlie 18 CA 70 # 3 Dave 68 TX 70 # 4 Ellen 24 CA 88 # 5 Frank 30 NY 57 |
如果要将索引更改(重置)到另一列,请在reset_index()之后使用set_index()。如果一次性全部编写,将如下所示。
1
2
3
4
5
6
7
8
9
10
|
df_change = df_i.reset_index().set_index( 'state' ) print (df_change) # name age point # state # NY Alice 24 64 # CA Bob 42 92 # CA Charlie 18 70 # TX Dave 68 70 # CA Ellen 24 88 # NY Frank 30 57 |
请注意,为方便起见,在此示例中将具有重叠值的列设置为索引,但是如果索引值不重叠(每个值都是唯一的),则更容易选择数据。
另请参见以下有关reset_index()的文章。
Pandas.DataFrame,重置Series的索引index(reset_index)
更改原始对象:参数inplace
默认情况下,set_index()不会更改原始对象并返回新对象,但是如果inplace参数为True,则原始对象将被更改。
1
2
3
4
5
6
7
8
9
10
|
df.set_index( 'name' , inplace = True ) print (df) # age state point # name # Alice 24 NY 64 # Bob 42 CA 92 # Charlie 18 CA 70 # Dave 68 TX 70 # Ellen 24 CA 88 # Frank 30 NY 57 |
读取csv文件等时指定索引
从csv文件等中读取并生成pandas.DataFrame或pandas.Series时,如果原始文件包含要用作索引的列,则可以在读取时指定该列。
使用read_csv()读取文件时,在参数index_col中指定一个列号,该列即成为索引。
1
2
3
4
5
6
7
8
9
10
|
df = pd.read_csv( './data/22/sample_pandas_normal.csv' , index_col = 0 ) print (df) # age state point # name # Alice 24 NY 64 # Bob 42 CA 92 # Charlie 18 CA 70 # Dave 68 TX 70 # Ellen 24 CA 88 # Frank 30 NY 57 |
有关读取csv和tsv文件的详细信息,请参见以下文章。
Pandas读取csv/tsv文件(read_csv,read_table)
使用索引(行名)提取(选择)行和元素
与前面的示例一样,如果在索引(行名,行标签)中指定唯一的字符串,则可以按名称提取(选择)行或元素。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
|
print (df) # age state point # name # Alice 24 NY 64 # Bob 42 CA 92 # Charlie 18 CA 70 # Dave 68 TX 70 # Ellen 24 CA 88 # Frank 30 NY 57 print (df.loc[ 'Bob' ]) # age 42 # state CA # point 92 # Name: Bob, dtype: object print (df.at[ 'Bob' , 'age' ]) # 42 |
有关loc和at的信息,请参见以下文章。
Pandas获取和修改任意位置的值(at,iat,loc,iloc)
到此这篇关于Pandas.DataFrame重置列的行名实现(set_index)的文章就介绍到这了,更多相关Pandas.DataFrame重置列的行名内容请搜索服务器之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持服务器之家!
原文链接:https://blog.csdn.net/qq_18351157/article/details/106902858