pandas将DataFrame的几列数据合并成为一列_Python

1.1 方法归纳

使用 + 直接将多列合并为一列（合并列较少）；
使用pandas.Series.str.cat方法，将多列合并为一列（合并列较多）；

范例如下：

				?

									dataframe["newColumn"] = dataframe["age"].map(str) + dataframe["phone"] + dataframe["address”]

									#或者

									dataframe["newColumn"] = dataframe["age"].map(str).str.cat([dataframe["phone"],dataframe["address”]],sep='-',na_rep='?')

注意事项：

参与合并的列的数据类型必须为str类型，int和float等数值类型需先转化为str；
参与合并的列的长度必须相同（即：行数），否则报错，但使用pandas.Series.str.cat方法，可通过指定参数join={‘left’, ‘right’, ‘outer’, ‘inner’}，实现长度不相等的列合并；
参与合并的列的各行元素均不为NaN，否则，只要有一列的对应行元素为NaN，则合并结果中该行将为NaN，但使用pandas.Series.str.cat方法，可通过指定参数na_rep='-'，将各列中缺失行元素填充为‘-’，从而保留合并列的所有行元素；

1.2 .str.cat函数详解

1.2.1 语法格式：

				?

									# pandas.Series.str.cat语法如下：

									Series.str.cat(others=None, sep=None, na_rep=None, join=None)

1.2.2 参数说明：

others ： 准备合并的字符串列表，其数据类型可以为：Series, Index, DataFrame, np.ndarrary（N元数组） or list-like（类似列表）

备注：由于默认join=None，所以欲合并的两个（多个）字符串列表必须具有相同的长度，否则需设置参数join= {‘left’, ‘right’, ‘outer’, ‘inner’}，来控制多个字符串列表的合并方式。

（1）如果others=None（即：字符串列表df[col_1]不与其他字符串列表合并），结果将不传递其他值，而是将df[col_1]的所有值都连接成一个字符串；（详见范例1-1）

（2）如果others≠None（即：指定了与字符串列表df[col_1]合并的其他字符串列表df[col_2]），结果将用分隔符把df[col_1]与df[col_2]对应的行值连接在一起，返回Series。（详见范例1-2）

sep：合并结果中不同元素/列之间的分隔符。默认情况下，使用空字符串’ ’ 。
na_rep：为所有缺失值插入的内容，其数据类型可以为：str或None，默认na_rep=None

备注：

（1）如果na_rep=None，则多个合并列中只要有一列的对应行元素为NaN，合并结果中该行元素将为NaN；
（2）如果na_rep=‘str’(str需自定义)，则合并列中各缺失行元素将被填充为‘str’，合并结果将保留合并列的所有行元素；

join ：确定连接方式，其可能的取值为：{‘left’, ‘right’, ‘outer’, ‘inner’}，默认join=None

1.2.3 核心功能：

将Series中的多个字符串[‘a’, ‘b’, ‘c’]拼接为一个字符串’a b c’（字符串拼接）
将DataFrame中的两（多）列df[col_1]和df[col_2]合并为一列（多列合并）

备注： pandas.Series.str.cat仅适用于str类型的数据，int和float等数值型需先转化为str型，才可调用此方法。
int型转为str的方法：

1、df[‘Price’]=df[‘Price’].map(lambda x: str(x))
2、df[‘Price’]=df[‘Price’].map(str)
3、df[‘Price’]=df[‘Price’].astype(‘str’)

若要同时将多列合并为一列，需引入列表list来指定准备合并的列，例如：

				?

									df[col_1].str.cat([df[col_2],df[col_3],df[col_4]],sep='-')

1.2.4 常见范例：

				?

									import numpy as np

									import pandas as pd

									#创建原始数据

									s=pd.Series(['a','b',np.nan,'d'])

									>>>

									s

									0      a

									1      b

									2    NaN

									3      d

									# other=None时，调用s.str.cat()，可将series转为用分隔符sep分隔的字符串,缺失项将被省略

									s1=s.str.cat(sep=' ')

									>>>

									s1

									'a b d'

									# other=None时，指定na_rep='?'，结果将保留原series中的缺失项，并用？代替

									s2=s.str.cat(sep=' ',na_rep='?')

									>>>

									s2

									'a b ? d'

									# other≠None时，调用s.str.cat(),可将两个字符串列表df[col_1]与df[col_2]合并为一列，结果用分隔符sep分隔各项元素,由于默认na_rep=None,故合并时若df[col_1]与df[col_2]的对应行元素有一个为NaN，则合并后该行元素值将为None，结果返回Series

									s3=s.str.cat(['A','B','C','D'],sep=',')

									>>>

									s3

									0    a,A

									1    b,B

									2    NaN

									3    d,D

									#  other≠None时，调用s.str.cat(),可将两个字符串列表df[col_1]与df[col_2]合并为一列，指定na_rep='-',故合并结果将保留df[col_1]与df[col_2]的所有行，且将df[col_1]与df[col_2]的缺失项填充为‘-'

									s4=s.str.cat(['A','B','C','D'],sep=',',na_rep='-')

									>>>

									s4

									0    a,A

									1    b,B

									2    -,C

									3    d,D

									# 欲合并的字符串列表df[col_1]与df[col_2]的索引不同时，需指定参数join，确定连接方式

									t=pd.Series(['d','a','e','c'],index=[3,0,4,2])

									s_1=s.str.cat(t,join='left',na_rep='-')

									>>>

									s_1

									0    aa

									1    b-

									2    -c

									3    dd

									s_2=s.str.cat(t,join='outer',na_rep='-')

									>>>

									s_2

									0    aa

									1    b-

									2    -c

									3    dd

									4    -e

									s_3=s.str.cat(t,join='inner',na_rep='-')

									>>>

									s_3

									0    aa

									2    -c

									3    dd

									s_4=s.str.cat(t,join='right',na_rep='-')

									>>>

									s_4

									3    dd

									0    aa

									4    -e

									2    -c