当谈到数据处理和分析时,Pandas 是一个非常受欢迎的 Python 库。它提供了高效且灵活的数据结构和数据操作工具,特别适用于处理和分析结构化数据。在本次讲解中,我将为您详细介绍 Pandas 的各个方面,包括数据结构、数据读取与写入、数据选择与过滤、数据操作与转换以及数据聚合与分组等。
数据结构
Pandas 主要提供了两种重要的数据结构:Series 和 DataFrame。
Series 是一维标记数组,类似于带有标签的 NumPy 数组。每个 Series 包含一个数据数组和一个与之相关的索引数组。创建 Series 的方式包括直接传入数组、字典或标量等。
DataFrame 是一个二维表格数据结构,可以看作是由多个 Series 组成的字典。它具有行索引和列索引,可以用于处理结构化的表格数据。DataFrame 可以通过传入字典、NumPy 数组、CSV 文件等方式进行创建。
数据读取与写入
Pandas 提供了多种方法来读取和写入不同格式的数据,如 CSV、Excel、SQL 数据库等。常用的读取方法包括 read_csv()、read_excel()、read_sql() 等,而写入方法包括 to_csv()、to_excel()、to_sql() 等。
读取数据的示例:
import pandas as pd # 从 CSV 文件读取数据 data = pd.read_csv('data.csv') # 从 Excel 文件读取数据 data = pd.read_excel('data.xlsx') # 从 SQL 数据库读取数据 import sqlite3 conn = sqlite3.connect('database.db') data = pd.read_sql('SELECT * FROM table', conn)
数据选择与过滤
Pandas 提供了多种方式来选择和过滤数据,以满足不同的需求。
选择列:使用 DataFrame 的列名称或索引来选择单列或多列数据。
# 选择单列 column = df['column_name'] # 选择多列 columns = df[['column_name1', 'column_name2']]
选择行:使用切片、布尔索引或条件表达式来选择满足特定条件的行。
# 使用切片选择行 rows = df[start:end] # 使用布尔索引选择行 rows = df[boolean_expression] # 使用条件表达式选择行 rows = df[df['column_name'] > 10]
选择单元格:使用 .loc[row_index, column_index] 或 .iloc[row_index, column_index] 来选择单个单元格的值。
# 使用标签索引选择单元格 value = df.loc[row_label, column_label] # 使用整数索引选择单元格 value = df.iloc[row_index, column_index]
数据操作与转换
Pandas 提供了各种数据操作和转换方法,可以对数据进行处理、清洗和转换。
数据排序:使用 sort_values() 方法按照指定的列对数据进行排序。
# 按照单列排序 sorted_data = df.sort_values('column_name') # 按照多列排序 sorted_data = df.sort_values(['column_name1', 'column_name2'])
缺失值处理:使用 isnull()、notnull() 和 dropna() 方法来处理缺失值。
# 检查缺失值 null_values = df.isnull() # 删除包含缺失值的行 clean_data = df.dropna() # 填充缺失值 filled_data = df.fillna(value)
数据转换:使用 apply()、map() 和 replace() 方法对数据进行转换和替换。
# 对列应用函数 df['new_column'] = df['column'].apply(function) # 使用字典映射替换值 df['column'] = df['column'].map(mapping_dict) # 替换指定值 df['column'] = df['column'].replace(old_value, new_value)
数据聚合与分组
Pandas 具备强大的数据聚合和分组功能,可以对数据进行汇总和分析。
聚合函数:Pandas 提供了许多常用的聚合函数,如 sum()、mean()、count()、max()、min() 等,可以对数据进行求和、平均值、计数、最大值和最小值等操作。
# 对列进行求和 sum_value = df['column'].sum() # 对列进行平均值计算 mean_value = df['column'].mean() # 对列进行计数 count_value = df['column'].count() # 对列进行最大值和最小值计算 max_value = df['column'].max() min_value = df['column'].min()
分组操作:使用 groupby() 方法对数据进行分组操作,并应用相应的聚合函数。
# 按照列进行分组并求和 grouped_data = df.groupby('column').sum() # 按照多列进行分组并求平均值 grouped_data = df.groupby(['column1', 'column2']).mean() # 对多列应用多个聚合函数 grouped_data = df.groupby('column').agg({'column1': 'sum', 'column2': 'mean'})
以上是对 Pandas 的一个详细讲解,涵盖了数据结构、数据读取与写入、数据选择与过滤、数据操作与转换以及数据聚合与分组等方面。Pandas 是一个非常强大和灵活的数据处理工具,在数据分析和数据科学领域广泛应用。
原文地址:https://www.toutiao.com/article/7242678091615765003/