脚本之家,脚本语言编程技术及教程分享平台!
分类导航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服务器之家 - 脚本之家 - Python - python 文件读写和数据清洗

python 文件读写和数据清洗

2022-08-20 09:45数据打工人 Python

这篇文章主要介绍了python文件读写和数据清洗,文章围绕主题展开详细的内容介绍,具有一定的参考价值,感兴趣的小伙伴可以参考一下,希望对你的学习又是帮助

一、文件操作

  • pandas内置了10多种数据源读取函数,常见的就是CSV和EXCEL
  • 使用read_csv方法读取,结果为dataframe格式
  • 在读取csv文件时,文件名称尽量是英文
  • 读取csv时,注意编码,常用编码为utf-8、gbk 、gbk2312和gb18030等
  • 使用to_csv方法快速保存

1.1 csv文件读写

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
#读取文件,以下两种方式:
#使用pandas读入需要处理的表格及sheet页
import pandas as pd
df = pd.read_csv("test.csv",sheet_name='sheet1') #默认是utf-8编码
#或者使用with关键字
with open("test.csv",encoding="utf-8")as df:
    #按行遍历
    for row in df:
        #修正
        row = row.replace('阴性','0').replace('00.','0.')
        ...
        print(row)
 
#将处理后的结果写入新表
#建议用utf-8编码或者中文gbk编码,默认是utf-8编码,index=False表示不写出行索引
df.to_csv('df_new.csv',encoding='utf-8',index=False)

1.2 excel文件读写

?
1
2
3
4
5
6
#读入需要处理的表格及sheet页
df = pd.read_excel('测试.xlsx',sheet_name='test'
df = pd.read_excel(r'测试.xlsx') #默认读入第一个sheet
 
#将处理后的结果写入新表
df1.to_excel('处理后的数据.xlsx',index=False)

二、数据清洗

2.1 删除空值

?
1
2
3
4
5
6
# 删除空值行
# 使用索引
df.dropna(axis=0,how='all')#删除全部值为空的行
df_1 = df[df['价格'].notna()] #删除某一列值为空的行
df = df.dropna(axis=0,how='all',subset=['1','2','3','4','5'])# 这5列值均为空,删除整行
df = df.dropna(axis=0,how='any',subset=['1','2','3','4','5'])#这5列值任何出现一个空,即删除整行

2.2 删除不需要的列

?
1
2
3
4
5
6
7
8
9
10
# 使用del, 一次只能删除一列,不能一次删除多列
del df['sample_1'#修改源文件,且一次只能删除一个
del df[['sample_1', 'sample_2']]  #报错
 
#使用drop,有两种方法:
#使用列名
df = df.drop(['sample_1', 'sample_2'], axis=1) # axis=1 表示删除列
df.drop(['sample_1', 'sample_2'], axis=1, inplace=True) # inplace=True, 直接从内部删除
#使用索引
df.drop(df.columns[[0, 1, 2]], axis=1, inplace=True) # df.columns[ ] #直接使用索引查找列,删除前3列

2.3 删除不需要的行

?
1
2
3
4
5
6
7
#使用drop,有两种方法:
#使用行名
df = df.drop(['行名1', '行名2']) # 默认axis=0 表示删除行
df.drop(['行名1', '行名2'], inplace=True) # inplace=True, 直接从内部删除
#使用索引
df.drop(df.index[[1, 3, 5]]) # df.index[ ]直接使用索引查找行,删除1,3,5行
df = df[df.index % 2 == 0]#删除偶数行

2.4 重置索引

?
1
2
3
4
5
6
#在删除了行列数据后,造成索引混乱,可通过 reset_index重新生成连续索引
df.reset_index()#获得新的index,原来的index变成数据列,保留下来
df.reset_index(drop=True)#不想保留原来的index,使用参数 drop=True,默认 False
df.reset_index(drop=True,inplace=True)#修改源文件
#使用某一列作为索引
df.set_index('column_name').head()

2.5 统计缺失

?
1
2
3
4
5
6
7
8
#每列的缺失数量
df.isnull().sum()
#每列缺失占比
df3.isnull().sum()/df.shape[0]
#每行的缺失数量
df3.isnull().sum(axis=1)
#每行缺失占比
df3.isnull().sum(axis=1)/df.shape[1]

2.6 排序

?
1
2
3
4
#按每行缺失值进行降序排序
df3.isnull().sum(axis=1).sort_values(ascending=False)
#按每列缺失率进行降序排序
(df.isnull().sum()/df.isnull().count()).sort_values(ascending=False)

到此这篇关于python 文件读写和数据清洗的文章就介绍到这了,更多相关python数据处理内容请搜索服务器之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持服务器之家!

原文链接:https://blog.csdn.net/weixin_46942725/article/details/125865706

延伸 · 阅读

精彩推荐
  • PythonPython实现的简单文件传输服务器和客户端

    Python实现的简单文件传输服务器和客户端

    这篇文章主要介绍了Python实现的简单文件传输服务器和客户端,本文直接给出Server和Client端的实现代码,需要的朋友可以参考下 ...

    脚本之家28802020-05-31
  • Pythonpython给图像加上mask,并提取mask区域实例

    python给图像加上mask,并提取mask区域实例

    今天小编就为大家分享一篇python给图像加上mask,并提取mask区域实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧 ...

    xnholiday25792020-04-12
  • Python详解如何使用Python编写vim插件

    详解如何使用Python编写vim插件

    本篇文章主要介绍了详解如何使用Python编写vim插件,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧...

    Yggdroot5252020-12-21
  • Python浅谈Python中的常用内置对象

    浅谈Python中的常用内置对象

    今天带大家复习Python基础知识,文中对Python常用的内置对象作了非常详细的介绍及代码示例,对正在学习python的小伙伴们很有帮助,需要的朋友可以参考下...

    橘猫吃不胖~7352021-11-14
  • PythonFlask的图形化管理界面搭建框架Flask-Admin的使用教程

    Flask的图形化管理界面搭建框架Flask-Admin的使用教程

    Flask-Admin是一个为Python的Flask框架服务的微型框架,可以像Django-Admin那样为用户生成Model层面的数据管理界面,接下来就一起来看一下Flask的图形化管理界面搭建...

    digwtx4142020-08-26
  • PythonPython编程求质数实例代码

    Python编程求质数实例代码

    这篇文章主要介绍了Python编程求质数实例代码,对求200,1000和100000以内的质数进行了测试,小编觉得还是挺不错的,具有一定借鉴价值,需要的朋友可以参...

    luo_shijie8072021-01-11
  • Pythonpytorch--之halfTensor的使用详解

    pytorch--之halfTensor的使用详解

    这篇文章主要介绍了pytorch--之halfTensor的使用详解,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教...

    zxyhhjs201711412021-11-11
  • PythonPython的Flask框架中@app.route的用法教程

    Python的Flask框架中@app.route的用法教程

    这篇文章主要介绍了Python的Flask框架中@app.route的用法教程,包括相关的正则表达式讲解,是Flask学习过程当中的基础知识,需要的朋友可以参考下 ...

    Ainsley34072020-05-26