脚本之家,脚本语言编程技术及教程分享平台!
分类导航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|shell|

服务器之家 - 脚本之家 - Python - Python Pandas数据预处理:你知道数据标准化吗?

Python Pandas数据预处理:你知道数据标准化吗?

2023-11-27 17:25自由学习屋 Python

首先,我们需要导入 Python pandas 库,并通过 read_csv() 函数读取数据集。然后我们可以删除所有具有 NaN 值的列,通过 dropna() 函数来实现的。


数据预处理包括以下几个方面:

  • 缺失值处理
  • 数据格式化
  • 数据规范化
  • 数据标准化
  • 数据分箱(分组)

标准化经常容易与规范化混淆,但它们指的是不同的东西。规范化涉及将不同比例的度量值调整到一个共同的比例,而标准化则是将特征值转换为均值为零,标准差为1的分布。标准化也是通过 z-score 转换来实现的,其中新值是用当前值与平均值之间的差,除以标准差计算得来的。

Z-score 是一种统计度量值,用于确定单个数据点与数据集其余部分的距离,它可以用来检测数据集中的异常值。

在本教程中,我们将考虑两种类型的标准化:

  • z 得分(z-score)
  • z 映射(z-map)

一、数据准备(Data Preparation)

本教程的示例数据集还是继续沿用上一个教程(Part 3)中的新冠肺炎数据集,获取方式见上一个教程的文末。

首先,我们需要导入 Python pandas 库,并通过 read_csv() 函数读取数据集。然后我们可以删除所有具有 NaN 值的列,通过 dropna() 函数来实现的。

import pandas  as pd


df = pd.read_csv('datasets/dpc-covid19-ita-regioni.csv')
df.dropna(axis=1, inplace=True)
df.tail(10)

Python Pandas数据预处理:你知道数据标准化吗?图片

二、z 得分(Z-Score)

前面说过,标准化是将数据集中的特征值转换为具有均值为 0 和标准差为 1 的分布。Z-Score 标准化的公式为:

其中  是当前特征值, 是均值, 是标准差。

例如,我们可以计算列 deceduti 的 z 得分。我们可以使用 scipy.stats 库的 zscore() 函数实现。

from scipy.stats import zscore


df['zscore-deceduti'] = zscore(df['deceduti'])
df['zscore-deceduti']

Python Pandas数据预处理:你知道数据标准化吗?图片

三、z 映射(Z-Map)

z 映射的值是用当前特征值与比较数组的平均值之差,除以比较数组的标准差计算得来的。例如,我们可以计算列 deceduti 的 z-map,使用列 terapia_intenva 作为比较数组。我们可以使用 scipy.stats 库的 zmap() 函数实现。

from scipy.stats import zmap


df['zmap-deceduti'] = zmap(df['deceduti'], df['terapia_intensiva'])
df['zmap-deceduti']

Python Pandas数据预处理:你知道数据标准化吗?图片

四、异常值检测(Detect Outliers)

标准化可以用来检测和删除异常值。例如,可以定义一个阈值来指定哪些值可以被视为异常值。在本例中,我们设置 threshold = 2。我们可以在原始数据框中添加一个新的列 outliers,如果特征值小于-2或大于2,则将异常标记列的值设置为 True,否则为 False。我们可以使用 numpy 库的 where() 函数来执行比较。

import numpy as np


threshold = 2
df['outliers'] = np.where((df['zscore-deceduti'] - threshold > 0), True, 
                          np.where(df['zscore-deceduti'] + threshold < 0, True, False))
df['outliers']

Python Pandas数据预处理:你知道数据标准化吗?图片

现在,我们可以使用 drop() 函数删除异常值。

df.drop(df[df['outliers'] == True].index, inplace=True)
df

Python Pandas数据预处理:你知道数据标准化吗?图片

五、总结(Summary)

在本教程中,我解释了规范化和标准化之间的区别,规范化在某种程度上包括标准化。

数据标准化的方法有两种:z-score 和 z-map。

标准化可用于检测和删除数据集中的异常值。此外,它还可以用于在不同的数据集之间进行比较。


原文地址:https://mp.weixin.qq.com/s/4UGzJxR3gaoYfJg94B2gDw

延伸 · 阅读

精彩推荐
  • PythonPython入门教程(二十九)Python的RegEx正则表达式

    Python入门教程(二十九)Python的RegEx正则表达式

    这篇文章主要介绍了Python入门教程(二十九)Python的RegEx,RegEx 或正则表达式是形成搜索模式的字符序列。RegEx 可用于检查字符串是否包含指定的搜索模式,需要...

    轻松学Python9522023-04-28
  • Pythonpython实现bucket排序算法实例分析

    python实现bucket排序算法实例分析

    这篇文章主要介绍了python实现bucket排序算法,实例分析了Python排序的相关技巧,具有一定参考借鉴价值,需要的朋友可以参考下 ...

    重负在身3452020-06-21
  • Pythonpytorch教程实现mnist手写数字识别代码示例

    pytorch教程实现mnist手写数字识别代码示例

    这篇文章主要讲解了pytorch教程中如何实现mnist手写数字识别,文中附有详细的代码示例,test准确率98%,有需要的朋友可以借鉴参考下...

    xz130857934011872022-01-01
  • Python使用Python对SQLite数据库操作

    使用Python对SQLite数据库操作

    本文主要介绍了Python对SQLite数据库操作的简单教程。SQLite是一种嵌入式数据库,它的数据库就是一个文件。由于SQLite本身是C写的,而且体积很小,所以,经...

    骑着螞蟻流浪15452020-09-28
  • PythonOpenCV自动给图片添加彩虹特效的实现示例

    OpenCV自动给图片添加彩虹特效的实现示例

    图像处理的学习往往都是要先熟悉下图像的一些基本处理方法,本文主要介绍了OpenCV自动给图片添加彩虹特效的实现示例,文中通过示例代码介绍的非常详...

    Color Space10322022-03-05
  • PythonPython基础中的的if-else语句详解

    Python基础中的的if-else语句详解

    这篇文章主要为大家详细介绍了Python基础中的的if-else语句,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能...

    试着生存9732022-09-25
  • PythonPython字符串匹配算法KMP实例

    Python字符串匹配算法KMP实例

    这篇文章主要介绍了Python字符串匹配算法KMP实现方法,实例分析了Python针对字符串操作的相关技巧,具有一定参考借鉴价值,需要的朋友可以参考下...

    鉴客5412020-07-24
  • PythonPython采集C站热榜数据实战示例

    Python采集C站热榜数据实战示例

    这篇文章主要为大家介绍了Python采集C站热榜数据实战示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪...

    极客飞虎9042023-05-06