从 Python 列表中删除 NaN:完整指南

liftword3周前 (12-05)技术文章9


在 Python 中处理数据时,经常会遇到 NaN(非数字)值。这些讨厌的缺失值可能会扰乱您的计算并导致代码错误。

什么是 NaN 以及为什么它很重要?

NaN 不仅仅是一个常规值——它是 Python 表达“这个数字缺失或未定义”的方式。将其想象为一个占位符,表示“此处没有数据”。让我们看看 NaN 在代码中出现的所有不同方式:

import math
import numpy as np

# Here are all the different types of NaN you might see
nan_values = [
    float('nan'),     # Python's basic NaN - used in regular Python
    math.nan,         # Math module's NaN - used in mathematical operations
    np.nan,           # NumPy's NaN - used in numerical arrays
    None             # Python's None - often treated like NaN in data analysis
]

# Let's see what type each one is
print([type(x) for x in nan_values])
# Output: [<class 'float'>, <class 'float'>, <class 'float'>, <class 'NoneType'>]

注意到一些有趣的事情了吗?前三种 NaN 类型都是浮点数(十进制数),但 None 是它自己的特殊类型。这很重要,因为在清理数据时需要以不同的方式处理它们。

清理简单列表:基本方法

让从最常见的任务开始:从常规 Python 列表中删除 NaN。将研究两种方法来实现这一点,并且将准确解释为什么代码的每个部分都很重要:

import math

# Create a test list with some NaN values mixed in
data = [1, float('nan'), 3, math.nan, 5, None]

# Method 1: Remove just NaN values
cleaned = [x for x in data if not (isinstance(x, float) and math.isnan(x))]
print(cleaned)  # [1, 3, 5, None]

# Method 2: Remove both NaN and None values
cleaned = [x for x in data if not (isinstance(x, float) and math.isnan(x)) and x is not None]
print(cleaned)  # [1, 3, 5]

让我们详细分析一下这段代码的作用:

1. `isinstance(x, float)` 检查每个值是否是浮点数
— 我们需要这个,因为只有浮点值可以是 NaN
— 如果我们跳过此检查,我们将收到非数字值的错误

2. `math.isnan(x)` 检查浮点数是否为 NaN
— 这只适用于浮点值
— 这就是为什么我们首先需要 isinstance 检查

3. `x is not None` 检查 None 值
— 我们使用 `is` 而不是 `==`,因为 None 是一个特殊的 Python 对象
— 这是检查 None 的正确方法

使用 NumPy:更快、更强大

当您处理更大的数据集时,NumPy 让生活变得更加轻松。使用方法如下:

import numpy as np

# Create a NumPy array with NaN values
arr = np.array([1, np.nan, 3, np.nan, 5, None])

# Method 1: Using np.isnan (fastest method)
cleaned = arr[~np.isnan(arr)]
print(cleaned)  # [1. 3. 5.]

# Method 2: Using pandas (more flexible)
import pandas as pd
cleaned = pd.Series(arr).dropna().values
print(cleaned)  # [1. 3. 5.]

# Method 3: Replace NaN with zeros (or any other value)
filled = np.nan_to_num(arr, nan=0)
print(filled)  # [1. 0. 3. 0. 5. 0.]

以下是每种方法都很有用的原因:

1. `np.isnan(arr)`:
— 为每个值创建 True/False 掩码
— ‘~’ 将 True 翻转为 False,反之亦然
— 对于大型阵列来说非常快
— 适用于数值数据

2. `pd.Series(arr).dropna()`:
— 更灵活 — 处理不同类型的缺失数据
— 适合复杂的数据结构
— 速度稍慢但功能更丰富

3.`np.nan_to_num()`:
— 替换 NaN 而不是删除它
— 当您需要保持相同的数组大小时很有用
— 可以指定自定义替换值

现实示例:清理传感器数据

让我们看一个您在现实生活中可能遇到的实际示例 - 清理传感器中的数据:

import numpy as np
import pandas as pd
from datetime import datetime, timedelta

def clean_sensor_data(readings):
    """Clean sensor readings and provide detailed statistics"""
    
    # Convert the readings to a numpy array
    data = np.array(readings, dtype=float)
    
    # Gather information about the data
    total_readings = len(data)
    nan_count = np.isnan(data).sum()
    
    # Remove NaN values
    cleaned_data = data[~np.isnan(data)]
    
    # Calculate useful statistics
    stats = {
        'original_count': total_readings,    # How many readings we started with
        'nan_count': nan_count,             # How many NaN values we found
        'clean_count': len(cleaned_data),   # How many readings remain
        'nan_percentage': (nan_count/total_readings) * 100,  # Percentage of bad data
        'mean': np.mean(cleaned_data),      # Average reading
        'std': np.std(cleaned_data)         # How much readings vary
    }
    
    return cleaned_data, stats

# Test the function with some sample sensor data
sensor_readings = [
    23.5, np.nan, 24.1, 23.8, np.nan,
    24.3, 23.9, np.nan, 24.0, 23.7
]

cleaned, stats = clean_sensor_data(sensor_readings)

print("Cleaned sensor data:", cleaned)
print("\nDetailed Statistics:")
for key, value in stats.items():
    print(f"{key}: {value:.2f}")

这个函数做了几件重要的事情:
1. 将数据转换为 NumPy 数组以加快处理速度
2. 计算缺失的读数数量
3. 删除所有 NaN 值
4. 计算有关数据的有用统计数据
5. 以有组织的方式返回清理后的数据和统计数据

处理嵌套列表(列表中的列表)

有时,列表中会有列表,删除 NaN 值会变得更加棘手。这是一个强大的解决方案:

import math
import numpy as np

def clean_nested_list(nested_data):
    """Remove NaN values from lists within lists"""
    
    # If we're looking at a list, process each item in it
    if isinstance(nested_data, list):
        # Process each item, but only keep non-NaN values
        return [
            clean_nested_list(item) 
            for item in nested_data 
            if not (isinstance(item, float) and math.isnan(item))
            and item is not None
        ]
    
    # If it's not a list, return it unchanged
    return nested_data

# Test with a complex nested structure
nested_data = [
    [1, float('nan'), [3, None]],
    [math.nan, 5, [6, float('nan')]],
    [7, [8, None, 9]]
]

cleaned = clean_nested_list(nested_data)
print("Cleaned nested data:")
print(cleaned)
# Output: [[1, [3]], [5, [6]], [7, [8, 9]]]

这个递归函数:
1. 检查每个项目本身是否是一个列表
2.如果是列表,则处理其中的每一项
3.如果不是列表,检查是否为NaN
4. 构建一个新的干净列表,删除所有 NaN 值

使用时间序列数据:详细方法

时间序列数据(随时间变化的数据点)需要特殊处理,因为数据点的顺序和间距很重要。以下是正确处理的方法:

import pandas as pd
import numpy as np
from datetime import datetime, timedelta

# Create realistic time series data with some missing values
dates = pd.date_range(start='2024-01-01', periods=10, freq='H')
temperatures = [23.5, np.nan, 24.1, 23.8, np.nan, 24.3, 23.9, np.nan, 24.0, 23.7]

# Create a DataFrame (a table-like structure)
df = pd.DataFrame({
    'timestamp': dates,
    'temperature': temperatures
})

# Method 1: Simply drop NaN values
cleaned_drop = df.dropna()

# Method 2: Fill NaN with the previous value (forward fill)
cleaned_ffill = df.fillna(method='ffill')

# Method 3: Fill NaN by estimating between points (interpolation)
cleaned_interp = df.copy()
cleaned_interp['temperature'] = df['temperature'].interpolate()

# Print all versions to compare
print("Original Data:")
print(df)
print("\nAfter Dropping NaN:")
print(cleaned_drop)
print("\nAfter Forward Filling:")
print(cleaned_ffill)
print("\nAfter Interpolation:")
print(cleaned_interp)

让我们详细了解每个方法:

1. `dropna()`:
— 简单地删除带有 NaN 的行
— 当您不需要每个时间戳的值时最好
— 保持数据准确性,但丢失时间点

2. `fillna(method='ffill')`:
— 向前复制最后一个有效值
— 适用于偶尔会丢失读数的传感器
— 假设条件保持不变直到下一次读数

3.`插值()`:
— 根据周围点估计缺失值
— 最适合温度等平滑变化的值
— 创建比前向填充更现实的估计

性能测试:哪种方法最快?

1.NumPy方法:
— 对于简单的数值数据通常最快
— 最适合大型阵列
— 仅限于数字数据

2. 列表理解:
— 适合小列表
— 数据类型更加灵活
— 列表越大,速度越慢

3. 熊猫方法:
— 比 NumPy 稍慢
— 更多功能和灵活性
— 更适合复杂的数据结构

常见错误以及如何避免它们

以下是人们在处理 NaN 值时最常犯的错误以及如何修复这些错误:

# Mistake 1: Not checking data types first
data = [1, float('nan'), '3', np.nan]  # Mixed types

# Wrong way (will crash):
try:
    cleaned = [x for x in data if not math.isnan(x)]
except TypeError as e:
    print(f"Error: {e}")

# Right way:
cleaned = [x for x in data 
          if not (isinstance(x, float) and math.isnan(x))]
print("Correctly cleaned:", cleaned)

# Mistake 2: Losing data structure in pandas
import pandas as pd
df = pd.DataFrame({
    'A': [1, np.nan, 3], 
    'B': [4, 5, 6]
})

# Wrong way (loses DataFrame structure):
wrong_clean = df.values[~np.isnan(df.values)]
print("\nWrong way shape:", wrong_clean.shape)

# Right way (keeps DataFrame structure):
right_clean = df.dropna()
print("Right way shape:", right_clean.shape)

为什么这些错误很重要:

1. 不检查类型:
— NaN 仅对浮点数有效
— 尝试检查其他类型会导致错误
— 始终首先使用 isinstance() 检查类型

2.丢失数据结构:
— 一些清理方法会破坏您的数据组织
— 列之间的重要关系可能会丢失
— 使用保留数据结构的方法

最佳实践总结

以下是使用每种方法的时机:

1. 在以下情况下使用列表理解:
— 使用简单的 Python 列表
— 处理混合数据类型
— 列表相对较小(< 10,000 项)

2. 在以下情况下使用 NumPy:
— 仅处理数值数据
— 需要快速处理
— 处理大型数据集
— 所有数据都是同一类型

3. 在以下情况下使用 Pandas:
— 处理表格数据
— 需要保留数据结构
— 想要更复杂的清洁选项
— 处理时间序列数据

记住:
- 始终首先检查您的数据类型
- 考虑 NaN 值是否意味着重要的事情
- 选择保留重要数据关系的方法
- 使用特定数据大小测试性能

现在,您拥有在任何 Python 数据结构中有效处理 NaN 值所需的所有工具。关键是为您的具体情况和数据类型选择正确的方法。

相关文章

15个例子掌握Python列表,集合和元组

Python中的一切都是对象。每个对象都有自己的数据属性和与之关联的方法。为了有效和恰当地使用一个对象,我们应该知道如何与它们交互。列表、元组和集合是三种重要的对象类型。它们的共同点是它们都被用作数据...