机器学习入坑指南(二):数据预处理

liftword1个月前 (03-30)技术文章6

机器学习初步:数据预处理

机器学习离不开大量的数据。在对这些数据进行分析前,我们先学习一下在 Python 中如何导入数据并对它进行预处理。

1 导入需要的库

利用 Python 进行数据分析所必须的库有两个。

NumPy 包含了各种数学计算函数。

Pandas 用于导入和管理数据集。

通常我们使用以下形式导入这两个库:

import numpy as np

import pandas as pd

1

2

2 导入数据集

数据集通常是 .csv 格式。CSV 以纯文本形式保存表格数据,文件的每一行是一条数据记录。我们使用 Pandas 的 read_csv 方法读取本地 .csv 文件作为一个数据帧(dataframe),然后从数据帧中制作自变量和因变量的矩阵和向量。

示例数据地址:GitHub -
Avik-Jain/100-Days-Of-ML-Code/datasets

可将数据下载到本地,放在 Jupyter Notebook 工作目录下,或通过 upload 导入。

dataset = pd.read_csv(Data.csv)

# X 获取所有行从第0列到倒数第1列的数据(从0起算)

X = dataset.iloc[ : ,:-1].values

# Y 获取所有行第3列的数据

Y = dataset.iloc[ : , 3].values

1

2

3

4

5

iloc 的作用是通过行列号来获取数据,而 loc 则是通过标签索引数据。

导入后,dataset 的数据如下

3 处理丢失数据

我们得到的数据可能由于各种原因存在缺失。为了不降低机器学习模型的性能,我们可以通过一些方法处理这些数据,比如使用整列数据的平均值或中位数来替换丢失的数据。

可以使用 sklearn.preprocessing 库中的 Imputer 类来完成这项任务。

from sklearn.preprocessing import Imputer

imputer = Imputer(missing_values = "NaN", strategy = "mean", axis = 0)

# 训练模型,拟合出作为替换值的均值

imputer = imputer.fit(X[ : , 1:3])

# 处理需要补全的数据

X[ : , 1:3] = imputer.transform(X[ : , 1:3])

1

2

3

4

5

6

Imputer 参数解释:

missing_values:缺失值,可以为整数或 NaN ,默认为 NaN

strategy:替换策略,默认用均值 ‘mean’ 替换,还可以选择中位数 ‘median’ 或众数 ‘most_frequent’

axis:指定轴数,默认 axis = 0 代表列,axis = 1 代表行

4 解析分类数据

分类数据是具有标签值而不是数值的变量,取值范围通常固定(类似枚举值),不能用于模型的数学计算,需要解析成数字。为实现这个功能,我们从 sklearn.preprocessing 库中导入 LabelEnconder 类。

经过编码之后的变量称为虚拟变量或哑变量(Dummy Variable)

from sklearn.preprocessing import LabelEncoder, OneHotEncoder

labelencoder_X = LabelEncoder()

# 对 X 中的标签数据编码

X[ : , 0] = labelencoder_X.fit_transform(X[ : , 0])

# 使用 onehotencoder 对经过标签编码的第0行数据进行独热编码

onehotencoder = OneHotEncoder(categorical_features = [0])

X = onehotencoder.fit_transform(X).toarray()

# 对 Y 中的标签数据编码

labelencoder_Y = LabelEncoder()

Y = labelencoder_Y.fit_transform(Y)

1

2

3

4

5

6

7

8

9

10

关于独热编码,参考博客园 - OneHotEncoder独热编码和 LabelEncoder标签编码

5 分割数据集

我们需要把数据集拆分成用来训练模型的训练集和用来验证模型的测试集。两者的比例一般是 80:20。这里需要导入 sklearn.crossvalidation 库中的 train_test_split()方法。

from sklearn.cross_validation import train_test_split

# 分割数据集

X_train, X_test, Y_train, Y_test = train_test_split( X , Y , test_size = 0.2, random_state = 0)

1

2

3

6 特征缩放

许多机器学习算法在计算中使用数据点之间的欧氏距离,数据的某一特征值的量级在很大程度上决定了距离的大小。(特征缩放作用的体现参见 lwbeyond 的文章—— K-近邻算法 )

因此,应该把每个特征的取值限定在某一范围内,称为特征缩放。常用的方法有调节比例、标准化等。这里我们导入 sklearn.preprocessing 库的 StandardScalar 类。

from sklearn.preprocessing import StandardScaler

sc_X = StandardScaler()

X_train = sc_X.fit_transform(X_train)

X_test = sc_X.fit_transform(X_test)

1

2

3

4

————————————————

版权声明:本文为CSDN博主「Evan-Nightly」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。

原文链接:
https://blog.csdn.net/Neuf_Soleil/article/details/81604768

相关文章

DeepSeek多格式文档处理实战指南:从Markdown到Word表格预处理

一、Markdown与HTML文件的天然优势解析1. 结构解析的正确率实证在医疗信息化场景的实战测试中,DeepSeek对Markdown文件的字段识别准确率达到98.7%,HTML文件解析准确率则为...

Python 数据可视化:使用 Matplotlib 和 Pandas 实现动态数据分析

一、引言在当今时代,数据可视化已经成为数据处理和分析的重要手段。通过将数据以图形的形式呈现,我们可以更直观地理解数据,发现数据之间的关联,以及预测未来的趋势。Python 作为一种广泛应用于数据分析和...

Python在工控领域的应用与优势

前言之前利用Python编写了一些S7系列的PLC调试工具和组态开发,今天就具体讲讲Python在工控领域还有哪些应用与优势。Python在工业控制工控领域的应用逐渐增多,得益于其简洁的语法、丰富的生...

使用Python实现制造过程优化:从数据采集到智能决策

阅读文章前辛苦您点下“关注”,方便讨论和分享,为了回馈您的支持,我将每日更新优质内容。如需转载请附上本文源链接!在现代制造业中,优化制造过程是提高生产效率、降低成本和提升产品质量的关键。通过数据分析和...

Python实现数值型与字符型类别变量的独热编码One-hot Encoding

在数据处理与分析领域,数值型与字符型类别变量的编码是不可或缺的预处理操作。本文基于Python下OneHotEncoder与pd.get_dummies两种方法,对机器学习中最优的编码方法——独热...