【Python时序数据系列】基于GRU模型时序数据二分类(案例+源码)

这是我的第371篇原创文章。

一、引言

前面我介绍了单变量时序预测和多变量时序预测,都是回归任务。

相关链接:时序预测系列文章

本文将介绍时序分类任务-基于GRU模型进行时序数据二分类。

二、实现过程

2.1 准备数据

df1 = pd.read_table("train-small.txt",sep=',',header=0)
df1 = df1.iloc[:10000,:]
# 将Time (UTC)列设置为索引
df1.set_index('Time (UTC)', inplace=True)

df1:

2.2 归一化

min_max_scaler = preprocessing.MinMaxScaler()
df0 = min_max_scaler.fit_transform(df1)
df1 = pd.DataFrame(df0, columns=df1.columns)

2.3 构造标签列

计算close的变化,构造label:

record=(df1['Close'][1:].values-df1['Close'][0:-1].values)>0
classification=[0]
for i in record:
    if(i==True):
        classification.append(1)
    else:
        classification.append(0)


df1['label']=classification
df1.insert(0, 'label', df1.pop('label'))
fea_num = len(df1.columns)
print(df1)

df1:

2.4 数据划分

8比2划分数据集:

df = df1
test_split = round(len(df)*0.20)
print(test_split)
df_for_training=df[:-test_split]
df_for_testing=df[-test_split:]
df_for_training=df_for_training.values
df_for_testing=df_for_testing.values

2.5 数据转换

设置滑动窗口为2:

window_size = 2
trainX,trainY=createXY(df_for_training,window_size)
testX,testY=createXY(df_for_testing,window_size)


# 将数据集转换为 LSTM 模型所需的形状(样本数,时间步长,特征数)
trainX = np.reshape(trainX, (trainX.shape[0], window_size, fea_num))
testX = np.reshape(testX, (testX.shape[0], window_size, fea_num))


print("trainX Shape-- ",trainX.shape)
print("trainY Shape-- ",trainY.shape)
print("testX Shape-- ",testX.shape)
print("testY Shape-- ",testY.shape)

数据形状:

2.6 模型训练

建立GRU模型,进行训练:

model = Sequential([
    GRU(80, return_sequences=True),
    Dropout(0.2),
    GRU(100),
    Dropout(0.2),
    Dense(1, activation='sigmoid')
])


model.compile(loss='binary_crossentropy',optimizer='adam',metrics=['accuracy'])
history = model.fit(trainX, trainY, epochs = 20, batch_size = 200,validation_data=(testX, testY))

迭代loss曲线:

迭代accuracy曲线:

2.7 模型评估

y_test_predict=model.predict(testX)
y_test_predict=y_test_predict[:,0]
print(y_test_predict)
print(y_test_predict>0.5)
y_test_predict=[int(i) for i in y_test_predict>0.5]
y_test_predict=np.array(y_test_predict)


print("精确度等指标:")
print(metrics.classification_report(testY,y_test_predict))

classification_report:

混淆矩阵:

作者简介: 读研期间发表6篇SCI数据算法相关论文,目前在某研究院从事数据算法相关研究工作,结合自身科研实践经历持续分享关于Python、数据分析、特征工程、机器学习、深度学习、人工智能系列基础知识与案例。关注gzh:数据杂坛,获取数据和源码学习更多内容。

原文链接:

【Python时序数据系列】基于GRU模型实现时序数据二分类(案例+源码)

相关文章

怎样用Python进行数据转换和归一化

怎样用Python进行数据转换和归一化 1、概述 实际的数据库极易受到噪声、缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异种数据源,低质量的数据将会导致低质量的数据分析结果,大量的数据...

提升数据质量的秘密武器:最小-最大归一化全揭秘

最小-最大归一化(Min-Max Normalization)是一种常见的数据预处理技术,用于将特征数据缩放到一个固定的范围(通常是[0, 1])。这种归一化方法通过将数据按比例缩放,使得数据集的最小...

python对音频的处理

首先,我们需要 import 几个工具包,一个是 python 标准库中的 wave 模块,用于音频处理操作,另外两个是 numpy 和 matplot,提供数据处理函数一:读取本地音频数据处理音频第...

再见了,Python~

这几天,很多同学问到,关于Python数据分析方面的操作。用起来头疼,需要不断的查询。所以,今天给大家总结了100个最最核心的操作。如果再遇到问题,这里直接查看,超级方便,基本日常使用的都有了~需要本...

在Python中将函数作为参数传入另一个函数中

在我们的Python学习中,我们学到的众多令人瞠目结舌的事实之一是,你可以将函数传入其他函数。你可以来回传递函数,因为在Python中,函数是对象。在使用Python的第一周,你可能不需要了解这些,但...

机器学习-逻辑回归分析(Python)

前言回归和分类方法是机器学习中经常用到的方法一、分类与回归1.1什么是分类和回归区分回归问题和分类问题:回归问题:输入变量和输出变量均为连续变量的问题;分类问题:输出变量为有限个离散变量的问题。因此分...