【Python机器学习系列】拟合和回归傻傻分不清?一文带你彻底搞懂

liftword4个月前 (01-11)技术文章26

一、拟合和回归的区别

拟合并不特指某一种方法,指的是对一些数据,按其规律方程化,比如把平面(一元)上一系列的离散点,用一条直线(线性)或光滑的曲线(非线性)连接起来,而其方程化的方法有很多,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,是其中一种最常见的拟合方法,还有指数平滑这样简单一些的方法,或者ARIMA,VAR,等等各种复杂一点的方法。

从离散点的角度看,它们都有靠近某条曲线的趋势,所以这些点都在朝曲线拟合,从曲线的角度看,那些离散点都在向自己靠拢,所以这些点都在回归到曲线。所以拟合表示离散点(可以拓展到高维特征)与某个曲线方程(可以拓展到模型)的偏差小(目标),回归表示如何找到这样的曲线方程或模型(方法

本文主要讲解拟合和回归这两个概念的区别和联系,对回归拟合的方法进行分类与总结,重点介绍了一元回归拟合的几种实现方法,关于多元回归拟合其实就是机器学习中的回归任务建模了,我后期会出案例分析!

二、回归拟合的分类

  • 采用回归的方法,拟合出自变量x和因变量y之间存在的关系(方程或模型):
    • 根据自变量数量,可以分为一元回归和多元回归;
    • 按照方法可以分为统计回归模型和机器学习回归模型;
    • 按照因变量的多少,可分为简单回归分析和多重回归分析;
    • 按照自变量和因变量之间的关系类型,可分为线性回归和非线性回归。

对于简单回归拟合(即只有一个因变量),可以进一步做以下分类:

  • 对于单自变量-----一元回归拟合
    • 一元线性回归拟合:y = ax + b
    • 一元非线性回归拟合:
      • 特征转化:通过应用非线性变换来改变特征的表示形式,比如取X的对数X’ = Ln(X),然后进行一元回归y=aX’
      • 多项式拟合:可以看成一种多元线性拟合,将其看为有n个特征的多元线性拟合, x为一个特征,x的平方为一个特征……
      • 其他函数拟合:指数函数、对数函数拟合等...
      • 机器学习拟合:采样神经网络(隐含层大于1)、树模型等进行拟合
  • 对于多自变量-------多元回归拟合
    • 多元线性回归拟合:y = a1x1 + a2x2 +a3x3 + ...
    • 多元非线性回归拟合(机器学习...)

三、一元线性回归拟合

准备数据

x=np.array([1,2,3,4,5,6.5,7,8])
y=np.array([1,4,9,13,30,25,49,70])

3.1 法一:np.polyfit

np.polyfit 是 NumPy 库中的一个函数,用于多项式拟合。它可以根据给定的数据点,拟合出一个多项式函数,返回拟合的系数。

a=np.polyfit(x,y,1)#用1次多项式拟合x,y数组
print(a)
b=np.poly1d(a)#拟合完之后用这个函数来生成多项式对象
print(b)
c=b(x)#生成多项式对象之后,就是获取x在这个多项式处的值
plt.scatter(x,y,marker='o',label='original datas')#对原始数据画散点图
plt.plot(x,c,ls='--',c='red',label='fitting with second-degree polynomial')#对拟合之后的数据,也就是x,c数组画图
plt.legend()
plt.show()

a是系数:[ 8.83917084 -15.20371694]

b是方程:8.839 x - 15.2

3.2 法二:sklearn里面的LinearRegression()

# 定义回归模型
reg = LinearRegression()
x = np.array(x).reshape((len(x), 1))
reg.fit(x, y)
print(reg.coef_)
print(reg.intercept_)
plt.plot(x, y, 'b.')
plt.plot(x, reg.predict(x),'r')
plt.show()

将一元视为多元回归的一种特殊情况,即只有一个特征。

系数:reg.coef_:[8.83917084]

截距:reg.intercept_:-15.203716940671903

3.3 法三:curve_fit

curve_fit 是 SciPy 库中的一个函数,用于非线性曲线拟合。它可以根据给定的数据点和一个自定义的模型函数,拟合出最优的参数值,并返回拟合的参数以及协方差矩阵。

# 定义一个一元线性方程,变量一定要放在第一个位置
def func(x, a, b):
    return a * x + b

popt, pcov = curve_fit(func, x, y)
print(popt)  # 参数最佳值
y2 = func(x, popt[0], popt[1])
plt.scatter(x, y, marker='x', lw=1, label='原始数据')
plt.plot(x, y2, c='r', label='拟合曲线')
plt.legend()  # 显示label
plt.show()

最佳系数:popt:[ 8.83917082 -15.20371685]

四、一元多项式回归拟合(以2次多项式为例)

准备数据

x=np.array([1,2,3,4,5,6.5,7,8])
y=np.array([1,4,9,13,30,25,49,70])

4.1 法一:np.polyfit

a=np.polyfit(x,y,2)#用2次多项式拟合x,y数组
print(a)
b=np.poly1d(a)#拟合完之后用这个函数来生成多项式对象
print(b)
c=b(x)#生成多项式对象之后,就是获取x在这个多项式处的值
plt.scatter(x,y,marker='o',label='original datas')#对原始数据画散点图
plt.plot(x,c,ls='--',c='red',label='fitting with second-degree polynomial')#对拟合之后的数据,也就是x,c数组画图
plt.legend()
plt.show()

系数:[ 1.34960956 -3.36567929 5.01148555]

4.2 法二:sklearn里面的LinearRegression()

# 定义多项式回归, degree的值可以调节多项式的特征
poly_reg = PolynomialFeatures(degree=2)
# 特征处理
x = np.array(x).reshape((len(x), 1))
x_poly = poly_reg.fit_transform(x)
print(x_poly)
# 定义回归模型
reg = LinearRegression()
reg.fit(x_poly, y)
print(reg.coef_)
print(reg.intercept_)
plt.plot(x, y, 'b.')
plt.plot(x, reg.predict(x_poly), 'r')
plt.show()

系数:[ 0. -3.36567929 1.34960956]

截距:5.011485554320338

4.3 法三:curve_fit

# 定义一个二次多项式,变量一定要放在第一个位置
def func(x, a, b, c):
    return a * x ** 2 + b*x + c

popt, pcov = curve_fit(func, x, y) 
print(popt)  
y2 = func(x, popt[0], popt[1])
plt.scatter(x, y, marker='x', lw=1, label='原始数据')
plt.plot(x, y2, c='r', label='拟合曲线')
plt.legend()  # 显示label
plt.show()

系数:[ 1.34960956 -3.36567929 5.01148555]

五、一元其他函数回归拟合(指数函数为例)

准备数据

x=np.array([1,2,3,4,5,6.5,7,8])
y=np.array([1,4,9,13,30,25,49,70])

5.1 法:curve_fit

# 自定义一个想拟合的目标函数,变量一定要放在第一个位置
def func(x, a, b):
    return a * np.exp(x * b)

popt, pcov = curve_fit(func, x, y) 
print(popt)  # 即参数最佳值
y2 = func(x, popt[0], popt[1])
plt.scatter(x, y, marker='x', lw=1, label='原始数据')
plt.plot(x, y2, c='r', label='拟合曲线')
plt.legend()  # 显示label
plt.show()

系数:[2.47762425 0.41535845]

好了,本篇内容就到这里,我们下期再见!需要数据集和源码的小伙伴可以关注联系我!

原文链接:

【Python机器学习系列】拟合和回归傻傻分不清?一文带你彻底搞懂它

作者简介:

读研期间发表6篇SCI数据挖掘相关论文,现在某研究院从事数据算法相关科研工作,结合自身科研实践经历不定期分享关于Python、机器学习、深度学习、人工智能系列基础知识与应用案例。致力于只做原创,以最简单的方式理解和学习,关注我一起交流成长。

相关文章

Python数学建模系列(四):数值逼近

若文中数学公式显示有问题 可查看文章原文Python数学建模系列(四):数值逼近菜鸟学习记:第四十二天1. 一维插值插值:求过已知有限个数据点的近似函数。插值函数经过样本点,拟合函数一般基于最小二乘法...

用拟合来简化规范公式

简化计算时,拟合是一个好帮手。规范公式拟合的例子《GB 50009-2012:建筑结构荷载规范》第8.4.6条。脉动风荷载水平方向相关系数:脉动风荷载竖直方向相关系数:相比规范公式,拟合公式更容易看出...

python pytorch 深度学习神经网络 线性回归学习笔记

#暑期创作大赛#深度学习网络,是由多层神经元组成的,上一层的输出是下一层的输入,线性神经网络可以作为深度学习中的一层神经元。由于线性神经网络的结构简单,可以作为单层使用,非常适合用他来学习神经网络的构...

数据分析-对数回归分析Python

昨天开始回归系列的第一篇,是最简单的一元线性回归。除了线形关系,还有各种非线性关系,比如指数关系、对数关系、多项式关系,这些都要使用对相应的数据变换后才能进行分析。今天就从对数分析开始,来进行演示说明...

如何使用Python实现简单的线性回归

前言线性回归是一种常见的机器学习算法,用于预测一个连续型的输出变量。它基于线性关系来建立一个输入变量和输出变量之间的关系模型。在这篇文章中,我们将介绍如何使用Python实现简单的线性回归模型。安装相...