K-mean聚类(k-mean聚类 腰围和血压血糖)
首先再补充一下昨天的主成分分析,给大家补充的是通过sklenrn库如何使用主成分分析的。python自带的机器学习包里面包含了很多种常见的算法,给那些不是学习计算机的同学也能够方便的使用算法进行分析。
from sklearn.decomposition import PCA #导入机器学习包里面的PCA主成分分析
pca=PCA(n_components=0.95)#设置主成分分析的参数,其中这里设置是累计贡献度95%
pca.fix(x)#导入数据使用主成分分析
Y=pca.transform(X)#提取主成分,也就是昨天所说的Y
训练后的pca对象中还有我们昨天通过一步步计算出来的属性。components_特征向量,explained_variance_特征值等等。具体属性大家可以查看源代码。
K-mean聚类原理
今天给大家分享一下K-mean聚类的代码。K-mean聚类是属于无监督学习的一种数据挖掘算法。K-mean聚类的原理其实非常简单,就是计算距离,距离哪个聚类点近就归为哪一个聚类点。聚类点的个数由测试者自行决定,至于聚类点的个数应该选多少个我也不太清楚(哈哈哈)。其次聚类点的更新是由后面加入点决定的,简单来说就是如果这一类有5个,那么就是距离这5个距离相加起来最近的位置的点即为新的距离中心点。就比如以下图片,图片中5个点距离最近的中心点即为新的聚类点(也可以成为质心)。
距离的计算方法有很多种,比如欧几里得聚类、曼哈顿聚类、切比雪夫聚类等等,甚至你还可以自己设置如何计算,通常都是使用第一个。
K-mean聚类代码
直接使用机器学习包中的KMeans模块即可。
from sklearn.cluster import KMeans
model=KMeans(n_clusters='聚类个数',random_state=0,max_iter='迭代次数')
model.fix(x)#训练数据
c=model.labels_#保存聚类结果
每日日语语法:
これ それ あれ用法。
以上意思均相当于中文的:这个、那个、那个。
これ距离说话人较近的物体或事物。
それ距离听说话人较近的物体或事物。
あれ距离两个人较远的物体或事物。