无监督学习

介绍

无监督学习允许我们在处理问题时几乎不知道结果应该是什么样子,我们可以从数据中获得结构,而不必知道变量的作用。我们可以根据数据中变量之间的关系对数据进行聚类,从而得到这种结构。在无监督学习中,没有基于预测结果的反馈。也就是说,机器可以在你提供的数据中主动的去分析,总共有几类?哪些数据属于什么类?

有监督学习像老师批改作业:每道题都有标准答案,模型猜错了能扣分、能改。

无监督学习更像把一堆未标记的卷子扔给你:没人告诉你对错,你只能自己看,能不能分出几类、有没有规律

典型任务

聚类(Clustering)

把相似样本归到同一组。经典算法是 K-Means:事先指定要分 K 类,迭代更新簇中心和样本归属。

例子:

  • 用户行为日志,按访问习惯分群做运营
  • 没有品类标签的商品,按销量/价格/属性自动分组

难点在于 K 设多少、簇有没有业务含义,往往要人再看一眼。

降维(Dimensionality Reduction)

特征太多时,先压缩到 2~3 维方便可视化,或去掉冗余维度。PCA 是课本常客。

例子:几十维的问卷数据压成两个主成分,画散点图看有没有明显团块。

异常检测

没有「异常」标签时,先学正常数据的分布,偏离太远的点标出来。机房监控、刷卡欺诈里常见。

和有监督学习的对比

有监督无监督
标签y没有 y
目标预测标签或连续值发现结构
评价准确率、MSE 等更依赖业务解释
例子房价预测、垃圾邮件分类客户分群、主题发现

站内 有监督学习中的回归问题与分类问题 讲的是另一条线;两篇可以对着看。

使用时的清醒认识

无监督不会 magically 告诉你「正确答案」。聚类分出来三类,不代表现实世界就真的该三类——可能是算法参数、特征选取带来的划分。

所以流程通常是:算法先给一个结构 → 人结合业务命名、验证、迭代。

如果你手里已经有明确标签,却硬上无监督,多半是在绕远路。反过来,标签贵、标签慢、标签根本不存在时,无监督才是正经选项。

版权声明: 本文首发于 指尖魔法屋-无监督学习https://blog.thinkmoon.cn/post/629_%E6%97%A0%E7%9B%91%E7%9D%A3%E5%AD%A6%E4%B9%A0/) 转载或引用必须申明原指尖魔法屋来源及源地址!