无监督学习

作者: 醉月思发布日期: 2019-12-09 分类: 学习笔记

介绍

无监督学习允许我们在处理问题时几乎不知道结果应该是什么样子，我们可以从数据中获得结构，而不必知道变量的作用。我们可以根据数据中变量之间的关系对数据进行聚类，从而得到这种结构。在无监督学习中，没有基于预测结果的反馈。也就是说，机器可以在你提供的数据中主动的去分析，总共有几类？哪些数据属于什么类？

有监督学习像老师批改作业：每道题都有标准答案，模型猜错了能扣分、能改。

无监督学习更像把一堆未标记的卷子扔给你：没人告诉你对错，你只能自己看，能不能分出几类、有没有规律。

把相似样本归到同一组。经典算法是 K-Means：事先指定要分 K 类，迭代更新簇中心和样本归属。

例子：

难点在于 K 设多少、簇有没有业务含义，往往要人再看一眼。

特征太多时，先压缩到 2～3 维方便可视化，或去掉冗余维度。PCA 是课本常客。

例子：几十维的问卷数据压成两个主成分，画散点图看有没有明显团块。

没有「异常」标签时，先学正常数据的分布，偏离太远的点标出来。机房监控、刷卡欺诈里常见。

站内有监督学习中的回归问题与分类问题讲的是另一条线；两篇可以对着看。

无监督不会 magically 告诉你「正确答案」。聚类分出来三类，不代表现实世界就真的该三类——可能是算法参数、特征选取带来的划分。

所以流程通常是：算法先给一个结构 → 人结合业务命名、验证、迭代。

如果你手里已经有明确标签，却硬上无监督，多半是在绕远路。反过来，标签贵、标签慢、标签根本不存在时，无监督才是正经选项。

版权声明: 本文首发于指尖魔法屋-无监督学习（https://blog.thinkmoon.cn/post/629_%E6%97%A0%E7%9B%91%E7%9D%A3%E5%AD%A6%E4%B9%A0/）转载或引用必须申明原指尖魔法屋来源及源地址！