无监督学习
介绍
无监督学习允许我们在处理问题时几乎不知道结果应该是什么样子,我们可以从数据中获得结构,而不必知道变量的作用。我们可以根据数据中变量之间的关系对数据进行聚类,从而得到这种结构。在无监督学习中,没有基于预测结果的反馈。也就是说,机器可以在你提供的数据中主动的去分析,总共有几类?哪些数据属于什么类?
有监督学习像老师批改作业:每道题都有标准答案,模型猜错了能扣分、能改。
无监督学习更像把一堆未标记的卷子扔给你:没人告诉你对错,你只能自己看,能不能分出几类、有没有规律。
典型任务
聚类(Clustering)
把相似样本归到同一组。经典算法是 K-Means:事先指定要分 K 类,迭代更新簇中心和样本归属。
例子:
- 用户行为日志,按访问习惯分群做运营
- 没有品类标签的商品,按销量/价格/属性自动分组
难点在于 K 设多少、簇有没有业务含义,往往要人再看一眼。
降维(Dimensionality Reduction)
特征太多时,先压缩到 2~3 维方便可视化,或去掉冗余维度。PCA 是课本常客。
例子:几十维的问卷数据压成两个主成分,画散点图看有没有明显团块。
异常检测
没有「异常」标签时,先学正常数据的分布,偏离太远的点标出来。机房监控、刷卡欺诈里常见。
和有监督学习的对比
| 有监督 | 无监督 | |
|---|---|---|
| 标签 | 有 y | 没有 y |
| 目标 | 预测标签或连续值 | 发现结构 |
| 评价 | 准确率、MSE 等 | 更依赖业务解释 |
| 例子 | 房价预测、垃圾邮件分类 | 客户分群、主题发现 |
站内 有监督学习中的回归问题与分类问题 讲的是另一条线;两篇可以对着看。
使用时的清醒认识
无监督不会 magically 告诉你「正确答案」。聚类分出来三类,不代表现实世界就真的该三类——可能是算法参数、特征选取带来的划分。
所以流程通常是:算法先给一个结构 → 人结合业务命名、验证、迭代。
如果你手里已经有明确标签,却硬上无监督,多半是在绕远路。反过来,标签贵、标签慢、标签根本不存在时,无监督才是正经选项。
版权声明: 本文首发于 指尖魔法屋-无监督学习(https://blog.thinkmoon.cn/post/629_%E6%97%A0%E7%9B%91%E7%9D%A3%E5%AD%A6%E4%B9%A0/) 转载或引用必须申明原指尖魔法屋来源及源地址!