机器学习引言

1. 监督学习
监督学习的特点是数据有标注,即每个输入数据都有明确的目标(标签)或期望的输出。模型的目标是学习输入与输出之间的映射关系。

常见的监督学习算法

• 线性回归、逻辑回归

• 支持向量机(SVM)

• 决策树、随机森林、梯度提升树(如 XGBoost、LightGBM)

• 人工神经网络(ANN)

• 深度学习(如卷积神经网络 CNN、循环神经网络 RNN)

监督学习的适用场景

  1. 分类任务

• 输入数据被划分为多个类别,目标是预测输入数据属于哪一类。

典型应用

图像分类:识别图片中的物体(如猫狗分类、人脸识别)。

文本分类:垃圾邮件检测、情感分析(正面或负面情绪)。

语音识别:将语音转化为文本。

  1. 回归任务

• 目标变量是连续的数值,模型输出一个具体的数值。

典型应用

房价预测:根据房屋面积、位置等信息预测房价。

股票价格预测:基于历史数据预测未来的股票价格。

能源消耗预测:根据天气和用电需求预测未来的能耗。

  1. 时间序列预测

• 使用历史数据预测未来的趋势或值。

典型应用

天气预报:基于历史天气数据预测未来的气温和降雨量。

销售预测:预测未来的销售量,用于库存管理。

  1. 标注数据场景

• 数据有明确的输入和输出标签,监督学习表现非常好。

典型应用

机器翻译:使用并行语料库,将一种语言翻译成另一种语言。

医学诊断:通过患者的病史、体检数据预测疾病类型(如癌症检测)。

2. 无监督学习

无监督学习的特点是数据没有标注,即没有明确的目标输出。模型的目标是探索数据的结构、模式或分布。

常见的无监督学习算法

• 聚类算法:K-means、层次聚类、DBSCAN

• 降维算法:主成分分析(PCA)、t-SNE、UMAP

• 异常检测:孤立森林、单类支持向量机(One-Class SVM)

• 自编码器(Autoencoder)

无监督学习的适用场景

  1. 数据聚类

• 将数据划分为若干组,每组数据具有相似的特性。

典型应用

客户细分:根据用户的购买行为,将客户划分为不同的群体(高价值客户、普通客户等)。

市场分析:发现商品之间的关联,优化商品推荐(如购物篮分析)。

图像分割:将图片中的像素划分为不同区域,应用于医学图像处理。

  1. 降维

• 将高维数据映射到低维空间,保留数据的主要特征。

典型应用

数据可视化:将高维数据降维后以 2D/3D 的形式展示。

特征选择/提取:在大数据集中找到对目标最重要的特征。

压缩数据:减少存储和计算需求。

  1. 异常检测

• 发现与正常模式有显著不同的数据点。

典型应用

信用卡欺诈检测:检测与常规交易行为不同的交易。

网络入侵检测:发现潜在的网络攻击。

设备故障检测:检测工业设备运行中的异常模式。

  1. 探索性数据分析

• 寻找数据中的隐藏模式或分布。

典型应用

文本主题分析:无监督学习方法(如 LDA)可以从文本中提取主题。

基因组数据分析:聚类基因表达数据,发现潜在的生物学模式。

  1. 使用场景对比总结

适合监督学习的场景

• 有大量的标注数据(如分类标签或目标值)。

• 问题目标明确,比如分类某种类型的事物(垃圾邮件、疾病类型等)。

• 模型评估有清晰的指标(准确率、MSE 等)。

适合无监督学习的场景

• 数据没有标注,且标注成本高。

• 需要探索数据的内部结构、模式或分布。

• 目标是发现未知的类别、异常数据或数据关系。

我在思考应该在什么应用场景下选择什么样的算法
之前突然想到人的一生无时无刻不在做着选择,正确的选择做得多了才能更快的向正确的结果收敛,具体问题具体分析,学习各个算法的应用场景是比纸上谈兵更加有深度.