额滴笔记

通用机器学习系统设计

1. 确定要学习的函数表示

在机器学习中，选择合适的函数表示是至关重要的。常见的函数表示包括多项式和线性函数。

多项式：适用于非线性关系的数据。例如，一个二次多项式可以表示为 $( f(x) = ax^2 + bx + c )$ 。
线性函数：适用于线性关系的数据。例如，一个线性函数可以表示为 $( f(x) = w_0 + w_1 x_1 + w_2 x_2 + \cdots + w_n x_n )$ ，其中 $( x_i )$ 是特征， $( w_i )$ 是权重。

2. 确定目标函数

目标函数是指模型需要优化的目标。在不同的任务中，目标函数的形式可能不同。

棋盘 → 动作：在这种情况下，目标函数可能是预测在给定棋盘状态下应该采取的动作。例如，在国际象棋中，目标函数可以是预测下一步的最佳走法。
棋盘 → 价值：在这种情况下，目标函数可能是评估给定棋盘状态的价值。例如，在围棋中，目标函数可以是评估当前棋局的胜率。

3. 确定用于训练的经验类型

经验类型指的是用于训练模型的数据来源。常见的经验类型包括：

与专家比赛：通过与人类专家进行对弈来获取数据。这些数据可以用来训练模型，使其学会专家的策略。
自我对抗：让模型自己与自己对弈，生成大量的自博弈数据。这种方法在强化学习中非常常见，如AlphaGo就使用了自我对抗的方法。
正确行动表：预先定义好的正确行动表，可以直接用于训练模型。例如，在某些游戏中，可以提供一个包含所有可能状态及其对应最优动作的表格。

4. 确定学习算法

选择合适的学习算法对于模型的性能至关重要。常见的学习算法包括：

梯度下降：一种优化算法，用于最小化损失函数。梯度下降通过迭代更新模型参数来逐步逼近最优解。
线性规划：一种优化技术，用于解决线性约束下的线性目标函数问题。线性规划在某些特定问题中非常有效，如资源分配问题。

5. 完整的设计

完整的机器学习系统设计包括以下几个步骤：

数据收集：收集用于训练和测试的数据。
特征提取和表示：从原始数据中提取有用的特征，并将其表示为模型可以处理的形式。
选择学习算法：根据问题的性质选择合适的算法。
训练模型：使用选定的算法和数据训练模型。
评价模型：使用测试集评估模型的性能。

6. 数据、特征和表示

数据：原始数据，包括输入特征和标签（如果有）。
特征：从数据中提取的有用信息，用于模型训练。特征的选择和表示对模型性能有重要影响。
表示：将特征表示成模型可以处理的形式。例如，将文本数据表示为词向量，或将图像数据表示为像素值。

7. 评价

应用背景：明确应用的具体背景和需求。
什么是机器学习：机器学习是一种使计算机能够从数据中学习并改进其性能的技术。
T（Task，任务）：明确模型需要完成的任务，如分类、回归、聚类等。
E（Experience，经验）：明确用于训练模型的经验类型，如与专家比赛、自我对抗等。
P（Performance，性能）：明确评价模型性能的指标，如准确率、召回率、F1分数等。

总结 —— 系统设计与方案选择

有什么经验：确定可用的经验类型，如与专家比赛、自我对抗或正确行动表。
到底应该学什么：确定目标函数，如棋盘 → 动作或棋盘 → 价值。
如何表示：选择合适的函数表示，如多项式或线性函数。
具体用算法学习：选择合适的学习算法，如梯度下降或线性规划。