
机器学习术语表
43页1、本术语表中列出了一般的机器学习术语和 TensorFlow 专用术语的定义。AA/B 测试 (A/B testing)一种统计方法,用于将两种或多种技术进行比较,通常是将当前采用的技术与新技术进行比较。A/B 测试不仅旨在确定哪种技术的效果更好,而且还有助于了解相应差异是否具有显著的统计意义。 A/B 测试通常是采用一种衡量方式对两种技术进行比较,但也适用于任意有限数量的技术和衡量方式。准确率 (accuracy)分类模型 (#classication_model)的正确预测所占的比例。在多类别分类 (#multi-class)中,准确率的定义如下:在二元分类 (#binary_classication)中,准确率的定义如下:请参阅 真正例 (#TP)和真负例 (#TN)。激活函数 (activation function)一种函数(例如 ReLU (#ReLU)或 S 型 (#sigmoid_function)函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。AdaGrad机器学习术语表一种先进的梯度下降法,用于重新调整每个参数的梯度,
2、以便有效地为每个参数指定独立的学习速率 (#learning_rate)。如需查看完整的解释,请参阅这篇论文 (http:/www.jmlr.org/papers/volume12/duchi11a/duchi11a.pdf)。ROC 曲线下面积 (AUC, Area under the ROC Curve)一种会考虑所有可能分类阈值的评估指标 (#classication_threshold)。ROC 曲线 (#ROC)下面积是,对于随机选择的正类别样本确实为正类别,以及随机选择的负类别样本为正类别,分类器更确信前者的概率。B反向传播算法 (backpropagation)在神经网络 (#neural_network)上执行 梯度下降法 (#gradient_descent)的主要算法。该算法会先按前向传播方式计算(并缓存)每个节点的输出值,然后再按反向传播遍历图的方式计算损失函数值相对于每个参数的偏导数 (https:/en.wikipedia.org/wiki/Partial_derivative)。基准 (baseline)一种简单的 模型 (#model)或启发法,用作比较模
3、型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。批次 (batch)模型训练 (#model_training)的一次 迭代 (#iteration)(即一次 梯度 (#gradient)更新)中使用的样本集。另请参阅 批次规模 (#batch_size)。批次规模 (batch size)一个批次 (#batch)中的样本数。例如, SGD (#SGD)的批次规模为 1,而小批次 (#mini-batch)的规模通常介于 10 到 1000 之间。批次规模在训练和推断期间通常是固定的;不过,TensorFlow 允许使用动态批次规模。偏差 (bias)距离原点的截距或偏移。偏差(也称为偏差项 )在机器学习模型中以 b 或 w0表示。例如,在下面的公式中,偏差为 b:请勿与 预测偏差 (#prediction_bias)混淆。二元分类 (binary classication)一种分类任务,可输出两种互斥类别之一。例如,对电子邮件进行评估并输出“ 垃圾邮件” 或“ 非垃圾邮件 ” 的机器学习模型就是一个二元分类器。分箱 (binning)请参阅 分桶 (#bucke
4、ting)。分桶 (bucketing)将一个特征(通常是 连续 (#continuous_feature)特征)转换成多个二元特征(称为桶或箱),通常是根据值区间进行转换。例如,您可以将温度区间分割为离散分箱,而不是将温度表示成单个连续的浮点特征。假设温度数据可精确到小数点后一位,则可以将介于 0.0 到 15.0 度之间的所有温度都归入一个分箱,将介于 15.1 到 30.0 度之间的所有温度归入第二个分箱,并将介于 30.1 到 50.0 度之间的所有温度归入第三个分箱。C校准层 (calibration layer)一种预测后调整,通常是为了降低预测偏差 (#prediction_bias)。调整后的预测和概率应与观察到的标签集的分布一致。候选采样 (candidate sampling)一种训练时进行的优化,会使用某种函数(例如 softmax )针对所有正类别标签计算概率,但对于负类别标签,则仅针对其随机样本计算概率。例如,如果某个样本的标签为“ 小猎犬” 和“ 狗” ,则候选采样将针对 “ 小猎犬 ” 和“ 狗” 类别输出以及其他类别(猫、棒棒糖、栅栏)的随机子集计算预测
5、概率和相应的损失项。这种采样基于的想法是,只要正类别 (#positive_class)始终得到适当的正增强,负类别 (#negative_class)就可以从频率较低的负增强中进行学习,这确实是在实际中观察到的情况。候选采样的目的是,通过不针对所有负类别计算预测结果来提高计算效率。分类数据 (categorical data)一种特征 (#feature),拥有一组离散的可能值。以某个名为house style的分类特征为例,该特征拥有一组离散的可能值(共三个),即Tudor, ranch, colonial。通过将housestyle表示成分类数据,相应模型可以学习Tudor、ranch和colonial分别对房价的影响。有时,离散集中的值是互斥的,只能将其中一个值应用于指定样本。例如,car maker分类特征可能只允许一个样本有一个值 (Toyota)。在其他情况下,则可以应用多个值。一辆车可能会被喷涂多种不同的颜色,因此,car color分类特征可能会允许单个样本具有多个值(例如red和white)。分类特征有时称为 离散特征 (#discrete_feature)。与数值
《机器学习术语表》由会员p****杀分享,可在线阅读,更多相关《机器学习术语表》请在金锄头文库上搜索。