这是行业常用术语表习 机器科学。
准确性用于评估任何分类模型。 它被定义为正确总数的百分比。 在数学上,它表示为:
在机器习中,算法是应用数据创建机器习模型的过程。 例如,线性回归、决策树。
为未标记的数据分配标签的过程。 例如,在手写数字识别任务中,如果我们将值 8 分配给图像 8。
ANN是一种基于机器的习算法,其灵感来自构成动物脑细胞的生物神经网络。
实例的一个方面。 如果我们谈论结构化数据并以 ** 格式存储值,那么列代表属性。 例如,假设我们想要估计当今大气的温度,为此,我们记录大气压力、风速和其他基本属性。 这些属性称为特性。
ROC 曲线下面积表示所有分类阈值的分类模型的整体性能。 ROC 曲线表示真阳性率相对于假阳性率的变化。
偏差使我们的模型对任何特征或数据点的敏感度降低或提高,有助于概括结果。 由于不正确的ML过程假设,偏差被认为是机器习模型中的系统误差。
由于算法在不考虑所有数据信息的情况下不断学习习错误事物的倾向引起的错误。
高偏差:对数据做出假设的倾向增加,因此错误增加。
低偏差:对数据做出假设的倾向变得不那么容易。 该模型根据训练数据准确学习习。
下图右侧显示点散布在圆心周围,因此偏差较低。
但是右边的图中有很大的偏差,因为散射只发生在特定方向上。
分类是机器习中的问题陈述,模型尝试输出类。 可以有两种类型的分类:
二元分类:-将输入分类为两个二进制类; 例如,图像是否包含猫,声明为真或假。
多标签分类:-将对象分类为多个类。 例如,图像同时检测房屋、猫、狗等的存在。
它是做出特定决策的极限值。 假设机器 习 模型对任何图像中是否存在猫的确定性为 x%。 我们设定了标准,如果置信水平> 60%,那么它将是一个有效的**。 则分类阈值为 60。
一种无监督习,其中模型根据某些固有数据特征将输入数据分组到不同的存储桶中。 通常,聚类由具有相似特征的项组成。 最常用的聚类算法是 k 均值、分层聚类和亲和聚类。
用于衡量机器 习 分类问题性能的指标,其中输出可以是两个或多个类别。 它将分为四类真阳性:机器习模型将猫的图像分类为猫的图像。
true negative:输入图像中没有猫,机器习模型也没有。
误报:机器习模型将狗的图像归类为猫的图像。 这也称为I 类错误
假阴性:输入图像中有一只猫,但机器 习 模型中没有猫**。 它们也被称为:II 类错误
机器训练模型习期间的状态,其中连续纪元之间的损失值变化变小。 更具体地说,如果损失函数的成本变化非常小,那么可以说模型已经找到了最小值,或者它的位置不会进一步变化,即它已经收敛。
机器科学 习 是一个子领域,处理基于人工神经网络的算法,能够理解时间和空间依赖关系。 它也被称为深层结构化学习。
机器 习 中的维度是指用作机器 习 算法输入的特征数量。
一种正则化器,用于在训练神经网络时通过丢弃隐藏或可见的单元来防止过度拟合。
1 个 epoch = 整个数据集的 1 次迭代。
超出原始观测值的估计值。
优质作者名单