就当背单词了 😄
基本术语
机器学习(machine learning) 的目标是通过 学习\训练算法(learning\training algorithm)获得数据的 模型(model) ,这个模型对应了数据的某种规则因此也叫假设(hypothesis)。
模型用于预测(prediction)数据,其适用于新数据的能力叫泛化(generalization)能力 。
获得模型的过程是一个归纳过程,也称为归纳学习(inductive learning)。
学习过程可以看做一个在所有假设组成的空间中搜索一个匹配(fit) 训练集的假设,但由于训练集有限,往往会获得多个匹配的假设,这个假设集合称为版本空间(version space) 。为了获得“最好”的假设,需要对某类型的假设有所偏好,称为归纳偏好(inductive bias) 。
数据的集合称为数据集(data set) ,可以分为训练集(training set)、测试集(testing set)、交叉验证集(cross validation set)。
数据集中每一条记录称为 示例(instance)或 样本(sample) 。
如果记录中含有指示结果的 标签、标记(label) ,那这个样本称为 样例(example) 。
每一个事项称为属性(attribute)或 特征(feature) ,其数量称为样本的维数(dimensionality) 。
所有属性形成的多维空间称为属性空间(attribute space) 或 样本空间(sample space) 或 输入空间 。
所有标签的集合称为标记空间(label space) 或 输出空间 。
在这个空间中每个样本都有自己的坐标,和原点组成一个坐标向量,称为特征向量(feature vector) 。
根据是否有标记信息,机器学习可以分为有标记的监督学习(supervised learning)和无标记的无监督学习(unsupervised learning)。监督学习有分类、回归。非监督学习有聚类(clustering)。
根据预测值的类型,机器学习可以分为离散值的分类(classification)任务和连续值的回归(regression)任务
分类问题又可以分为二分类(binary classification) 和 多分类(multi-class classification) 。
epoch batch step iteration
epoch: 表示过了一遍训练集。
batch: batch-size 每次迭代所用的样本数。
step,iteration: 迭代的次数。
比如现在有1000个样本。我决定要对整个样本训练10次(epoch=10),然后每次分为10次小的训练(step=10,因为当数据量很大时无法一下子训练所有的数据),所以这每次小训练要处理100个样本(batch-size)。
需要注意的是一个epoch并不意味着要完全遍历完所有的样本,当样本十分大时,可以只对一部分样本进行采样。
拓展术语
奥卡姆剃刀(Occam’s razor) : 若有多个假设和观察一致,则选择最简单的那个。
没有免费的午餐 NFL(No Free Lunch Theorem)定理 :在所有问题出现的机会相同、或所有问题同等重要的情况下, 所有的算法,它们的期望性能都是相同的 !! 因此脱离具体问题空谈什么算法更好毫无意义,算法优劣必须针对具体的问题。
随时补充~