导读机器学习是发展最快的技术领域之一,但是尽管经常使用机器学习一词,但准确理解机器学习还是很困难的。机器学习不仅指一件事,它是一个总括
机器学习是发展最快的技术领域之一,但是尽管经常使用“机器学习”一词,但准确理解机器学习还是很困难的。
机器学习不仅指一件事,它是一个总括性的术语,可以应用于许多不同的概念和技术。了解机器学习意味着要熟悉不同形式的模型分析,变量和算法。让我们仔细研究一下机器学习,以更好地理解它所包含的内容。
什么是机器学习?
虽然术语机器学习可以应用于许多不同的事物,但通常来说,该术语是指使计算机能够执行任务而无需接收明确的逐行指令来执行此任务。机器学习专家不必写出解决问题的所有步骤,因为计算机能够通过分析数据中的模式并将这些模式概括为新数据来“学习”。
机器学习系统包含三个基本部分:输入项演算法产出
输入是输入到机器学习系统中的数据,输入数据可以分为标签和特征。特征是相关的变量,将对这些变量进行分析以学习模式并得出结论。同时,标签是给数据的各个实例的类/描述。
功能和标签可用于两种不同类型的机器学习问题:有监督的学习和无监督的学习。
无监督与有监督的学习
在监督学习中,输入数据伴随着基本事实。有监督的学习问题具有正确的输出值作为数据集的一部分,因此预先知道了预期的类别。这使得数据科学家可以通过在测试数据集上测试数据并查看正确分类的项目百分比来检查算法的性能。
相反,无监督学习问题没有附加地面真理标签。经过训练可以执行无监督学习任务的机器学习算法必须能够为其自身推断数据中的相关模式。
有监督的学习算法通常用于分类问题,其中一个分类的数据集充满了大型实例,必须将其分类为许多不同类别之一。监督学习的另一种类型是回归任务,其中算法输出的值本质上是连续的而不是分类的。
同时,无监督学习算法用于密度估计,聚类和表示学习等任务。这三个任务需要机器学习模型来推断数据的结构,没有给模型提供预定义的类。