机器学习概览
背景
机器学习涉及领域较为广泛,可能包含自主机器人、神经生物学等领域
机器学习无论在我们的生活中还是工业生产等方方面面均可发挥作用:
- 医学领域可以辅助进行疾病诊断
- 交通领域可以让计算机自动学习驾驶
- 生活中可进行手写识别
- 网上购物的商品推荐
机器学习如今大力发展的原因在于目前产生了非常多的数据,这是机器学习得以发展的土壤。机器学习一般分为监督学习和无监督学习,其他强化学习和推荐系统后续会介绍。
机器学习定义:
Arthur Samuel(1959)Field of study that gives computers the ability to learn without being explicitly programmed.
在进行特定编程的情况下,给予计算机学习能力的领域
Tom Mitchell (1998) Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and som performance measure P, if its performance on T, as measured by P, improves with experience E.
计算机程序从经验E中学习,解决某一任务T,进行某一性能度量P,通过P测定在T上的表现因经验E而提高
监督学习
预测房价问题:
一般房子的价格会记到美分,所以房价实际上是一系列离散的值,但是我们通常又把房价看成实数,看成是标量,所以又把它看成一个连续的数值。一般归类为回归问题,即试图推测这一系列连续值的属性。
肿瘤预测问题:
横轴表示肿瘤的大小,纵轴1和0表示是否是恶性肿瘤。这是一个典型的分类问题。试图推测出患者是0还是1这个离散数值。
当然实际问题可能更复杂,不只肿瘤大小这一个特征,问题可能会非常复杂。(思考:如果特征特别多该如何处理?后续SVM课程会给出答案)
简单总结:
监督学习:对于每个样本都想得到正确的结果,即有标注。
回归问题和分类问题:连续的问题,例如房价预测是回归,离散的问题,肿瘤是否良性是分类。
无监督学习
样本没有任何标签,不知道数据是什么意思,只有一系列数据,要自动学习数据的结构。
聚类应用:
- 谷歌新闻关于某一类新闻事件自动聚类
- 社交网络关系,朋友自动分组
- 市场细分,判断哪些客户到细分市场销售
- 天文数据分析星系
鸡尾酒问题:分离酒会上的不同声音(0-9),只需要一行代码即可:
1 | [W,s,v] = svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x'); |