马锦涛

2020-09-14   阅读量: 824

Scikit-learn Python

什么是KNN算法?

扫码加入数据分析学习群

1.k-近邻算法,它的本质是通过距离判断两个样本是否相似,如果距离够近就认为他们足够相似属于同一类别。

当然只对比一个样本是不够的,误差会很大,我们需要找到离其最近的k个样本,并将这些样本称之为「近邻」(nearest neighbor)。对这k个近邻,查看它们的都属于何种类别(这些类别我们称作「标签」(labels))。

然后根据“少数服从多数,一点算一票”原则进行判断,数量最多的的标签类别就是新样本的标签类别。其中涉及到的原理是“越相近越相似”,这也是KNN的基本假设。

2.对测试点来说,计算所有的训练样本点到这个测试样本点的距离,然后选取前k个最近的样本,使用这些样本点的标签进行一个投票,少数服从多数,从而来进行最终预测.

30.4704 1 0 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子