K近邻算法 | wsztrush 

作者:JerryXia | 发表于 , 阅读 (0)

给定一个数据集,其中实例的类别已经标注完毕,那么:
当有新的实例时,怎么判断它的类别?
最简单的规则便是少数服从多数,假设训练集为$T={(x_1,y_1),(x_2,y_2)…(x_n,y_n)}$,找到与新实例$x$最近的$k$个实例,于是有:
$$y = \arg \max_{c_j} \sum I(y_i = c_j) \quad i=1,2,..,n,\;j=1,2,..,k$$
那么效果的好坏由:
距离的定义K值的选取来决定。每次如果都遍历整个样本,效率比较低下,需要借助一些数据结构来优化。
kd-tree
通过将空间中的实例地划分到不同的子集中,在检索时就可能可以忽略掉部分子集,从而提高搜索速度,构造步骤为:
构造根节点,代表所有元素;对深度为$j$的节点,选择$x^{(l)}$为切分坐标,其中$l = j \% k + 1$,以该节点区域对应的实例的$x^{(l)}$的中位数为切分点,分成两个子区域;递归切分,直到切分后的子区域中没有实例;搜索步骤为:
找到包含$x$的叶子节点;在该节点中找到最近邻;递归向上回退,并执行:检查该节点保存的实例;检查...阅读全文

 决策树 | wsztrush 

作者:JerryXia | 发表于 , 阅读 (0)
做决定时,大脑中可能有这样的一个思考过程:

这样“精确”的逻辑可能是经历了很多事情才得到的。决策树也类似这个过程:
在样本上,通过精确地划分,形成这样树形的决策逻辑。
存在两种类型的节点:
内部节点:条件或者阈值,决定下一步应该去哪个子树叶子节点:类型或者预测值可以理解为:从上到下,通过内部节点将可能性空间不断细分,最终到达一个目标状态(叶子节点)。
基础知识选择哪些维度以及如何划分是决策树的核心,也是最难的,需要一些知识准备。
信息熵对一片文章的评价可能是信息量很大,也可能是废话连篇。那么:
能否量化信息的多少?
什么样的话是废话?
原来确定的事情,再说一遍就是废话,比如:太阳今天会从东边升起!
什么样的话信息量比较大?
原来不确定的事情,再说遍就比较确定了,比如:今天某个股票的财报很好,明天股票会大涨!
概率发生的变化越大(从无序到有序),信息量也就越大!而且信息量的多少应该满足:
非负可加:f(xy)=f(x)+f(y)连续递减:概率越小,信息量越大满足这些性质的函数只有:
$$-log(x)$$
而信息论祖师爷Shannon搞出来的信息熵的含义...阅读全文

 贝叶斯 | wsztrush 

作者:JerryXia | 发表于 , 阅读 (0)
概率论中,条件概率定义为:
$$P(A|B) = \frac{P(AB)}{P(B)}$$
表示$B$发生时$A$发生的概率,在条件概率上进行一步推导便得到贝叶斯定理:
$$P(AB) = P(A|B) \times P(B) = P(B|A) \times P(A) \quad \Rightarrow \quad P(B|A) = \frac{P(A|B)\times P(B)}{P(A)}$$
这里涉及到两个概念:
先验概率:由因求果,事情还没有发生,求这件事情发生的可能性的大小;后验概率:执果寻因,事情已经发生了,求这件事情是由某个因素引起的可能性的大小;比较流行的一个例子(对应的解释):
有三个门,其中一个里有汽车,只要选对就可以得到。当应试者选择一个门之后,主持人打开了另外一个门,空的。假设主持人知道车所在的门,问:应试者要不要换一个选择?
贝叶斯典型应用场景是邮件反垃圾:
A:单词B:是否垃圾邮件在给了一些样本后,如何来预测包含$A_1,A_2,A_3$的邮件是否为垃圾邮件?如果样本中包含很多同内容的邮件,那么可以直接计算$P(B|A)$,然而:
这是不可...阅读全文