皇冠hga038安卓二维码 皇冠hga038安卓二维码 皇冠hga038安卓二维码

大数据分类算法简介

大数据分类算法简介,大数据越来越多地与人工智能相关联。所谓人工智能,就是利用数理统计方法,统计数据中的规律,然后利用这些统计规律对数据进行自动化处理,使计算机能够表达出一定的智能特征,各种数理统计方法大数据算法。

分类是人们认识事物的重要方式。如果你能把某样东西分类得足够细,那你实际上已经认出了它。如果能从职业能力、人际交往、品德、外貌特征等各个维度对一个人进行正确分类,并且可以在各个维度的基础上进一步细分,比如大数据专业能力、Java编程能力、算法等能力也能正确分类,那么可以说你已经完全认识这个人了。

实际上,几乎没有人可以完全分类另一个人。也就是说,几乎没有人能完全理解另一个人。但是在互联网时代,一个人在互联网上留下的信息越来越多。如果一台计算机利用大数据技术将所有这些信息统一起来进行分析,理论上可以对一个人进行完整的分类,也就是对一个人的完整认识。

分类也是大数据常见的应用场景之一。通过对历史数据规则的统计,对大量数据进行分类,找出数据之间的关系,这样当有新数据进来时,计算机就可以利用这种关系进行自动分类。再者,如果这个分类结果在未来得到证实,比如一场比赛的结果,一场选举的结果,那么在旁观者看来,就是用大数据来做预测。事实上,目前热门的机器学习本质上是统计学习。

下面,我将通过一个比较简单的KNN分类算法,向大家展示大数据分类算法的特点和应用,以及各种大数据算法会用到的数据距离计算方法和特征值处理方法。

KNN分类算法

KNN算法,即K Nearest Neighbor算法大数据预测算法,是一种基本的分类算法。主要原理是:对于一个需要分类的数据,与一组已经分类标注的样本进行比较,得到距离最近的K个样本,以及这K个样本最属于的类别是需要分类的数据的类别。. 下面我给大家画了一张KNN算法的示意图。

大数据分类算法简介

图中红蓝绿点为样本数据,属于w_{1}、w_{2}、w_{3}三个类别。对于要分类的点X_{u},计算离它最近的5个点(即K为5),这5个点最多属于w_{1}的类别(4个点属于w_{1 },1 个点属于 w_{3}),则 X_{u} 的类被分类为 w_{1}。

大数据预测算法_按八字测算黄道吉日法_大数据与人工智能的大数据下

KNN的算法流程也很简单,请看下面的流程图。

大数据分类算法简介

KNN算法是一种非常简单实用的分类算法,可以应用于各种分类场景,比如新闻分类、商品分类等,甚至是简单的文本识别。对于新闻分类,可以提前手动标注几条新闻,标记新闻类别,计算特征向量。对于未分类的新闻,在计算出其特征向量后,计算与所有已标注新闻的距离,然后进一步使用KNN算法进行自动分类。

看完这里,你一定要问了,数据的距离怎么计算?如何获取新闻的特征向量?

数据距离

KNN算法的关键是比较待分类数据与样本数据的距离,这在机器学习中通常会做:提取数据的特征值,根据特征值(这个空间也称为特征空间),然后计算向量之间的空间距离。计算空间距离的方法有很多种,常用的有欧几里得距离、余弦距离等。

对于数据x_{i}和x_{j},如果其特征空间是n维实向量空间R^{n},即x_{i}=(x_{i1},x_{i2},… ,x_{in }), x_{j}=(x_{j1},x_{j2},…,x_{jn}),则其欧式距离计算公式为

大数据与人工智能的大数据下_按八字测算黄道吉日法_大数据预测算法

d(x_{i},x_{j})=\sqrt{\sum_{k=1}^{n}{(x_{ik}-x_{jk})^2}}

我们其实在初中的时候就学过这个欧几里得距离公式。平面几何和立体几何中两点之间的距离也是用这个公式计算的,但是平面几何中n=2(二维几何),立体几何中n=3(三维几何),每个加工的数据学习需要面对的可能有n维维度,即每个数据有n个特征值。但是无论特征值n是多少,计算两个数据之间空间距离的公式仍然是这个欧几里得公式。大多数机器学习算法都需要计算数据之间的距离,因此掌握数据的距离计算公式是掌握机器学习算法的基础。

欧式距离是最常用的数据计算公式,但在文本数据和用户评价数据的机器学习中,比较常用的距离计算方法是余弦相似度。

cos(\theta)=\frac{\sum_{k=1}^{n}{x_{ik}x_{jk}}}{\sqrt{\sum_{k=1}^{n}{x_{ik }^{2}}}\sqrt{\sum_{k=1}^{n}{x_{jk}^{2}}}}

余弦相似度值越接近1,越相似,越接近0,差异越大。使用余弦相似度可以消除数据的一些冗余信息,在某些情况下更接近数据的本质。让我举一个简单的例子。比如两篇文章的特征值分别是:“大数据”、“机器学习”和“极客教程”。文章A的特征向量为(3, 3, 3),即这三个词出现的次数为3;文章B的特征向量是(6, 6, 6),也就是这三个词出现的次数是6。如果只看特征向量的话,这两个向量是很不一样的,如果用欧几里得距离计算,确实很大,但是两篇文章其实很相似,只是长度不同。

余弦相似度其实就是计算向量的角度,欧几里得距离公式就是计算空间距离。余弦相似度更关注数据的相似度。例如,如果两个用户将两个项目评为 (3, 3) 和 (4, 4),则两个用户对两个项目有相似的偏好。在这种情况下,余弦相似度比欧几里得距离更合理。

文本的特征值

按八字测算黄道吉日法_大数据预测算法_大数据与人工智能的大数据下

我们知道机器学习算法需要计算距离,而计算距离需要知道数据的特征向量,所以提取数据的特征向量是机器学习工程师的一项重要工作,有时甚至是最重要的工作。不同的数据,不同的应用场景需要提取不同的特征值。我们以比较常见的文本数据为例,看看如何提取文本特征向量。

文本数据的特征值是提取文本关键词。TF-IDF算法是一种常用且直观的文本关键词提取算法。该算法由两部分组成:TF和IDF。

TF是词频(Term Frequency),表示一个词在文档中出现的频率。一个词在文档中出现的频率越高,TF 值就越高。

词频:TF=\frac{一个词在文档中出现的次数}{文档中总词数}

IDF是逆文档频率(Inverse Document Frequency),表示单词在所有文档中的稀缺性。出现这个词的文档越少大数据预测算法,IDF 值就越高。

逆文档频率:IDF=log(\frac{文档总数}{单词出现的文档数})

TF和IDF的乘积是TF-IDF。

大数据预测算法_大数据与人工智能的大数据下_按八字测算黄道吉日法

TF-IDF=TF\times IDF

所以如果一个词在某个文档中出现频率很高,但在所有文档中都很少出现,那么这个词很可能就是这个文档的关键词。例如,在一篇关于原子能的技术文章中,“核裂变”、“放射性”、“半衰期”等术语会在该文档中频繁出现,即TF非常高;但是在所有文档中出现的频率都比较低,也就是IDF也比较高。所以,这些词的TF-IDF值会很高,可能是这篇文档的关键词。如果这是一篇关于中国原子能的文章,说不定“China”这个词也会频繁出现,也就是TF也很高,但是很多文献中也出现了“China”,那么IDF会比较低,最后“中国”

提取关键词后,可以利用关键词的词频构建特征向量。比如上面例子中关于原子能的文章,“核裂变”、“放射性”和“半衰期”三个词是特征值,出现次数分别为12次和9次。, 4. 那么本文的特征向量为(12, 9, 4),然后使用上面提到的空间距离计算公式计算与其他文档的距离,结合KNN算法实现文档的自动分类。

贝叶斯分类

贝叶斯公式是一种基于条件概率的分类算法。如果我们已经知道了A和B的出现概率,并且知道了B出现下A出现的概率,我们就可以用贝叶斯公式计算A出现B的情况下的出现概率。其实我们可以根据A的情况,也就是输入的数据来判断B的概率,也就是B的可能性,然后进行分类。

例如:假设一所学校有 60% 的男生和 40% 的女生。男孩子总是穿裤子,女孩子穿半裤半裙。假设你在校园里走着,一个穿着裤子的学生朝你走来。你能推断出穿裤子的学生是男孩的概率吗?

答案是75%,具体算法是:

大数据与人工智能的大数据下_大数据预测算法_按八字测算黄道吉日法

男生穿裤子的概率=\frac{男生穿裤子的概率\times是男生的概率}{学生穿裤子的概率}

该算法使用贝叶斯公式,写为:

P(B|A)= \frac{P(A|B)*P(B)}{P(A)}

即B在A发生的条件下发生的概率等于A在B发生的条件下发生的概率乘以B发生的概率除以A发生的概率。还是用上面的例子,如果我问你穿裙子走向你的学生是女孩的概率是多少。同样带入贝叶斯公式,可以计算出成为女孩的概率是100%。其实我们可以根据常识来推断这个结果,但是很多时候,常识会受到各种因素的干扰,就会出现偏差。例如,当有人看到一篇关于博士生为初中老板打工的新闻时,他们感叹学习是无用的。事实上,它只是稀有和奇怪,样本量太小了。

贝叶斯分类的一个典型应用是垃圾邮件分类。通过对样本邮件的统计,我们知道了邮件中每个单词出现的概率P(A_{i}),也知道了正常邮件概率P(B_{0})和垃圾邮件概率P(B_{ 1}),还可以统计垃圾邮件中每个词的出现概率P(A_{i}|B_{1}),那么现在有新邮件到了,根据邮件中出现的词,我们可以计算

P(B_{1}|A_{i}),即得到这些词出现时邮件为垃圾邮件的概率,进而判断邮件是否为垃圾邮件。

现实中,贝叶斯公式等号右边的概率可以通过大数据的统计得到。当新数据到来时,我们可以带上上面的贝叶斯公式来计算它的概率。而如果我们设定概率超过某个值,认为它会发生,那么我们对这个数据进行分类预测,具体过程如下图所示。

大数据分类算法简介

训练样本是我们的原始数据。有时原始数据不包含我们要计算的维度数据。例如,如果我们要使用贝叶斯公式对垃圾邮件进行自动分类,那么我们必须首先标记原始邮件,哪些邮件需要标记。普通邮件,即垃圾邮件。这种需要标记数据的机器学习训练也称为监督机器学习。