利用朴素贝叶斯算法进行文档分类
Post by Joey Huang under ml on 2017-05-07(Sunday) 23:43. Tags: machine-learning,
本文利用 scikit-learn 里的朴素贝叶斯算法对文档进行分类,以便更深入地理解贝叶斯算法。这不是篇介绍自然语言处理的文章,语料库直接使用英文,以避免介绍针对中文的分词技术。为了读者更好的理解原理,本文介绍了 TF-IDF ,这是一个表达词语权重信息的模型。
本文利用 scikit-learn 里的朴素贝叶斯算法对文档进行分类,以便更深入地理解贝叶斯算法。这不是篇介绍自然语言处理的文章,语料库直接使用英文,以避免介绍针对中文的分词技术。为了读者更好的理解原理,本文介绍了 TF-IDF ,这是一个表达词语权重信息的模型。
忘光了概率统计的知识还想学朴素贝叶斯算法?这一篇就是为你准备的。
了解点条件概率和先验概率的知识,别被小概率事情绑架了。
推荐系统有着广泛的应用,电影推荐,商品推荐等都用到推荐系统。本文介绍协同过滤算法的基本原理,进而理解推荐系统的实现原理。
高斯分布是自然界最常见的分布形态,高斯分布用来做异常检测是非常合适的模型。枪打出头鸟,那些分布在正态分布两端的小概率事件,要么好的出奇(右边),要么差得离谱(右边)。据说认真看完这篇文章并点赞的人基本上是分布在高斯分布的右侧。
PCA 算法主要是把高维度的数据降为低维度数据。典型地应用包括数据压缩和数据可视化。本文介绍 PCA 算法及其典型应用。
K 均值算法是一种典型的无监督学习算法,用来对数据进行分类。
什么是核函数?核函数的作用是什么?怎么样把核函数和支持向量机结合起来?怎么样使用支持向量机来解决分类问题?怎么样在逻辑回归算法,支持向量机,神经网络这三个分类算法里选择使用哪个算法来解决实际问题?本文就是回答这些疑问的。
支持向量机算法 SVM 是 Support Vector Machine 的缩写,它是工业和学术界都有广泛应用的强大的算法。
本文以设计一个垃圾邮件过滤系统为例,谈谈如何设计一个机器学习系统。同时介绍查准率,召回率以及 F1Score 来评价算法的性能。