词典的存储和搜索

Post by Joey Huang under nlp on 2016-02-20(Saturday) 22:48. Tags: nlp,

在自然语言处理领域,分词是最基本的任务。不管是传统的基于词典的分词算法还是现代的基于统计语言模型的分词算法,都需要词典作为输入。本文介绍 Trie 算法,用来存储词典,并提供高效的搜索功能。

阅读全文 »




我的时间去哪儿了

Post by Joey Huang under tools on 2015-12-21(Monday) 23:36. Tags: tools,

我的时间去哪儿了?李笑来在他的《把时间当朋友》里提到时间事件日志的方法,可以帮助发现这个问题的答案。本文介绍一种更简洁更直观的方法。

阅读全文 »



异常检测

Post by Joey Huang under ml on 2015-12-15(Tuesday) 23:11. Tags: machine-learning,

高斯分布是自然界最常见的分布形态,高斯分布用来做异常检测是非常合适的模型。枪打出头鸟,那些分布在正态分布两端的小概率事件,要么好的出奇(右边),要么差得离谱(右边)。据说认真看完这篇文章并点赞的人基本上是分布在高斯分布的右侧。

阅读全文 »





支持向量机核函数

Post by Joey Huang under ml on 2015-12-07(Monday) 23:04. Tags: machine-learning,

什么是核函数?核函数的作用是什么?怎么样把核函数和支持向量机结合起来?怎么样使用支持向量机来解决分类问题?怎么样在逻辑回归算法,支持向量机,神经网络这三个分类算法里选择使用哪个算法来解决实际问题?本文就是回答这些疑问的。

阅读全文 »



Powered by Pelican and Zurb Foundation. Theme by Kenton Hamaluik.