网易公开课,第5,6课 notes,http://cs229.stanford.edu/notes/cs229-notes2.pdf 前面讨论了高斯判别分析,是一种生成学习算法,其中x是连续值 这里要介绍第二种生成学习算法,Naive Bayes算法,其中x是离散值的向量 这种算法常用于文本分类,比如分类垃圾邮件 首先,如何表示一个文本,即x? 以上面这种向量来表示,字典中的词是否在该文本中出现 其中每个词,可以看作是一个特征,对于特征的选取,可以过滤到stop word,或只选取出现多次的值.…