向@yangliuy大牛学习NLP,这篇博客是数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文本分类器的JAVA实现(上)的Python实现.入门为主,没有太多自己的东西. 1. 数据集 Newsgroup新闻文档集,含有20000篇左右的Usenet文档,平均分配在20个新闻组,即有20个文件夹.现在用的Newsgroup18828新闻文档集是经过处理的,即每篇文档只属于一个新闻组. 2. 预处理,对每篇文档进行文本处理,为后续构造字典.提取特征词做准备 # -*- cod…
还是同前一篇作为学习入门. 1. KNN算法描述: step1: 文本向量化表示,计算特征词的TF-IDF值 step2: 新文本到达后,根据特征词确定文本的向量 step3 : 在训练文本集中选出与新文本向量最相近的k个文本向量,相似度度量采用“余弦相似度”,根据实验测试的结果调整k值,此次选择20 step4: 在新文本的k个邻居中,依次计算每类的权重, step5: 比较类的权重,将新文本放到权重最大的那个类中 2. 文档TF-IDF计算和向量化表示 # -*- coding: utf-8…
============================================================================================ <机器学习实战>系列博客是博主阅读<机器学习实战>这本书的笔记,包括对当中算法的理解和算法的Python代码实现 另外博主这里有机器学习实战这本书的全部算法源码和算法所用到的源文件,有须要的留言 ====================================================…
基于OpenCV的KNN算法实现手写数字识别 一.数据预处理 # 导入所需模块 import cv2 import numpy as np import matplotlib.pyplot as plt # 显示灰度图 def plt_show(img): plt.imshow(img,cmap='gray') plt.show() # 加载数据集图片数据 digits = cv2.imread('./image/digits.png',0) print(digits.shape) plt_sh…
先来看下这个python3源代码,表面上看没有语法毛病,如果源代码字符串内容是手动复制过来的文本内容,在pycharm和vscode下始终提示: pywintypes.error: (2, 'ShellExecute', '系统找不到指定的文件.. ,真是晕了,后来通过比较及调试发现 对于pycharm和vscode下,从外部复制文本内容为python字符串内容是会自动在字符串前面加\u202a字符,并不提示,但是在python命令环境下会提示,如下sfile第一个字符: 当然手动输入每个字符肯…
基于Haar特征的Adaboost级联人脸检测分类器基于Haar特征的Adaboost级联人脸检测分类器,简称haar分类器.通过这个算法的名字,我们可以看到这个算法其实包含了几个关键点:Haar特征.Adaboost.级联.理解了这三个词对该算法基本就掌握了.1        算法要点Haar分类器 = Haar-like特征 + 积分图方法 + AdaBoost +级联:Haar分类器算法的要点如下:a)        使用Haar-like特征做检测.b)       使用积分图(Inte…
原文:照片美妆---基于Haar特征的Adaboost级联人脸检测分类器 本文转载自张雨石http://blog.csdn.net/stdcoutzyx/article/details/34842233 基于Haar特征的Adaboost级联人脸检测分类器 基于Haar特征的Adaboost级联人脸检测分类器,简称haar分类器.通过这个算法的名字,我们可以看到这个算法其实包含了几个关键点:Haar特征.Adaboost.级联.理解了这三个词对该算法基本就掌握了. 1        算法要点 H…
txt文本程序 打开python文件 另存为原来的文件名,不能覆盖原来的文件 如:1.py文件用txt文本程序打开后,另存为 1.py,保存完毕后,不覆盖1.py文件,会生成 1.py.txt文件 原因: 可能是python程序占用该文件,没有释放文件 解决方案: 卸载python 3.6 ,安装python3.7后解决…
fastext是什么? Facebook AI Research Lab 发布的一个用于快速进行文本分类和单词表示的库.优点是很快,可以进行分钟级训练,这意味着你可以在几分钟时间内就训练好一个分类模型. 本文主要内容? 使用fasttext训练一个效果不错的新闻文本分类器/模型. 使用到的技术和环境? 1. python 3.7.fasttext 0.9.1(截至2020/3/29最新版本) Windows 10 (实验过程中使用的环境) 2. 1核2G 1Mbps 腾讯云服务器 Ubuntu…
看了原理,总觉得需要用具体问题实现一下机器学习算法的模型,才算学习深刻.而写此博文的目的是,网上关于K-NN解决此问题的博文很多,但大都是调用Python高级库实现,尤其不利于初级学习者本人对模型的理解和工程实践能力的提升,也不利于Python初学者实现该模型. 本博文的特点: 一 全面性地总结K-NN模型的特征.用途 二  基于Python的内置模块,不调用任何第三方库实现 博文主要分为四部分: 基本模型(便于理清概念.回顾模型) 对待解决问题的重述 模型(算法)和评价(一来,以便了解模型特点…