Bag-of-words简单介绍

最初的Bag-of-words ，也叫做“词袋”，在信息检索中，Bag-of-words model假定对于一个文本，忽略其词序和语法，句法，将其只看做是一个词集合，或者说是词的一个组合，文本中每一个词的出现都是独立的，不依赖于其它词是否出现。

应用于文本的BoW简单实例

John likes to watch movies. Mary likes too.

John also likes to watch football games.

依据上述两句话中出现的单词, 我们能构建出一个字典

{"John": 1, "likes": 2, "to": 3, "watch": 4, "movies": 5, "also": 6, "football": 7, "games": 8, "Mary": 9, "too": 10}

该字典中包括10个单词, 每一个单词有唯一索引. 依据这个字典, 我们能将上述两句话又一次表达为下述两个向量:

[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]

[1, 1, 1, 1, 0, 1, 1, 1, 0, 0]

这两个向量共包括10个元素,当中第i个元素表示字典中第i个单词在句子中出现的次数。因此BoW模型可觉得是一种统计直方图。在文本检索和处理应用中, 能够通过该模型非常方便的计算词频.

Bag-of-words应用于图像处理

背景知识

SIFT简单介绍

SIFT，尺度不变特征转换(Scale-invariant feature transform,SIFT)，是用于图像处理领域的一种描写叙述子。这样的描写叙述具有尺度不变性，可在图像中检測出关键点。是一种局部描写叙述子。

SIFT优势

SIFT特征不仅仅具有尺度不变性，即使改变旋转角度，图像亮度或拍摄视角，仍然可以得到好的检測效果。所以应用于图像识别时，可以抑制图像尺度、角度、亮度等影响。

图像特征提取

图像能够类比为文档，图像中的单词能够定义为一个图像块的特征向量。那么图像的BoW模型即是 “图像中全部图像块的特征向量得到的直方图”。

1.特征提取

如果有N张图像，第i张图像图像可由n(i)个image patch组成, 也即能够由n(i)个特征向量表达。则总共能得sum(n(i))个特征向量(即单词)。

特征向量能够使用SIFT方法获取，每个patch特征向量的维数是128。

2.生成词典/码本

如果词典的大小为100，即有100个词。用K-means算法对全部的patch进行聚类，k=100，当k-means收敛时，我们也得到了每个聚类最后的质心，那么这100个质心（维数128）就是词典里的100个词了，词典构建完成。

3.依据码本生成直方图

对每张图片，通过近期邻计算该图片的每一个 “单词”应该属于聚类中的“哪一类”单词，从而得到该图片相应于该码本的BoW表示。

Bag-of-words模型构建完毕，就能够进行分类、预測等训练

图像特征提取方法：Bag-of-words的更多相关文章

肺结节CT影像特征提取（一）——肺结节CT图像特征概要
本科毕设做的是医学CT图像特征提取方法研究,主要是肺部CT图像的特征提取.由于医学图像基本为灰度图像,因此我将特征主要分为三类:纹理特征,形态特征以及代数特征,每种特征都有对应的算法进行特征提取. 如 ...
四种简单的图像显著性区域特征提取方法-----AC/HC/LC/FT。
四种简单的图像显著性区域特征提取方法-----> AC/HC/LC/FT. 分类: 图像处理 2014-08-03 12:40 4088人阅读评论(4) 收藏举报 salient regio ...
简单的图像显著性区域特征提取方法-----opencv实现LC,AC,FT
https://blog.csdn.net/cai13160674275/article/details/72991049?locationNum=7&fps=1 四种简单的图像显著性区域特征 ...
原来CNN是这样提取图像特征的。。。
对于即将到来的人工智能时代,作为一个有理想有追求的程序员,不懂深度学习(Deep Learning)这个超热的领域,会不会感觉马上就out了?作为机器学习的一个分支,深度学习同样需要计算机获得强大的学 ...
图像特征--HOG特征
1.HOG特征:方向梯度直方图(Histogram of Oriented Gradient, HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子.它通过计算和统计图像局部区域的梯 ...
第三讲_图像特征与描述Image Feature Descriptor
第三讲_图像特征与描述Image Feature Descriptor 概要特征提取方法直方图对图片数据/特征分布的一种统计:对不同量进行直方图统计:可以表示灰度,颜色,梯度,边缘,形状,纹理, ...
Opencv 特征提取与检测-图像特征描述
图像特征描述什么是图像特征可以表达图像中对象的主要信息.并且以此为依据可以从其它未知图像中检测出相似或者相同对象常见的图像特征常见的图像特征  边缘  角点  纹理图像特征描述  描 ...
【图像算法】图像特征：GLCM灰度共生矩阵,纹理特征
[图像算法]图像特征:GLCM SkySeraph Aug 27th 2011 HQU Email:zgzhaobo@gmail.com QQ:452728574 Latest Modifie ...
OPENCV图像特征点检测与FAST检测算法
前面描述角点检测的时候说到,角点其实也是一种图像特征点,对于一张图像来说,特征点分为三种形式包括边缘,焦点和斑点,在OPENCV中,加上角点检测,总共提供了以下的图像特征点检测方法 FAST SURF ...

随机推荐

《WCF技术剖析》博文系列汇总[持续更新中]
原文:<WCF技术剖析>博文系列汇总[持续更新中] 近半年以来,一直忙于我的第一本WCF专著<WCF技术剖析(卷1)>的写作,一直无暇管理自己的Blog.在<WCF技术剖 ...
『WPF』DataGrid的使用
原文『WPF』DataGrid的使用几点说明这里主要是参考了MSDN中关于DataGrid的说明这里只会简单说明在WPF中,DataGird最简单的使用方法对于MSDN中的翻译不会很详细,也 ...
【linux】内核源代码下载与阅读
原创,转载时请注明,谢谢.邮箱:tangzhongp@163.com 博客园地址:http://www.cnblogs.com/embedded-tzp Csdn博客地址:http://blog. ...
axure母版（模板）区域介绍
axure的模板区域是非常重要的一个功能,网站的头部.尾部部分等很多页面同时用到的内容,都可以使用母版,因为在母版中只需要修改一次,就可以实现所有的页面更新,可以大大的加速原型的制作速度.需要重复理解 ...
PHP学习之-面向对象
PHP学习之-面向对象 1.什么是对象 "世界万物皆对象",一切可以被抽象出来的东西都是对象.像花,草.看不到的"概念"都是对象. 2.对象的基本组成 a.属性 ...
xxx==null和xxx.equals(null)的区别
如果xxx不是null的话,xxx==null将返回false,如果xxx是null的话,xxx将返回ture 而对xxx.equals(null)而言,他将永远返回false,因为如果xxx不是nu ...
html5的自定义data-*属性和jquery的data()方法的使用
人们总喜欢往HTML标签上添加自定义属性来存储和操作数据.但这样做的问题是,你不知道将来会不会有其它脚本把你的自定义属性给重置掉,此外,你这样做也会导致html语法上不符合Html规范,以及一些其它副 ...
try catch finally的执行顺序到底是怎样的？
首先执行try,如果有异常执行catch,无论如何都会执行finally 一个函数中肯定会执行finally中的部分. 关于一个函数的执行过程是,当有return以后,函数就会把这个数据存储在某个位置 ...
深入理解extern使用方法
一. extern做变量声明 l 声明externkeyword的全局变量和函数可以使得它们可以跨文件被訪问. 我们一般把全部的全局变量和全局函数的实现都放在一个*.cpp文件中面,然后用一个同名的 ...
进阶-案例九: WD中实现export 到Excel,Doc,Txt.
1.导出excel 文件代码导出事件代码: METHOD onactionimport . *导出excel: DATA: lo_node TYPE REF TO if_wd_context_nod ...

图像特征提取方法：Bag-of-words