接上篇blog,继续分析.接下来要调用代码如下: // Should document frequency features be processed if (shouldPrune || processIdf) { docFrequenciesFeatures = TFIDFConverter.calculateDF(new Path(outputDir, tfDirName), outputDir, conf, chunkSize); } 首先不看shouldPrune变量,单单看proce…
seq2sparse对应于mahout中的org.apache.mahout.vectorizer.SparseVectorsFromSequenceFiles,从昨天跑的算法中的任务监控界面可以看到这一步包含了7个Job信息,分别是:(1)DocumentTokenizer(2)WordCount(3)MakePartialVectors(4)MergePartialVectors(5)VectorTfIdf Document Frequency Count(6)MakePartialVect…
接上篇,如果想对上篇的问题进行测试其实可以简单的编写下面的代码: package mahout.fansy.test.bayes.write; import java.io.IOException; import java.util.List; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import o…
接上篇,SequenceFileTokenizerMapper的输出文件在/home/mahout/mahout-work-mahout0/20news-vectors/tokenized-documents/part-m-00000文件即可查看,同时可以编写下面的代码来读取该文件(该代码是根据前面读出聚类中心点文件改编的),如下: package mahout.fansy.test.bayes.read; import java.util.ArrayList; import java.util…
按照mahout官网https://cwiki.apache.org/confluence/display/MAHOUT/Twenty+Newsgroups的说法,我只用运行一条命令就可以完成这个算法的调用了,如下: mahout@ubuntu:~/mahout-d-0.7/examples/bin$ ./classify-20newsgroups.sh 但是,我首先运行就出错了,因为我不是root账户,所以先改下路径,打开classify-20newsgroups.sh,替换/tmp/maho…
接着上篇blog,继续看log里面的信息如下: + echo 'Training Naive Bayes model' Training Naive Bayes model + ./bin/mahout trainnb -i /home/mahout/mahout-work-mahout/20news-train-vectors -el -o /home/mahout/mahout-work-mahout/model -li /home/mahout/mahout-work-mahout/lab…
我只讲讲检测部分的模型,后面两样性分类的试验我没有做,这篇论文采用了很多肺结节检测论文都采用的u-net结构,准确地说是具有DPN结构的3D版本的u-net,直接上图. DPN是颜水成老师团队的成果,简单讲就是dense 与 residual的结合,如上图,输入特征图一部分通过residual与输出相加,另一部分与residual的结果再串联,个人觉得这个网络好乱,不简洁的网络都不是好网络,恰好文章中还给出了只采用residual的版本,所以我其实要讲的是这个只有residual的u-net,上…
Datasets These datasets can be used for benchmarking deep learning algorithms: Symbolic Music Datasets Piano-midi.de: classical piano pieces (http://www.piano-midi.de/) Nottingham : over 1000 folk tunes (http://abc.sourceforge.net/NMD/) MuseData: ele…
Open Data for Deep Learning Here you’ll find an organized list of interesting, high-quality datasets for machine learning research. We welcome your contributions for curating this list! You can find other lists of such datasets on Wikipedia, for exam…
深度学习课程笔记(二)Classification: Probility Generative Model  2017.10.05 相关材料来自:http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS17.html 本节主要讲解分类问题: classification 问题最常见的形式,就是给定一个输入,我们去学习一个函数,使得该函数,可以输出一个东西(label).如下所示: 其实好多其他的问题,都是分类问题演化而来,都可以通过分类问题来解决,如:物体…
呵呵,又来到了今天的总结.这次主要复习了一下字符串的一些处理.今天就来总结一下. 理论: —String 字符串,字符串可以看成字符数组,不可变特性(通过for循环,修改string中的元素,失败!). 属性 Length                      输出用户名的字符个数 方法 str.Contains()                       判断字符串是否包含 String.IsNullOrEmpty()        判断用户输入的是否为空  –ToCharArray(…
分类的数据大小:1.2million 张,包括1000个类别. 网络结构:60million个参数,650,000个神经元.网络由5层卷积层,其中由最大值池化层和三个1000输出的(与图片的类别数相同)全链接层组成. 选用非饱和神经元和高性能的GPU来增强卷积操作.为防止在全链接层发生过拟合,我们进行规则化 'dropout'操作,效果明显. 1.说明: 通过改变卷积神经网络的深度和宽度可以控制网络自身的容量.卷积网络可以更准确的预测图片的本质(图像统计上的不变性和像素级的局部性). 相比具有相…
该论文是深度学习领域的经典之作,因为自从Alex Krizhevsky提出AlexNet并使用GPUs大幅提升训练的效率之后,深度学习在图像识别等领域掀起了研究使用的热潮.在论文中,作者训练了一个含有 60 million个参数和650000个神经元的深度卷积神经网络对ImageNet LSVRC-2010中1.2million个高分辨率彩色图像进行分类,最终取得出色的结果.在论文中作者详细描述了网络架构以及训练过 程,同时作者也对Alex网络中的一些特点及创新之处进行了介绍.下面我会记录下阅读…
注:原文代码链接http://scikit-learn.org/stable/auto_examples/text/mlcomp_sparse_document_classification.html 运行结果为: Loading 20 newsgroups training set... 20 newsgroups dataset for document classification (http://people.csail.mit.edu/jrennie/20Newsgroups) 131…
写这个系列是因为最近公司在搞技术分享,学习Spark,我的任务是讲PySpark的应用,因为我主要用Python,结合Spark,就讲PySpark了.然而我在学习的过程中发现,PySpark很鸡肋(至少现在我觉得我不会拿PySpark做开发).为什么呢?原因如下: 1.PySpark支持的算法太少了.我们看一下PySpark支持的算法:(参考官方文档) 前面两个pyspark.sql和pyspark.streaming是对sql和streaming的支持.主要是读取数据,和streaming处…
第18章---高度难题 1,-------另类加法.实现加法. 另类加法 参与人数:327时间限制:3秒空间限制:32768K 算法知识视频讲解 题目描述 请编写一个函数,将两个数字相加.不得使用+或其他算数运算符. 给定两个int A和B.请返回A+B的值 测试样例: 1,2 返回:3 答案和思路:xor是相加不进位.and得到每一个地方的进位.所以,用and<<1之后去与xor异或.不断递归. import java.util.*; public class UnusualAdd { pu…
<ImageNet Classification with Deep Convolutional Neural Networks> 剖析 CNN 领域的经典之作, 作者训练了一个面向数量为 1.2 百万的高分辨率的图像数据集ImageNet, 图像的种类为1000 种的深度卷积神经网络.并在图像识别的benchmark数据集上取得了卓越的成绩. 和之间的LeNet还是有着异曲同工之妙.这里涉及到 category 种类多的因素,该网络考虑了多通道卷积操作, 卷积操作也不是 LeNet 的单通道…
TF-IDF Algorithm From http://www.ruanyifeng.com/blog/2013/03/tf-idf.html Chapter 1, 知道了"词频"(TF)和"逆文档频率"(IDF)以后,将这两个值相乘,就得到了一个词的TF-IDF值.某个词对文章的重要性越高,它的TF-IDF值就越大. (1) 出现次数最多的词是----"的"."是"."在"----这一类最常用的词.它们…
SVM软件包 LIBSVM -- A Library for Support Vector Machines(本项目所用到的SVM包)(目前最新版:libsvm-3.21,2016年7月8日) C-SVC(C-support vector classification), nu-SVC(nu-support vector classification), one-class SVM(distribution estimation), epsilon-SVR(epsilon-support vec…
LBP(Local Binary Pattern,局部二值模式)是一种用来描述图像年提出,用于纹理特征提取.而且,提取的特征是图像的局部的纹理特征: 1.LBP特征的描述 原始的LBP算子定义为在3*3的窗口内,以窗口中心像素为阈值,将相邻的8个像素的灰度值与其进行比较,若周围像素值大于中心像素值,则该像素点的位置被标记为1,否则为0.这样,3*3邻域内的8个点经比较可产生8位二进制数(通常转换为十进制数即LBP码,共256种),即得到该窗口中心像素点的LBP值,并用这个值来反映该区域的纹理信息…
之前我们都是在Binary classification的基础上学习算法和知识. 如何使用Binary classification算法进行Multiclass classification呢? (一)One Versus All (OVA)Decomposition 现在有k种类别,如何进行分类呢? 思路1:分辨是这一类or不是这一类(Yes or Not),将问题转化成k个binary classification问题.最终得到k个w. 思路2-1:对于每一个x,我们使用logistic r…
分类(Classification)与回归都属于监督学习,两者的唯一区别在于,前者要预测的输出变量\(y\)只能取离散值,而后者的输出变量是连续的.这些离散的输出变量在分类问题中通常称之为标签(Label). 线性回归的策略同样也适用于分类吗?答案是否定的.下面结合例子简要说明理由.假设我们现在的任务是根据肿瘤大小判断是否为良性肿瘤,答案当然只有yes或no.我们用\(y=1\)表示良性肿瘤,用\(y=0\)表示恶性肿瘤.当然,如果你想用其他两个不同的值分别对应这两类肿瘤也是可以的.在下图所示的…
通过从零到一的教程,我们已经得到了通过mnist训练集生成的caffemodel,主要包含下面四个文件: 接下来就可以利用模型进行测试了.关于测试方法按照上篇教程还是选择bat文件,当然python.matlab更为方便,比如可以迅速把识别错误的图片显示出来. 一.均值文件mean.binaryproto 在进行分类之前首先需要产生所有图片的平均值图片,真正分类时的每个图片都会先减去这张平均值图片再进行分类.这样的处理方式能够提升分类的准确率. 产生均值文件的方法是利用解决方案中的compute…
感谢: XNOR-Net ImageNet Classification Using Binary Convolutional Neural Networks XNOR-Net ImageNet Classification Using Binary Convolutional Neural Networks 本人想把算法思想实现在mxnet上(不单纯是一个layer),有意愿一起的小伙伴可以联系我,本人qq(邮箱):564326047(@qq.com),或者直接在下面留言. 一.Introdu…
内容目录: JSONP应用 瀑布流布局 组合搜索 多级评论 tornado框架简介 JSONP应用 由于浏览器存在同源策略机制,同源策略阻止从一个源加载的文档或脚本获取或设置另一个源加载的文档的属性. 特别的:由于同源策略是浏览器的限制,所以请求的发送和响应是可以进行,只不过浏览器不接受罢了. 浏览器同源策略并不是对所有的请求均制约: 制约: XmlHttpRequest 不制约(不生效)的标签: img.iframe.script等具有src属性的标签 JSONP(JSONP - JSON w…
Logistic Classification Github工程地址:https://github.com/ahangchen/GDLnotes 欢迎star,有问题可以到Issue区讨论 官方教程地址 视频/字幕下载 About simple but important classifier Train your first simple model entirely end to end 下载.预处理一些图片以分类 Run an actual logistic classifier on i…
主要为第三周课程内容:逻辑回归与正则化 逻辑回归(Logistic Regression) 一.逻辑回归模型引入 分类问题是指尝试预测的是结果是否属于某一个类. 维基百科的定义为:根据已知训练区提供的样本,通过计算选择特征参数,建立判别函数以对样本进行的分类(有监督分类). 统计学习方法中定义:在监督学习中,当输出变量Y取有限个离散值时,预测问题便成为分类问题.这时,输入变量X可以是离散的,也可以是连续的.监督学习从数据中学习一个分类模型或分类决策函数,称为分类器(classifier).分类器…
转载请在页首明显处注明作者与出处 一:说明 此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的一些内容,如hadoop,spark,storm,机器学习等. 当前使用的hadoop版本为2.6.4 此为mapreducer的第二章节 这一章节中有着 计算共同好友,推荐可能认识的人 上一篇:hadoop系列三:mapreduce的使用(一) 一:说明 二:在开发工具在运行mapreducer 2.1:本地模式运行mapreducer 2.2:在开发工具中运行在yarn中 三:mapredu…
类图(ClassDiagrams)是根据系统中的类以及各类之间的关系描述系统的静态视图.类图不仅显示系统内信息的结构,还描述系统内这些信息的行为.类图的一个重要目的是为其他图(如顺序图.交互图)定义一个基础.类图由多个类以及这些类之间的关系组成. 在系统设计阶段,类图直接引导面向对象的编程语言实现类.类图是生成代码的核心要图.如果类图设计得好,整个系统的代码框架可以有类图自动生成,大大简化了系统编码所耗费的时间.因此,我们进一步:利用类图,使得代码的编写编程一种自动化工作,而整个信息系统的建设中…
FastText是Facebook开发的一款快速文本分类器,提供简单而高效的文本分类和表征学习的方法,不过这个项目其实是有两部分组成的,一部分是这篇文章介绍的 fastText 文本分类(paper:A. Joulin, E. Grave, P. Bojanowski, T. Mikolov, Bag of Tricks for Efficient Text Classification(高效文本分类技巧)), 另一部分是词嵌入学习(paper:P. Bojanowski*, E. Grave*…