摘要:近日,Robert Seaton整理了100多个最有趣的数据集,其中包括Jeopardy真题,死囚的最后一句话,20万个Eclipse Bug,足球比赛相关,柏拉图式的爱情,太阳系以外的行星,11.3万个恐怖事件等. [编者按]在数据爆发式增长的逼迫下,当下数据分析能力已得到长足的发展,机器学习更成为数据处理中必不可缺少的一环.这里,为大家分享Robert Seaton在其个人博客上整理的100+最有趣的数据集,从柏拉图式的爱情到政治竞选再到死刑囚犯,可谓是应有尽有,旨在给大家的模型训练的…
自己搞了20万张图片100个分类,tensorflow训练23万次后...... 我自己把训练用的一张图片,弄乱之后做了一个预测 100个汉字,20多万张图片,tensorflow CNN训练23万次它自己停止训练了.预测的时候类似这样   我故意搞的缺边缺角的都能正常识别 预测结果类别是70,恰恰就是我其中一个训练集中的汉字 "亚" 准确率看样子还是不错的,就是不知道能有什么具体的应用了…
奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表(原始未结构化的文本数据),快去按图索骥下载数据自己研究吧! 数据集 Apache软件基金会公开邮件档案:截止到2011年7月11日全部公开可用的Apache软件基金会邮件档案.(200 GB) http://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/ 博主原创语料库:包含2004年8月从blogger.com网站收集的19,32…
Kafka支持单集群20万分区 之前网上关于确定Kafka分区数的博客多多少少都源自于饶军大神的文章,如今他带来了这方面的第二篇文章,特此翻译一下,记录一下其中的要点. 原贴地址: https://www.confluent.io/blog/apache-kafka-supports-200k-partitions-per-cluster Kafka中topic可以设置多个分区,而分区是最小的并行度单位.通常而言,分区数越多吞吐量也越高.但是依然有很多因素制约了一个Kafka集群所能支持的最大分…
一.为什么要写这篇文章 前段时间,有个辞职 创业的同事(做法务的)  问我 开发一个 新闻类的APP要多少钱,产品.UI.接口.后台管理页  他们啥都没有,想全部外包. 我 并没有在外包公司做过,也没有接过私活,但是毕竟一线开发也做了很多年,做过服务端.APP,也管理过开发团队. 没吃过猪肉 也是见过猪跑的.于是写了这篇 文章,来阐述 自己对 外包 中报价和开发时间 的想法.顺带说了下 工作中的时间评估. 有的 想法 可能不对,欢迎探讨. 二.外包 的报价. 暂时叫 我的那位老同事 叫 小明 吧…
on my god,写20万数据到Excel只需9秒   还是菜鸟时,在某个.Net项目中,用户需要从业务系统导出Report,而数据量通常都在上万条以上,最初采用的方式就是在服务器端用NPOI生成Excel,把Data一行一行一个Cell一个Cell地写到Excel中的每个Cell中,若用户对Report格式要求高一点,还要一个Cell一个Cell设置单元格的Style,然后把Report给用户下载.结果上万条的数据用户导出需要几十分钟.这样导出Report,是个人都要crazy了.....…
众所周知,IT行业是个高薪行业,也是很多人的梦想职业,在全球最缺人的十大行业中IT行业居首位. 但是现在很多人都有一个疑问: 几乎每所大学里都有计算机技术相关专业,再加上IT培训机构的输出,每年培养出来的技术人才加在一起有20多万人,如此多的人为何还会人才短缺呢? 行业技术人才短缺可以说是一个完全不容置疑的事实,对于这个问题很容易解答. 首先假设所有这20多万IT技术人才全部技术达标能够适应企业的岗位需求,他们能够填补整个行业近20万的人才需求. 但是IT互联网正在以前所未有的速度快速发展,每年…
(附注:本文转载于:http://www.eoeandroid.com/thread-296678-1-1.html) 前些天和一个年轻的朋友谈跳槽.朋友说她需要在两个offer里面做选择.一个是年薪20万的职位,一个是年薪15万的职位.她更喜欢后者的节奏与内容,却被前面稍高的工资吸引.我们仔细算了一下她的工作时间:前者是每天工作近11个小时,节假日偶尔也要加班,后者则基本是8小时规律的生活.遇到这样的问题我们该如何选择?且听我们分解. 关于年薪 说到年薪,我们来看看到底什么是年薪. 记得我刚工…
还是菜鸟时,在某个.Net项目中,用户需要从业务系统导出Report,而数据量通常都在上万条以上,最初采用的方式就是在服务器端用NPOI生成Excel,把Data一行一行一个Cell一个Cell地写到Excel中的每个Cell中,若用户对Report格式要求高一点,还要一个Cell一个Cell设置单元格的Style,然后把Report给用户下载.结果上万条的数据用户导出需要几十分钟.这样导出Report,是个人都要crazy了..... 当时,老板也没给压力,只是说,能不能搞定,搞不定我就从外面…
本周我们的目标是:B站(哔哩哔哩弹幕网 https://www.bilibili.com )视频评论数据. 我们都知道,B站有很多号称“镇站之宝”的视频,拥有着数量极其恐怖的评论和弹幕.所以这次我们的目标就是,爬取B站视频的评论数据,分析其为何会深受大家喜爱. 首先去调研一下,B站评论数量最多的视频是哪一个...好在已经有大佬已经统计过了,我们来看一哈! ​[B站大数据可视化]B站评论数最多的视频究竟是?来自 <https://www.bilibili.com/video/av34900167/…