今年kaggle华人优胜团队很多,所以经验.心得不少,都是干货慢慢收集. 一.[干货]Kaggle 数据挖掘比赛经验分享 github:https://github.com/ChenglongChen/Kaggle_HomeDepot 1.了解数据分布 ◆ 分析特征变量的分布 ◇ 特征变量为连续值:如果为长尾分布并且考虑使用线性模型,可以对变量进行幂变换或者对数变换. ◇ 特征变量为离散值:观察每个离散值的频率分布,对于频次较低的特征,可以考虑统一编码为"其他"类别. ◆ 分析目标变量…
Kaggle比赛冠军经验分享:如何用 RNN 预测维基百科网络流量 from:https://www.leiphone.com/news/201712/zbX22Ye5wD6CiwCJ.html 导语:来自莫斯科的 Arthur Suilin 在比赛中夺冠并在 github 上分享了他的模型 雷锋网 AI 科技评论按:最近在 Kaggle 上有一场关于网络流量预测的比赛落下帷幕,作为领域里最具挑战性的问题之一,这场比赛得到了广泛关注.比赛的目标是预测 14 万多篇维基百科的未来网络流量,分两个阶…
Sublime Text的心得经验.jikeytang/sublime-text · GitHub…
人工智能 人工智能(Artificial Intelligence),英文缩写为AI.它是研究.开发用于模拟.延伸和扩展人的智能的理论.方法.技术及应用系统的一门新的技术科学. 人工智能是对人的意识.思维的信息过程的模拟.人工智能不是人的智能,但能像人那样思考.也可能超过人的智能. 人工智能的定义可以分为两部分,即“人工”和“智能”. 机器学习 1.    什么是机器学习 根据等人事件中判断人是否迟到了解什么是机器学习,具体参见地址:http://www.cnblogs.com/helloche…
今天只是简单写下心得和体会 平时工作很忙 留给学习的时间更加珍少宝贵. 重点说下第二天的攻防比赛吧  . 三波web题 .涉及jsp,php,py. 前期我们打的很猛.第一波jsp的题看到有首页预留后门,和css路径下一个非常隐蔽的马,我们利用这个马打了一大波flag,后面审计发现后台也是弱口令,存在上传. 而在后面,我们也利用几个马打了很大一波,名次很靠前,却没有好好防守,犯了一些致命错误,源码直接被人家删完,分数一点点拖后.到最后只有省3的名次. 不记录多的,一个是平时练习不够确实和人家前面…
机器学习是人工智能(AI)的核心,是使计算机具有智能的根本途径.​ 本文整理了一下机器学习领域常用的15个术语,希望可以帮助大家更好的理解这门涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多个领域的庞杂学科. 1. AdaBoost(Adaptive Boosting) AdaBoost是Adaptive Boosting的缩写. AdaBoost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器). 2…
Visualizing a Decision Tree Google Machine Learning Recipes 2 官方中文博客 http://chinagdg.org/2016/03/machine-learning-recipes-for-new-developers/ 视频地址 http://v.youku.com/v_show/id_XMTUzNDE5Mzg0MA==.html?f=26979872&from=y1.2-3.4.3 Github工程地址 https://githu…
Hello world Google Machine Learning Recipes 1 官方中文博客 http://chinagdg.org/2016/03/machine-learning-recipes-for-new-developers/ 视频地址 http://v.youku.com/v_show/id_XMTUxODA1NTY3Mg==.html Github工程地址 https://github.com/ahangchen/GoogleML 欢迎Star Supervised…
机器学习常见算法简介 - 原文链接:http://usblogs.pwc.com/emerging-technology/machine-learning-methods-infographic/ 应该使用哪种机器学习算法? 很大程度上依赖于可用数据的性质和数量以及每一个特定用例中你的训练目标. 不要使用最复杂的算法,除非其结果值得付出昂贵的开销和资源. 这里给出了一些最常见的算法,按使用简单程度排序. 1. 决策树(DT,Decision Trees) 在进行逐步应答过程中,典型的决策树分析会…
深度学习是机器学习的一个特定分支. 1.学习算法 对于某类任务T和性能度量P, 2.线性回归 3.正规方程(normal equation) 4.监督学习(supervised learning) 5.无监督学习(unsupervised learning)…
话不多说,题目先上: 这是我们这次选择的题目,说说建模的那些事! 美赛的时间和国赛挑战杯时间略有不同,貌似多的一天是为了让我们对文章进行一个翻译吧QAQ 建议参加美赛的同学可以参照此计划进行 Day0--------------------------------------------------------- 想着明天就要比赛了,原本两个月前我和队友就计划着在学校一起比赛来着,后来听说学校出事故了,再后来不让留校,也许是单纯针对我们学院而言吧QAQ,然后比赛前一个月,我想到了一个法子,想让他…
什么造就好的Feature Google Machine Learning Recipes 3 官方中文博客 http://chinagdg.org/2016/03/machine-learning-recipes-for-new-developers/ 视频地址 http://v.youku.com/v_show/id_XMTU1MDU5OTY2OA==.html?f=26979872&from=y1.2-3.4.4 Github工程地址 https://github.com/ahangche…
已经使用CEF来呈现桌面程序界面大半年了,从来没有写过相关博文.发现网上的中文资料甚至英文已经无法满足我的开发需求,不少问题只得自己探索.在此先谢过网络上各位CEF使用开发博文的贡献者,没有你们我也难易快速入手.实在惭愧,由于精力有限,自己捣鼓出来的东西一直没有贡献出来.好吧,从今天开始,面朝大海,春暖花开. 原先公司的C++程序界面用GDI+来做,甚是麻烦.后来客户想要类似豌豆荚那样的风格,小清新.研究了下豌豆荚,发现它的界面八成是JavaScript,用CEF来嵌入Web页面.此前也听一朋友…
扣着手指头一算,自己已经毕业快半年了,这半年莫名其妙进外包圈子溜达了一圈,有幸退的早还是正常干一些事情吧,外包终究不是太适合刚入社会的毕业生,今天想把自己的学习和工作经验写成一篇文章,希望能够帮助到正在学习Linux技术的同学们,不过每个人的境遇不一样,请不要吐槽我的经历. 当初自己没能考上名牌大学,最终去了一个3+2职业学校,勉强算是专科“正经”毕业生吧,好在早些时候运气不错,被拉入技能大赛参赛队对着网络及Linux“研究”了一番,虽无大的成就,但好歹算是掌握了一技之长,勉强混口饭吃应该还是没…
(1)TOP5%Kaggler:如何在 Kaggle 首战中进入前 10% | 干货https://www.leiphone.com/news/201703/kCMQyffeP0qUgD9a.html (2)这十套练习,教你如何使用Pandas做数据分析 https://www.kesci.com/home/project/59e77a636d213335f38daec2 (3)python 实用数据挖掘 http://python.jobbole.com/88669/ (4)决策树.随机森林结…
最近用httpclient做performance testing时,发现当线程加到150时服务端就会抛出socket资源用尽的错误,根本没法再往上加,响应的速度也是相当的慢,后来经过研究,发现在server.xml中修改以一部分,增加节点数目,可以很好的提高性能: <Connector port="8080" maxHttpHeaderSize="8192" maxThreads="150" minSpareThreads="3…
https://www.jianshu.com/p/4140be00d4e3 题目描述 建模方法 特征工程 我的几次提升方法 从其他队伍那里学习到的提升方法 总结和感想 神经网络方法的一点思考 大数据量与分布式计算的一点思考 参加比赛和学习知识的对比 最后的感受 趣事 写在前面 我是一个之前PhD做分布式计算.虚拟机调度,毕业之后年初才转ML的家伙,自恃有点学习开发能力和混迹ICPC竞赛的底子,对数据还有些敏感度,有那么几个可以跟着学习的人,斗胆在5月底开始利用业余时间玩一玩. 最后的成绩是预赛…
文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 转自 | 宜信技术学院 作者 | 井玉欣 导读:随着“数据中台”的提出和成功实践,各企业纷纷在“大中台,小前台”的共识下启动了自己的中台化进程,以数据中台.技术中台.业务中台为代表的一系列技术,极大增强了业务的敏捷性,提高了组织效能.同时随着智能技术的发展,AI应用在业务研发中的占比逐渐升高,但AI模型训练的复杂性导致其开发慢.效率低,严重影响了业务的灵活性. 针对这种情况,能否基于中台化思想对业务…
作者|William Vorhies 译者|姚佳灵 编辑|Debra 导读:IBM 的沃森问答机(Question Answering Machine,简称 QAM),因 2011 年参加综艺节目<危险边缘> 获胜而出名,本应该带来医疗保健领域巨大的回报.但是,相反,IBM 及其沃森医疗保健客户正在迅速削减这些基本上没有获得回报的项目.沃森是机器学习 /AI 领域中第一个开箱即用的商业应用程序.它已经过时了吗? 感谢 IBM 引领我们创造了这么多个 AI 第一,包括: 1996 年 IBM 的…
导语:非AI专业技术人员转型AI技术,或是作为一名学生学习AI技术开发,对每个有这样诉求和经历的人来说,都希望能够看到AI技术人才的成长经历,给出自己的真实经历分享. 前言 参考塞缪尔.约翰逊(18世纪英国文学评论家.诗人,著有<英语大辞典>.<莎士比亚集>)的思路,“当一个人厌倦了学习技术,那他肯定也厌倦了IT行业:因为只有持续学习,才会有IT行业带给你的一切,包括金钱”.这是IT行业的实际情况,没有哪个人可以靠吃老本长期生存,AI技术更是如此.最近我在读<伦敦人>,…
在人工智能AI芯片与Maker创意接轨(上)这篇文章中,介绍人工智能与深度学习,以及深度学习技术的应用,了解内部真实的作业原理,让我们能够跟上这波AI新浪潮.系列文来到了中篇,将详细介绍目前市面上的各类AI芯片,进一步分析不同类型的芯片. 目前市面上对人工智能(AI)芯片常见的作法大致可分成五大类:通用型的CPU(Central Processing Unit).半通用型的GPU (GraphicsProcessing Unit).半专用型的FPGA (Field Programmable Ga…
近几年来人工智能(Artificial Intelligence, AI)喴的震天价响,吃也要AI,穿也要AI,连上个厕所也要来个AI智能健康分析,生活周遭食衣住行育乐几乎无处不AI,彷佛已经来到科幻电影中的那个世界,面对这波「智能」新浪潮,身为Maker的我们自然不能缺席.本文将分成上.中.下三篇介绍AI芯片的发展,以及Maker们如何使用AI芯片与创作接轨. AI这个领域看似深不可测,大家都说你得先学个线性代数.机率再加上一堆理论以及看了就头疼的程序代码,再经过数年修练,就能小有成就.不过,…
一.学习scrum心得 敏捷的介绍 最近上课我们了解到了敏捷,很多人开始谈论敏捷开发.研究敏捷开发,那么究竟什么才是敏捷开发呢? 简单的说,敏捷开发是一种以人为核心.迭代.循序渐进的开发方法.在敏捷开发中,软件项目的构建被切分成多个子项目,各个子项目的成果都经过测试,具备集成和可运行的特征.换言之,就是把一个大项目分为多个相互联系,但也可独立运行的小项目,并分别完成,在此过程中软件一直处于可使用状态. scrum的介绍 scrum是什么?Scrum是一种迭代式增量软件开发过程,通常用于敏捷软件开…
认识敏捷开发 在课堂上了解了瀑布开发,又在课下学习敏捷开发过程后,我发现,敏姐团队做的开发工作虽然和瀑布开发一模一样,但他们的做事方式很不一样.简单来说,两者的差别在于:瀑布开发必须先完成当前的步骤后才能进行下一步骤,而敏捷团队做需求收集,设计,编码和测试,最后交付给客户.接着再重复这个过程,周而复始,工作推进的过程中不断地改善.调整流程,一直到项目完成为止.敏捷开发是一种整体流程,也就是说,需求收集,设计,编码和设计是完全整合彼此依赖的流程.在实践中,无论我们用什么方法敏捷开发,遇到缺陷,别等…
Scrum学习心得 什么是敏捷开发? 敏捷开发(Agile Development)是一种以人为核心.迭代.循序渐进的 开发方法.它不是一门技术,它是一种开发方法,也就是一种软件开发的流程,它会指导我们用规定的环节去一步一步完成项目的开发. 老师上课曾说过瀑布开发模型,瀑布开发模型是通过写大量文档,开发人员以文档为依据进行开发,然而敏捷开发则是注重的是人与人之间,面对面的交流,它只写有必要的文档,或尽量少写文档.它还会将一个复杂且开发周期长的开发任务分成若干小周期能完成的任务,每一次开发或生产的…
from:https://36kr.com/p/5103044.html 到2020年,大多数先进的ML袖珍电脑(你仍称之为手机)将有能力执行一整套任务.个人助理将变的更加智能,它是打造这种功能的切入点.语音识别会不断优化.私人助理将不仅仅是云端搜索引擎的前端.因为个人AI将有拥有真正处理分析数据的能力,并使用搜索引擎来搜索数据. 以下是我的几个预测: 1)实时健康分析 - 当前,智能手表会监控您的心率和步数,并将其发送到您的手机中,之后手机会将其发送到云端.在不久的将来,您的个人AI将会实时读…
 下面一文章就总结几点关键: 1.要学会观察,尤其是输入数据的特征提取时,看各输入数据和输出的关系,用绘图看! 2.训练后,看测试数据和训练数据误差,确定是否过拟合还是欠拟合: 3.欠拟合的话,说明模型不准确或者特征提取不够,对于特征提取不够问题,可以根据模型的反馈来看其和数据的相关性,如果相关系数是0,则放弃特征,如果过低,说明特征需要再次提炼! 4.用集成学习,bagging等通常可以获得更高的准确度! 5.缺失数据可以使用决策树回归进行预测! 转自:http://blog.csdn.net…
得益于AI,这五个行业岗位需求将呈现显著增长趋势 人工智能与人类工作是当下许多人津津乐道的一个话题,而讨论的重点大多是围绕在"未来人工智能会不会抢走我们的工作"这个方面.本文作者 Babak Hodjat 是人工智能初创企业 Sentient Technologies 的联合创始人兼 CEO,他认为,那些担心 AI 会抢走他们工作的人其实大可不必如此紧张,因为 AI 也会催生新的工作岗位. "人工智能"一词经常会让人感觉心生恐惧和忧虑,人们畏惧人工智能所带来的未知可…
超轻量AI引擎MindSpore Lite 揭秘一下端上的AI引擎:MindSpore Lite. MindSpore Lite是MindSpore全场景AI框架的端侧引擎,目前MindSpore Lite作为华为HMS Core机器学习服务的推理引擎底座,已为全球1000+应用提供推理引擎服务,日均调用量超过3亿,同时在各类手机.穿戴感知.智慧屏等设备的AI特性上得到了广泛应用. MindSpore Lite 1.0.0 已经开源,开源之后,其接口易用性.算子性能与完备度.第三方模型的广泛支持…
英特尔 至强 平台集成 AI 加速构建数据中心智慧网络 SNA 通过 AI 方法来实时感知网络状态,基于网络数据分析来实现自动化部署和风险预测,从而让企业网络能更智能.更高效地为最终用户业务提供支撑.通过引入第二代英特尔 至强 可扩展处理器以及面向英特尔 架构优化的 TensorFlow,SNA的 AI 训练能力获得了大幅提升,让企业网络在应对复杂业务场景时更加游刃有余. 概述 软件定义网络 (Software Defined Network,SDN)得益于以自动化方式对网络资源实施灵活调配的能…