贡献指南:https://github.com/apachecn/ds100-textbook-zh/blob/master/CONTRIBUTING.md 整体进度:https://github.com/apachecn/ds100-textbook-zh/issues/2 项目仓库:https://github.com/apachecn/ds100-textbook-zh 贡献指南 请您勇敢地去翻译和改进翻译.虽然我们追求卓越,但我们并不要求您做到十全十美,因此请不要担心因为翻译上犯错--在…
公告 我们的所有非技术内容和活动,从现在开始会使用 iBooker 这个名字. "开源互助联盟"已终止,我们对此表示抱歉和遗憾.除非特地邀请,我们不再推广他人的任何项目. 公众号自动回复已更新,添加了"轻小说/知识星球"关键词. 我们近期将所有内容备份到 Gitee,欢迎访问 Gitee@ApacheCN. 欢迎大家在我们平台上投放广告.如果你希望在我们的专栏.文档或邮件中投放广告,请准备好各种尺寸的图片和专属链接,联系咸鱼(1034616238). 为了能够将开源…
特约赞助商 公告 我们愿意普及区块链技术,但前提是互利互惠.我们有大量技术类学习资源,也有大量的人需要这些资源.如果能借助区块链技术存储和分发,我们就能将它们普及给我们的受众. 我们正在招募项目负责人,完成三次贡献可以申请,请联系片刻(529815144).几十个项目等你来申请和参与,不装逼的朋友,我们都不想认识. BiliDriveEx 修复完成,接下来我们会多适配几个图床. "开源互助联盟"已终止,我们对此表示抱歉和遗憾.除非特地邀请,我们不再推广他人的任何项目. 我们接受&quo…
公告 我们正在招募项目负责人,完成三次贡献可以申请,请联系片刻(529815144).几十个项目等你来申请和参与,不装逼的朋友,我们都不想认识. 薅资本主义羊毛的 CDNDrive 计划正式启动! 我们的所有非技术内容和活动,从现在开始会使用 iBooker 这个名字. "开源互助联盟"已终止,我们对此表示抱歉和遗憾.除非特地邀请,我们不再推广他人的任何项目. 欢迎大家在我们平台上投放广告.如果你希望在我们的专栏.文档或邮件中投放广告,请准备好各种尺寸的图片和专属链接,联系咸鱼(103…
公告 我们的机器学习群(915394271)正式改名为财务提升群,望悉知. 请关注我们的公众号"ApacheCN",回复"教程/路线/比赛/报告/技术书/课程/轻小说/漫画/新知"来获取更多资源. 我们愿意普及区块链技术,但前提是互利互惠.我们有大量技术类学习资源,也有大量的人需要这些资源.如果能借助区块链技术存储和分发,我们就能将它们普及给我们的受众. 我们正在招募项目负责人,完成三次贡献可以申请,请联系片刻(529815144).几十个项目等你来申请和参与,不装…
计算与推断思维 一.数据科学 二.因果和实验 三.Python 编程 四.数据类型 五.表格 六.可视化 七.函数和表格 八.随机性 九.经验分布 十.假设检验 十一.估计 十二.为什么均值重要 十三.预测 十四.回归的推断 十五.分类 十六.比较两个样本 十七.更新预测 利用 Python 进行数据分析 · 第 2 版 第 1 章 准备工作 第 2 章 Python 语法基础,IPython 和 Jupyter 笔记本 第 3 章 Python 的数据结构.函数和文件 第 4 章 NumPy…
第一章 1.Anaconda(最著名的python数据科学平台) 下面小伙伴们咱们来初初识下Anaconda吧 What is Anaconda???? 回答: (1).科学计算的平台 (2).有很多方便的包可供咱们使用 (3).跨平台:Mac \Linux\Windows (4).最重要的是:开源免费还有社区供小伙伴们交流 2.安装Anaconda 下载地址:https://mirror.tuna.tsinghua.edu.cn/help/anaconda/(咱们到清华的国内镜像下载快些)[g…
原文链接:Data Science For Banking & Insurance 如果不能正常访问,请点击备份获取. 在银行和保险行业应用数据科学 互联网巨头和金融技术创业时代的求生和发展 介绍 在数个世纪的进程中,银行和保险行业开发出的程序.产品和基础设施,塑造了整个人类的经济史. 但是现在,他们正面临着消亡的威胁,而挑战者们出现在世界舞台上只是几十年的事,甚至其中几个就出现在短短几年前.尽管如此,却正是这些后来者正在重新制定金融服务的行业规则.这些挑战者包括像 Google.亚马逊.Fac…
一.简介 Keras是有着自主的一套前端控制语法,后端基于tensorflow和theano的深度学习框架,因为其搭建神经网络简单快捷明了的语法风格,可以帮助使用者更快捷的搭建自己的神经网络,堪称深度学习框架中的sklearn,本文就将基于Keras,以手写数字数据集MNIST为演示数据,对多层感知机(MLP)的训练方法进行一个基本的介绍,而关于多层感知机的相关原理,请移步数据科学学习手札34:https://www.cnblogs.com/feffery/p/8996623.html,本文不再…
目录 <Python数据科学手册>第五章机器学习的笔记 0. 写在前面 1. 判定系数 2. 朴素贝叶斯 3. 自举重采样方法 4. 白化 5. 机器学习章节总结 <Python数据科学手册>第五章机器学习的笔记 0. 写在前面 参考书 <Python数据科学手册>第五章"机器学习" 工具 Jupyter Lab 作用 给书中没有的知识点做补充. 1. 判定系数 定义 判定系数(coefficient of determination),也叫可决系数…
前言 本文讲解了从零开始学习Python数据科学的全过程,涵盖各种工具和方法 你将会学习到如何使用python做基本的数据分析 你还可以了解机器学习算法的原理和使用 说明 先说一段题外话.我是一名数据工程师,在用SAS做分析超过5年后,决定走出舒适区,寻找其它有效的数据分析工具,很快我发现了Python! 我非常喜欢编程,这是我真正喜欢做的事情.事实证明,编程并没有想象中的那么难. 我在一周之内学习了Python的基本语法,接着我一方面继续深入探索Python,另一方面帮助其他人学习这门语言.P…
介绍 "Another day has passed, and I still haven't used y = mx + b." 这听起来是不是很熟悉?我经常听到我大学的熟人抱怨他们花了很多时间的代数方程在现实世界中基本没用. 好吧,但我可以向你保证,并不是这样的.特别是如果你想开启数据科学的职业生涯. 线性代数弥合了理论与概念实际实施之间的差距.对线性代数的掌握理解打开了我们认为无法理解的机器学习算法的大门.线性代数的一种这样的用途是奇异值分解(SVD)用于降维. 你在数据科学中一…
写在前面 9.28接收了拟录取通知,也终究是尘埃落定了,我人生的又一个阶段也终于结束.面对最终录取结果,或多或少会有所遗憾,但也还是基本达到了预期的目标了. 作为在今年严峻的保研形势下幸存的我,一直想着把这段经历记录下来,一方面是满足自己,更多的是为了本学院有志于保研的学弟学妹们,亦或是同样来自双非计算机专业的同学,希望我的经历能够带给你们帮助,让你们少走些弯路,成功上岸理想中的大学- 觉得有用的话大家可以点个赞或者收藏支持我一下hhhh 0. 保研黑话 以下是一些需要提前了解的保研黑话: 术语…
文本文件是基本的文件类型,不管是csv, xls, json, 还是xml等等都可以按照文本文件的形式读取. #-*- coding: utf-8 -*- fpath = "data/textfile.txt" f = open(fpath, 'r') ## 按照字符读取字符 first_char = f.read(1) print "first char: ", first_char ## 改变文件对象的位置, 位置是按照bytesize计算的 ## 如果不把位置…
Python拥有着极其丰富且稳定的数据科学工具环境.遗憾的是,对不了解的人来说这个环境犹如丛林一般(cue snake joke).在这篇文章中,我会一步一步指导你怎么进入这个PyData丛林. 你可能会问,很多现有的PyData包推荐列表怎么样?我觉得对新手来说提供太多的选择可能会受不了.因此这里不会提供推荐列表,我要讨论的范围很窄,只集中于10%的工具,但它们可以完成你90%的工作.当你掌握这些必要的工具后,你就可以浏览PyData工具的长列表了,选择自己接下来要使用的. 值得一提的是,我介…
敏捷数据科学:用Hadoop创建数据分析应用(数据分析最佳实践入门敏捷大数据首作分步骤|全流程演示思路.工具与方法) [美]Russell Jurney(拉塞尔·朱尔尼) 著   冯文中 朱洪波 译 ISBN 978-7-121-23619-8 2014年7月出版 定价:49.00元 184页 16开 编辑推荐 对大数据的挖掘需要投入大量的人力和时间.怎么才能确保构建的是一个正确的模型?通过这本实践指南,你可以学到一套灵活的工具和方法论,在Hadoop上构建数据分析应用. 使用诸如Python.…
建议:如果只是处理(小)数据的,用R.结果更可靠,速度可以接受,上手方便,多有现成的命令.程序可以用.要自己搞个算法.处理大数据.计算量大的,用python.开发效率高,一切尽在掌握. 概述 在真实的数据科学世界里,我们会有两个极端,一个是业务,一个是工程.偏向业务的数据科学被称为数据分析(Data Analysis),也就是A型数据科学.偏向工程的数据科学被称为数据构建(Data Building),也就是B型数据科学. 从工具上来看,按由业务到工程的顺序,这个两条是:EXCEL >> R…
相关学习资料 https://www.frozentux.net/iptables-tutorial/cn/iptables-tutorial-cn-1.1.19.html http://zh.wikipedia.org/wiki/Netfilter http://www.netfilter.org/projects/iptables/ http://linux.vbird.org/linux_server/0250simple_firewall.php http://linux.vbird.o…
很多牛逼的公司都宣称在建立数据科学部门,这个部门该如何组建,大家都在摸石头过河. O‘reilly Strata今年 六月份发布了报告 <Analyzing the Analyzers>,比较清晰的阐述了数据科学部门所需要的不同角色及其技能.重点内容翻译如下: 数据科学家的分类研究方法 自我认识 请被调查者用常用的5级标准(从完全同意到完全不同意)来回答 “我觉得自己是一个XX” 这样的问题,能够获得数据科学家的自我认识结果.调查结果将数据科学家分为以下四类:Data Businesspeop…
本来我以为不需要解释这个问题的,到底数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)有什么区别,但是前几天因为有个学弟问我,我想了想发现我竟然也回答不出来,我在知乎和博客上查了查这个问题,发现还没有人写过比较详细和有说服力的对比和解释.那我根据以前读的书和论文,还有和与导师之间的交流,尝试着说一说这几者的区别吧,毕竟一个好的定义在未来的学习和交流中能够发挥很大的作用.同时补上数据科学和商业分析之间的关系.能力有限,如有疏漏,请包涵和指正. 导论…
深度剖析HashMap的数据存储实现原理(看完必懂篇) 具体的原理分析可以参考一下两篇文章,有透彻的分析! 参考资料: 1. https://www.jianshu.com/p/17177c12f849 [JDK8中的HashMap实现原理及源码分析] 2. https://tech.meituan.com/java-hashmap.html [Java 8系列之重新认识HashMap] 1.关键字段: /** * The default initial capacity - MUST be a…
最近我参加了一次来自西安的电话面试(第二轮,技术面),是大厂还是小作坊我在这里按下不表,先来说说这次电面给我留下印象较深的几道面试题,这次先来谈谈Vue的数据双向绑定原理. 情景再现: 当我手机铃声响起,看着屏幕上面显示的归属地是来自陕西西安的电话,我知道属于我人生的第一次电话面试要来了.接起电话后,电脑那头传来了面试官的声音(中间省略了一些客套,直接上面试题.)面试官发问,"谈谈你对Vue数据双向绑定的认识". 面试官的这个问题也可以理解成为"你是怎么理解Vue数据绑定,知…
https://www.leiphone.com/news/201703/iZGuGfnER4Sv2zRe.html 2017年Gartner数据科学平台(在2016年被称作“高级分析平台”)的魔力象限报告于近期出炉了.今年的报告对16个数据分析公司进行了15个标准的评估,并基于前瞻性(Completeness of Vision)和执行能力(Ability of Execute),将他们按评分放置在四个象限中(魔力象限的横坐标表示的是前瞻性,纵坐标表示的则是执行能力). 尽管像Python和R…
文章提纲 全书总评 C01.Python 介绍 Python 版本 Python 解释器 Python 之禅 C02.Python 基础知识 基础知识 流程控制: 函数及异常 函数: 异常 字符串 获取键盘输入: 字符串处理 字符串操作 正则表达式 C05. 容器(Container)与集合(Collections) 元组(Tuple) 列表(List) 字典(Dictionary) 集合(Collections) C06.Python 标准库 数学模块:math 时间模块:time,datet…
Python数据科学手册(高清版)PDF 百度网盘 链接:https://pan.baidu.com/s/1KurSdjNWiwMac3o3iLrzBg 提取码:qogy 复制这段内容后打开百度网盘手机App,操作更方便哦 内容简介  · · · · · · 本书是对以数据深度需求为中心的科学.研究以及针对计算和统计方法的参考书.本书共五章,每章介绍一到两个Python数据科学中的重点工具包.首先从IPython和Jupyter开始,它们提供了数据科学家需要的计算环境:第2章讲解能提供ndarr…
Jupyter Notebooks 是数据科学/机器学习社区内一款非常流行的工具.Jupyter Notebooks 允许数据科学家创建和共享他们的文档,从代码到全面的报告都可以.李笑来 相当于拿他来学编程和写文档(书)之前只是看到机器人项目写python的同事在服务器部署了anaconda3 搜索anaconda3时,有看到过jupyter这种名字 搞python可科学相关 要很多做代码画图工具的 感觉用处多些个人写代码不大确定 看李笑来的书 看其写文档的功能很全.类似python编程入门 李…
Python是门很神奇的语言,历经时间和实践检验,受到开发者和数据科学家一致好评,目前已经是全世界发展最好的编程语言之一.简单易用,完整而庞大的第三方库生态圈,使得Python成为编程小白和高级工程师的首选. 在本文中,我们会分享不同于市面上的python数据科学库(如numpy.padnas.scikit-learn.matplotlib等),尽管这些库很棒,但是其他还有一些不为人知,但同样优秀的库需要我们去探索去学习. 1. Wget 从网络上获取数据被认为是数据科学家的必备基本技能,而Wg…
面试题 es 写入数据的工作原理是什么啊?es 查询数据的工作原理是什么啊?底层的 lucene 介绍一下呗?倒排索引了解吗? 面试官心理分析 问这个,其实面试官就是要看看你了解不了解 es 的一些基本原理,因为用 es 无非就是写入数据,搜索数据.你要是不明白你发起一个写入和搜索请求的时候,es 在干什么,那你真的是...... 对 es 基本就是个黑盒,你还能干啥?你唯一能干的就是用 es 的 api 读写数据了.要是出点什么问题,你啥都不知道,那还能指望你什么呢? 面试题剖析 es 写数据…
一.引入 import matplotlib as mpl import matplotlib.pyplot as plt 二.配置 1.画图接口 Matplotlib 有两种画图接口: (1)一个是便捷的 MATLAB 风格接口 (2)功能更强大的面向对象接口[推荐,下文都以这个为例] 在面向对象接口中,画图函数不再受到当前"活动"图形或坐标轴的限制,而变成了显式的 Figure 和 Axes 的方法(一个Figure画布下可以有多个Axes子图). 2.静态 or 交互 %matp…
注:很早之前就打算专门写一篇与Python数据可视化相关的博客,对一些基本概念和常用技巧做一个小结.今天终于有时间来完成这个计划了! 0. Python中常用的可视化工具 Python在数据科学中的地位,不仅仅是因为numpy, scipy, pandas, scikit-learn这些高效易用.接口统一的科学计算包,其强大的数据可视化工具也是重要组成部分.在Python中,使用的最多的数据可视化工具是matplotlib,除此之外还有很多其他可选的可视化工具包,主要包括以下几大类: matpl…