preface Python在大数据行业非常火爆近两年,as a pythonic,所以也得涉足下大数据分析,下面就聊聊它们. Python数据分析与挖掘技术概述 所谓数据分析,即对已知的数据进行分析,然后提取出一些有价值的信息,比如统计平均数,标准差等信息,数据分析的数据量可能不会太大,而数据挖掘,是指对大量的数据进行分析与挖倔,得到一些未知的,有价值的信息等,比如从网站的用户和用户行为中挖掘出用户的潜在需求信息,从而对网站进行改善等. 数据分析与数据挖掘密不可分,数据挖掘是对数据分析的提升.…
preface Python在大数据行业非常火爆近两年,as a pythonic,所以也得涉足下大数据分析,下面就聊聊它们. Python数据分析与挖掘技术概述 所谓数据分析,即对已知的数据进行分析,然后提取出一些有价值的信息,比如统计平均数,标准差等信息,数据分析的数据量可能不会太大,而数据挖掘,是指对大量的数据进行分析与挖倔,得到一些未知的,有价值的信息等,比如从网站的用户和用户行为中挖掘出用户的潜在需求信息,从而对网站进行改善等.数据分析与数据挖掘密不可分,数据挖掘是对数据分析的提升.数…
preface 在上一章节我们聊了python大数据分析的基本模块,下面就说说2个项目吧,第一个是进行淘宝商品数据的挖掘,第二个是进行文本相似度匹配.好了,废话不多说,赶紧上车. 淘宝商品数据挖掘 数据来源: 自己写个爬虫爬吧,爬到后入库(mysql). 数据清洗: 所谓的数据清洗,就是把一些异常的.缺失的数据处理掉,处理掉不一定是说删除,而是说通过某些方法将这个值补充上去,数据清洗目的在于为了让我们数据的可靠,因为脏数据会对数据分析产生影响. 拿到数据后,我们进行数据清洗分为两方面: 缺失值发…
数据清洗: 所谓的数据清洗,就是把一些异常的.缺失的数据处理掉,处理掉不一定是说删除,而是说通过某些方法将这个值补充上去,数据清洗目的在于为了让我们数据的可靠,因为脏数据会对数据分析产生影响.拿到数据后,我们进行数据清洗分为两方面: 缺失值发现:可以查找 异常值发现:画图分析 缺失值:在下载数据.搜集数据的时候刚好就缺失.可以通过查找的方法去发现. 异常值:不一定就是异常,可能就是客观存在,但是这个值对于总的数据来说是一个就比较特殊点.可以通过画散点图发现. 这两方面的处理方法如下: 缺失值处理…
概述 以 Hortonworks Data Platform (HDP) 平台为例 ,hadoop大数据平台的安全机制包括以下两个方面: 身份认证 即核实一个使用者的真实身份,一个使用者来使用大数据引擎平台,这个使用者需要表明自己是谁,即提供自己的身份证明,大数据平台需要检验这个证明,确定这个证明是有效的,且不是伪造的.否则,就拒绝这个使用者进入大数据引擎. 授权管理 这个使用者的真实身份核实之后,需要对这个使用者的使用权限进行界定,即这个使用者在大数据平台中能够使用什么组件,能够获取哪些资源,…
[Linux基础]Linux基础知识入门及常见命令.   前言:最近刚安装了Linux系统, 所以学了一些最基本的操作, 在这里把自己总结的笔记记录在这里. 1,V8:192.168.40.10V1:192.168.40.11Linux ip:192.168.40.128 2,Linux是一个操作系统, 与windows的区别:Linux:图形化界面简单,性能很快,在企业中当做服务器来使用.Windows:图形化界面很炫,性能相对差,大众用户.windows的服务器: windows2003,w…
Hibernate入门1. Hibernate基础知识入门 20131127 前言: 之前学习过Spring框架的知识,但是不要以为自己就可以说掌握了Spring框架了.这样一个庞大的Spring架构,不是我们可以速成的.再有最近Spring有转型,Spring官方网站已经更改了很多,因为Spring已经调整了他的整个业务体系,涉足服务器开发.Android开发.大数据分析等等各个部分,而不仅仅是一个包容性的框架了,Spring未来的发展方向更加开阔了. 同时Spring已经不再提供下载,而是转…
Python专题三字符串的基础知识 在Python中最重要的数据类型包括字符串.列表.元组和字典等.该篇主要讲述Python的字符串基础知识. 一.字符串基础 字符串指一有序的字符序列集合,用单引号.双引号.三重(单双均可)引号引起来.如: s1='www.csdn.NET'   s2="www.csdn.Net"   s3='''aaabbb''' 其中字符串又包括: 1.转义字符串 像C语言中定义了一些字母前加"\"来表示常见的那些不能显示的ASCII字符,py…
python爬虫之Beautiful Soup基础知识 Beautiful Soup是一个可以从HTML或XML文件中提取数据的python库.它能通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. 需要注意的是,Beautiful Soup已经自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码.因此在使用它的时候不需要考虑编码方式,仅仅需要说明一下原始编码方式就可以了. 一.安装Beautiful Soup库 使用pip命令工具安装Beautiful Soup4库…
大数据的4V特点: Volume(大量):数据巨大. Velocity(高速):数据产生快,每一天每一秒全球人产生的数据足够庞大且数据处理也逐渐变快. Variety(多样):数据格式多样化,如音频数据.文本数据等 Value(价值):通过收集大量数据不相关数据探查并证明其两者之间的关联性,所产生的价值,如买啤酒的人通常会购买尿布的案例. 数据分析流程 一般可以按“数据获取-数据存储与提取-数据预处理-数据建模与分析-数据可视化”这样的步骤来实施一个数据分析项目.按照这个流程,每个部分需要掌握的…
前记: 近来项目用到Oracle数据库,大学学了点,后面基本忘记得差不多了,虽然基本语法跟sql 差不多,但是oracle知识是非常多的. 这里简单说点基础知识,希望后面补上更多的关于ORacle知识博客.入门的朋友可以看看,高手就可以绕过了. 不晓得你们用的什么工具,我用的Toad.用起来还是不错的. 第一部分,创建数据, create table student ( sName varchar(20) primary key, sAge int, sEmail varchar(100), s…
SpringMVC基础知识 1.什么是Springmvc 2.springmvc 框架的原理(必须掌握) 前端控制器.处理器映射器.处理器适配器.视图解析器 3.SpringMVC 入门程序 目的:对前端控制器(DispatcherServlet) .处理器映射器(HandlerMapping). 处理器适配器(HandlerAdapter). 视图解析器进行学习(Vier Resolver) 非注解的处理器映射器.处理器适配器 注解的处理器映射器.处理器适配器 4.SpringMVC  和 M…
一.什么是爬虫,爬虫能做什么 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据. 爬虫可以抓取的某个网站或者某个应用的内容,提取有用的价值.也可以模拟用户在浏览器或者App应用上的操作,实现自动化的程序.以下行为都可以用爬虫实现: 咨询报告(咨询服务行业) 抢票神器 投票神器 预测(…
Python上手很容易,免费开源,跨平台不受限制,面向对象,框架和库很丰富. Python :Monty Python's Flying Circus (Python的名字来源,和蟒蛇其实无关). 通过homebrew和pyenv可以维护多个Python版本. 相关知识 HTTP = HyperText Transfer Protocol URI = Uniform Resource Identifier 强调资源 URL = Uniform Resource Locator 强调资源的位置 可…
基础入门知识(一) 一.java技术的分类 java按照技术标准和应用场景的不同分为三类,分别是JAVASE.JAVAEE.JAVAME JAVASE : 平台标准版,用于开发部署桌面,服务器以及嵌入式设备和实时环境中的java程序. JAVAEE : 平台企业版,开发便于组转,可扩展,健壮,安全的服务器端java应用,建立在se之上,具有web服务,组件模型和web通信等 JAVAME : 平台微版,移动设备的开发平台. 二 .java语言的发展史 java语言几个比较重要的时间点: 1995…
第1章 ClickHouse概述 1.1 什么是ClickHouse ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库(DBMS),主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告. 1.2 什么是列式存储 以下面的表为例: Id Name Age 1 张三 18 2 李四 22 3 王五 34 采用行式存储时,数据在磁盘上的组织结构为: 1 张三 18 2 李四 22 3 王五 34 好处是想查某个人所有的属性时,可以通过一次磁盘查找加顺…
安装就不说了,网上多得是,我的MySQL是8.0版本,可以参考:CentOS7安装MySQL8.0图文教程和MySQL8.0本地访问设置为远程访问权限 我的MySQL安装在阿里云上面,阿里云向外暴露端口,除了在/etc/sysconfig/iptables防火墙添加配置外,还需要到官网控制台安全组加入 端口,这是刚开始用阿里云服务器容易忽略的 本文为转载,PS内容为本人添加补充部分.原文地址:一千行 MySQL 学习笔记,博客时间是14年的,所以有些可能和8.0版本存在差异,但是 作为MySQL…
事件是javascript和HTML交互基础, 任何文档或者浏览器窗口发生的交互, 都要通过绑定事件进行交互; 事件有DOM0, DOM2和DOM3的区分(别问我怎么少了一个DOM1, 也没找到DOM1的信息啊,); DOM0就是直接通过 onclick写在html里面的事件, 比如: <input onclick="alert(1)" /> DOM2是通过addEventListener绑定的事件, 还有IE下的DOM2事件通过attachEvent绑定; DOM3是一些…
英语PDF下载链接http://download.csdn.net/detail/tsingheng/7480427 Swift是用来开发iOS和OS X应用的新语言,可是很多地方用起来跟C或者OC是差点儿相同的. Swift提供了C语言和OC的基本数据类型,比方整型用Int,浮点型用Double或者Float,布尔型用Bool,字符串文本用String.Swift还提供了两种集合类型.Array和Dictionary,后面会介绍. Swift也跟C一样用唯一的变量名来存储与使用数据,还能使用一…
好的,我们开始吧,打开Eclipse,新建一个项目,就叫做Base吧,基础班的意思.注意哦,要建一个JavaWeb项目.右键,new,Dynamic Web Project,如果出来的菜单项没有,就点最下面的others,找到Dynamic Web Project. (注:你不需要跟着我一步一步搭项目,到时候直接通过SVN把项目Import到本地,需要做什么作业的话,我会在最后给出.你们直接导入项目,看我的源码就OK了.) 点Next. 点Next. 点击Finish,项目新建成功! 目录结构如…
1)  Python插件为何物 一个插件(add-in)就是一个客户化,比如嵌入到ArcGIS应用程序中的工具条上的一系列工具,这些工具作为ArcGIS标准程序的补充可以为客户完成特殊任务. ArcGIS10中加入了一种新的插件模型,这种新的模型可以让我们更方便地定制和扩展ArcGIS应用程序功能.新的插件模型为我们提供了一种基于声明的框架,在这个框架基础上我们可以轻松的创建一系列定制包,这些包存在于一个以.esriaddin结尾的压缩包中. 在ArcGIS10中,插件是采用.net或java以…
开始学习<Python基础教程> 1.2 交互式解释器 按照书上的例子敲了个最简单的print函数,居然报错: >>> print "fsdfs"SyntaxError: Missing parentheses in call to 'print',上网查了一下,python 3和Python2的语法不一样,我按照的是3,但是书中的例子是2: >>> print("fsdfs")fsdfs>>> 1.…
目录 什么是编程语言 什么是编程? 为什么要编程? 计算机5大组成分别有什么作用? qq启动的流程? 建议相关学习 课外 什么是编程语言 什么是编程语言? python和中文.英语一样,都是一门语言,只要是语言,其实就可以看成是一种事物与另外一种事物沟通的介质.python属于编程语言,编程语言是程序员和计算机之间沟通的介质:中文和英语则是人与人之间沟通的介质. 什么是编程? 编程指的是:程序猿基于某种编程语言的语法格式将自己脑中的想要让计算机做的事情,写到文件中.所以说编程的结果就是一堆文件,…
一.java简介及原理图 Java的前世今生 Java之父詹姆斯·高斯林: 1967年, 12岁用报废的电话机和电视做了一台电子游戏机; 1983年, 获得卡内基梅隆大学计算机科学博士学位; 1983年, 毕业后设计了IBM第一代工作站; 1990年, 领导开发Sun用于数字家电的编程语言Oak(橡树); 1994年, Oak被更名为Java, 在硅谷发布并引发热潮; 2000年, Java成为世界上最流行的编程语言 JDK(Java Development Kit) JDK是Java开发工具包…
一.注释 单行注释 #打印“hello world” print("hello.world!") 另外一种单行注释 print("hello,world!") #打印hello,world 多行注释 ''' print("l love u") print("china") ''' 二.算术运算符 操作符 描述 例子 + 加法 - 对操作符的两侧增加值 a + b = 30 - 减法 - 减去从左侧操作数右侧操作数 a - b…
Copyright © 2000-2017, NORYES, All Rights Reserved. http://www.cnblogs.com/noryes/ --------------------------------------------------------------------------------------- 以下每个问题都是 C++ 的基础问题,看似简单,但要真正理解每个问题背后的设计思想,是需要我们去认真思考的. 1.C++ 三大特性是什么,为什么要如此设计?…
前言Redis在互联网技术存储方面使用如此广泛,几乎所有的后端技术面试官都要在Redis的使用和原理方面对小伙伴们进行360°的刁难.作为一个在互联网公司面一次拿一次offer的面霸(请允许我使用一下夸张的修辞手法),打败了无数竞争对手,每次都只能看到无数落寞的身影失望的离开,略感愧疚,在一个寂寞难耐的夜晚,我痛定思痛,决定开始写吊打面试官系列,希望能帮助各位读者以后面试势如破竹,对面试官进行360°的反击,吊打问你的面试官,吊打一同面试的同僚(好像不太好),疯狂收割大厂offer! 面试开始一…
1.常见的场景:一个模块就是一个包含了python定义和声明的文件,文件名就是模块名字加上.py的后缀 2.为了方便管理,我们通常将程序分成一个个的文件,这样做程序的结构更清晰,方便管理.这时我们不仅仅可以把这些文件当做脚本去执行,还可以把他们当做模块来导入到其他的模块中,实现了功能的重复利用 3.第一次导入后就将模块名加载到内存了,后续的import语句仅是对已经加载大内存中的模块对象增加了一次引用,不会重新执行模块内的语句 4.每个模块都是一个独立的名称空间,定义在这个模块中的函数,把这个模…
前言:最近刚安装了Linux系统, 所以学了一些最基本的操作, 在这里把自己总结的笔记记录在这里. 1,V8:192.168.40.10V1:192.168.40.11Linux ip:192.168.40.128 2,Linux是一个操作系统, 与windows的区别:Linux:图形化界面简单,性能很快,在企业中当做服务器来使用.Windows:图形化界面很炫,性能相对差,大众用户.windows的服务器: windows2003,windows2008,windows2012 3,Linu…
Hibernate框架介绍: Hibernate  ORM  主要用于持久化对象(最常用的框架) Hibernate  Search 用于对对象进行搜索,底层基于Apache Lucene做的 Hibernate Validator  用于进行校验 Hibernate OGM 用于Nosql的持久化 Hibernate Tools 是一款基于Eclipse的插件,用于快捷生成xxx.hbm.xml以及hibernate配置文件等 Hibernate产生的背景 在最古老的编程模式还没出现的时候,程…