这次的数据分析与决策课程,我做的是通过爬取拉勾网上的招聘信息,并用爬取到的数据整体分析互联网行业数据,项目做得差不多了,先总结下吧,后边有时间了再完善. 主要工具:  Echarts, SQL, java poi包,八爪鱼数据爬取工具 1.数据清洗 八爪鱼爬取到的数据如下:…
本系列专属github地址:https://github.com/ios122/spark_lagou 前言 我觉得如果动笔,就应该努力地把要说的东西表达清楚.今后一段时间,尝试下系列博客文章.简单说,如果心里想表达想分享的,就适当规划组织下,使其相对自成体系,以便于感兴趣但可能刚好某个领域还不是很熟的人,也能很好地入手.系列文章,我会努力避免过于主观化的描述,同时吸取以往的经验,尽量给每个系列的文章都设置一个单独的 github 项目,供查阅参考. Spark 系列文章规划 Spark系列,因…
xlwt 1.3.0 xlwt 文档 xlrd 1.1.0 python操作excel之xlrd 1.Python模块介绍 - xlwt ,什么是xlwt? Python语言中,写入Excel文件的扩展工具. 相应的有扩展包xlrd,专门用于excel读取. 可以实现指定表单.指定单元格的写入. 2.xlwt使用 导入模块 import xlwt 创建workbook,即创建excel,后来要进行保存 workbook = xlwt.Workbook(encoding = 'utf-8') 创建…
223本电子书籍,囊括了.NET/ASP.NET/C#/WCF/SQL Server/My SQL/Java/JSP/JDBC/Spring/Spring MVC/PHP/Python/Shell/Agile/CSS/HTML/HTTP/Unix/Linux在内的大量PDF书籍/电子书籍,重点是还包括的了很多技术大牛的干货分享. 经典书籍包括: 01.<Java编程思想> 02.<Effective Java - 2nd Edition> 03.<深入理解Java虚拟机 JV…
转自: https://my.oschina.net/flags/blog/316920 Echarts 的 Java 封装类库:http://www.oschina.net/p/echarts-java 没想到喜欢Echarts 的 Java 封装类库的人还挺多,在源码中的测试例子一般目的只是构造官网例子的结构,这里写个比较实际的简单例子来演示如何写出一个图表. 首先看看Option的提示. ##Option说明 Option正式代码中使用,不需要任何依赖. GsonOption正式代码中可以…
导入包 import pandas as pd import numpy as np import matplotlib.pyplot as plt 读文件 df=pd.read_csv(r'C:\Users\MSI\Desktop\1.csv') 查看数据 df.head() 查看基本信息 df.info() 一共有九个字段,22739条数据,数据全为字符串,不存在数据为空的情况,因此不需要进行对缺少数据的处理 对重复数据进行处理,删除职位和公司重复值 df.drop_duplicates([…
要获取什么样的数据? 我们要获取的数据,是指那些公开的,可以轻易地获取地数据.如果你有完整的数据集,肯定是极好的,但一般都很难通过还算正当的方式轻易获取.单就本系列文章要研究的实时招聘信息来讲,能获取最近一个月的相关信息,已是足矣. 如何获取数据? 爬虫,也是可以的,作为一个备选方案.但是,我注意到拉勾网本身的数据,是通过ajax请求更新的,所以批量获取变得更加简单.基于ajax请求来获取数据,方式有很多,这里我演示其中的自认为较为简单通用的一种: 使用 curl 模拟 ajax 请求获取数据.…
概述 前一篇文章,已经介绍了BMR的基础用法,再结合Spark和Scala的文档,我想应该是可以开始你的数据分析之路的.这一篇文章,着重进行一些简单的思路上的引导和分析.如果你分析招聘数据时,卡在了某个环节,可以试着阅读本文. 在继续下面的各种分析前,请确保已经读完了本系列文章的第三篇,并正确配置了BMR,同时导入了需要的真实招聘数据. 如果用传统编程语言工具? 假设我们从数据的采集,存储到数据的读取与使用,都是使用传统的语言工具,比如nodejs. 我们如果想知道到底有不同的薪水段有多少招聘职…
index.jsp <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%><%@ taglib prefix="c" uri="http://java.sun.com/jsp/jstl/core"%><% String path = request.getContextPath(); String…
先总体说下题型,共有20道选择题,4道简答题,3道编程题和1道扩展题,题目都比较简单,限时一小时完成. 一.选择题 选择题非常简单,都是基础题,什么死锁发生的条件.HashMap和HashSet查找插入删除的时间复杂度.Thread类和Runnable接口.排序复杂度比较.建堆调整堆等等,具体的也记不得了. 二.简答题 1. 简述Servlet的生命周期 2. 写出至少8个Java常用的包名称 3. Overload和Override的区别,Overloaded方法能不能修改返回值类型? 4.…