拉勾网招聘数据分析（Echarts， SQL, java）

这次的数据分析与决策课程，我做的是通过爬取拉勾网上的招聘信息，并用爬取到的数据整体分析互联网行业数据，
项目做得差不多了，先总结下吧，后边有时间了再完善。

主要工具： Echarts， SQL， java poi包，八爪鱼数据爬取工具

1.数据清洗

八爪鱼爬取到的数据如下：

数据清洗的要求：没空格，没回车，没有与要分析的数据无关的字符，格式统一，无歧义，将空值填充。

数据清洗之后的结果如下：

数据清洗之后，就需要把爬取到的数据存入数据库了。因为爬取到的数据是存在excel文件中的，尝试了很多方法，

将excel文件存到数据库中，总结如下：

(1)用SQL语言，简单，方便。前提是在数据库中已经建表完成了，并且需要把excel文件转换为csv格式；

LOAD DATA LOCAL INFILE 'C:\\Users\\boyuan\\Desktop\\houduan.csv' INTO TABLE job_inf

CHARACTER SET utf8 FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' (Job_Name, Low_Salary, High_Salary, Work_Experience,

Edu_Requirement, Job_Key_Word, Company_Develop_Stage, Work_Address);

(2)Navicat，百度出来的，我电脑上正好也装着navicat呢，就试了下，没成功，应该是数据清洗的不好。

(3)Java的poi（Poor Obfuscation Implementation）工具包，利用poi接口，可以通过java操作office套件工具的读写功能。

官网：http://poi.apache.org

这种方法看起来麻烦一点，但是非常实用，并且如果数据量大的话，效果比前两者好很多，

容错性很好，excel里面的一些空格什么的，自动忽略了。代码主要是参考博客，感谢博主提供的代码；

http://www.cnblogs.com/hongten/p/java_poi_excel.html

这是存储job信息的建表语句

CREATE TABLE `job_info` (
  `job_Id` ) NOT NULL AUTO_INCREMENT,
  `Com_Name` ) NOT NULL,
  `Job_Name` ) NOT NULL,
  `Low_Salary` ) NOT NULL,
  `High_Salary` ) NOT NULL,
  `Work_Experience` ) NOT NULL,
  `Edu_Requirement` ) NOT NULL,
  `Job_Key_Word` ) NOT NULL,
  `Company_Develop_Stage` ) NOT NULL,
  `Work_Address` ) NOT NULL,
  PRIMARY KEY (`job_Id`)
) ENGINE DEFAULT CHARSET=utf8 COMMENT='Detailed information of jobs'

CREATE TABLE `job_dif` (
  `Job_Id` ) NOT NULL AUTO_INCREMENT,
  `Com_Name` ) NOT NULL,
  `Company_Develop_Stage` ) NOT NULL,
  `Work_Address` ) DEFAULT NULL,
  PRIMARY KEY (`Job_Id`)
) ENGINE DEFAULT CHARSET=utf8 COMMENT='All companys Com_Name Company_Develop_Stage Work_Address'

job_dif表在插入数据的时候，从job_info数据库中选取，并对公司名称进行去重处理，主要对公司信息进行些处理；

2.数据展示

利用百度的Echarts工具，对SQL查询到的数据进行展示。不得不说Echarts真的是挺好用的。

例图如下：

总得来说，如果数据库里面有足够多的数据了，那么需要进行什么样的统计分析，就需要自己用SQL从数据库里

把需要的数据取出来，可以在后台将数据转换为json数据格式，Echarts在前台页面动态展示数据库中的数据。

拉勾网招聘数据分析（Echarts， SQL, java）的更多相关文章

使用Spark分析拉勾网招聘信息(一):准备工作
本系列专属github地址:https://github.com/ios122/spark_lagou 前言我觉得如果动笔,就应该努力地把要说的东西表达清楚.今后一段时间,尝试下系列博客文章.简单说 ...
爬取拉勾网招聘信息并使用xlwt存入Excel
xlwt 1.3.0 xlwt 文档 xlrd 1.1.0 python操作excel之xlrd 1.Python模块介绍 - xlwt ,什么是xlwt? Python语言中,写入Excel文件的扩 ...
.NET/ASP.NET/C#/WCF/SQL Server/My SQL/Java/JSP/JDBC/Spring/Spring MVC/PHP/Python/Ruby/Shell/Agile/CSS/HTML/HTTP/Unix/Linux大量PDF书籍/电子书籍下载, Effective Java 下载
223本电子书籍,囊括了.NET/ASP.NET/C#/WCF/SQL Server/My SQL/Java/JSP/JDBC/Spring/Spring MVC/PHP/Python/Shell/A ...
Echarts 的 Java 封装类库转自 https://my.oschina.net/flags/blog/316920
转自: https://my.oschina.net/flags/blog/316920 Echarts 的 Java 封装类库:http://www.oschina.net/p/echarts-ja ...
python 招聘数据分析
导入包 import pandas as pd import numpy as np import matplotlib.pyplot as plt 读文件 df=pd.read_csv(r'C:\U ...
使用Spark分析拉勾网招聘信息(二): 获取数据
要获取什么样的数据? 我们要获取的数据,是指那些公开的,可以轻易地获取地数据.如果你有完整的数据集,肯定是极好的,但一般都很难通过还算正当的方式轻易获取.单就本系列文章要研究的实时招聘信息来讲,能获取 ...
使用Spark分析拉勾网招聘信息(四): 几个常用的脚本与图片分析结果
概述前一篇文章,已经介绍了BMR的基础用法,再结合Spark和Scala的文档,我想应该是可以开始你的数据分析之路的.这一篇文章,着重进行一些简单的思路上的引导和分析.如果你分析招聘数据时,卡在了某 ...
Echarts在java中使用
index.jsp <%@ page language="java" import="java.util.*" pageEncoding="UT ...
优酷土豆2014校园招聘笔试题目之Java开发类
先总体说下题型,共有20道选择题,4道简答题,3道编程题和1道扩展题,题目都比较简单,限时一小时完成. 一.选择题选择题非常简单,都是基础题,什么死锁发生的条件.HashMap和HashSet查找插 ...

随机推荐

在linux服务器上发布web应用的完整过程
首先你要有一个完整的web应用的小Demo,一个简单的demo就可以了,但是要涉及到数据库,笔者这里简单的模拟一个登陆的过程. 在本地测试,访问项目: 键入账号密码,点击登陆: 就是这么个简单的动作, ...
用ajax写分页查询-----2017-05-17
要写分页,首先你得清楚,一页你想显示多少条信息?如何计算总共显示的页数? 先说一下思路: (1)从数据库读取数据,以chenai表为例,读取所有留言信息.并能够实现输入发送者,可以查询该发送者的留言总 ...
华为ensp模拟某公司网络架构及配置详解
1.先晒下架构图,二层设备省略..... 2.下面开始具体配置详解 2.1.从路由器开始配置,先用远程工具远程AR1220F-S路由,secureCRT ,putty,xshell任选其中一个均可,功 ...
LeetCode---------Add Two Numbers 解法
You are given two non-empty linked lists representing two non-negative integers. The digits are stor ...
STM32串口控制步进电机（原创）
用的42步进电机: 厂家可能不一样,两项四线步进电机,里面有两个线圈.在电机什么电都没有接的情况下,用万用表测量四个管脚:两两短接(或者阻值很小)的为一组,可以分别接A+,a-剩余接B+,B-;顺序可 ...
0Raspi开启root权限并登录使用
sudo passwd root sudo passwd --unlock root su root 切换回用 su pi 开始登陆选择root preferences>raspberry ...
linux开发常用命令
最近经常查看服务器上的log文件,有时log文件太大查起来很不方便,看了看网上说可以部分查询,就先记录一下吧 Linux中查看部分文件内容命令head,tail,sed的用法: Linux中的查看文件 ...
Junit4测试Spring
使用Junit4.4测试在类上的配置Annotation @RunWith(SpringJUnit4ClassRunner.class) 用于配置spring中测试的环境 @ContextCon ...
教你怎么把iconfont转换成png透明图片
1.进入iconfont图标库,登陆.http://www.iconfont.cn/ 2.选择想要的图标加入购物车. 3.直接选中下载图标为png格式.
(转) Java RMI 框架（远程方法调用）
"原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处 .作者信息和本声明.否则将追究法律责任.http://haolloyin.blog.51cto.com/1177454/33 ...

拉勾网招聘数据分析（Echarts， SQL, java）

拉勾网招聘数据分析（Echarts， SQL, java）的更多相关文章

随机推荐

热门专题