拉勾网招聘数据分析(Echarts, SQL, java)
这次的数据分析与决策课程,我做的是通过爬取拉勾网上的招聘信息,并用爬取到的数据整体分析互联网行业数据,
项目做得差不多了,先总结下吧,后边有时间了再完善。
主要工具: Echarts, SQL, java poi包,八爪鱼数据爬取工具
1.数据清洗
八爪鱼爬取到的数据如下:
数据清洗的要求:没空格,没回车,没有与要分析的数据无关的字符,格式统一,无歧义,将空值填充。
数据清洗之后的结果如下:
数据清洗之后,就需要把爬取到的数据存入数据库了。因为爬取到的数据是存在excel文件中的,尝试了很多方法,
将excel文件存到数据库中,总结如下:
(1)用SQL语言,简单,方便。前提是在数据库中已经建表完成了,并且需要把excel文件转换为csv格式;
LOAD DATA LOCAL INFILE 'C:\\Users\\boyuan\\Desktop\\houduan.csv' INTO TABLE job_inf
CHARACTER SET utf8 FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' (Job_Name, Low_Salary, High_Salary, Work_Experience,
Edu_Requirement, Job_Key_Word, Company_Develop_Stage, Work_Address);
(2)Navicat,百度出来的,我电脑上正好也装着navicat呢,就试了下,没成功,应该是数据清洗的不好。
(3)Java的poi(Poor Obfuscation Implementation)工具包,利用poi接口,可以通过java操作office套件工具的读写功能。
这种方法看起来麻烦一点,但是非常实用,并且如果数据量大的话,效果比前两者好很多,
容错性很好,excel里面的一些空格什么的,自动忽略了。代码主要是参考博客,感谢博主提供的代码;
http://www.cnblogs.com/hongten/p/java_poi_excel.html
这是存储job信息的建表语句
CREATE TABLE `job_info` ( `job_Id` ) NOT NULL AUTO_INCREMENT, `Com_Name` ) NOT NULL, `Job_Name` ) NOT NULL, `Low_Salary` ) NOT NULL, `High_Salary` ) NOT NULL, `Work_Experience` ) NOT NULL, `Edu_Requirement` ) NOT NULL, `Job_Key_Word` ) NOT NULL, `Company_Develop_Stage` ) NOT NULL, `Work_Address` ) NOT NULL, PRIMARY KEY (`job_Id`) ) ENGINE DEFAULT CHARSET=utf8 COMMENT='Detailed information of jobs'
CREATE TABLE `job_dif` ( `Job_Id` ) NOT NULL AUTO_INCREMENT, `Com_Name` ) NOT NULL, `Company_Develop_Stage` ) NOT NULL, `Work_Address` ) DEFAULT NULL, PRIMARY KEY (`Job_Id`) ) ENGINE DEFAULT CHARSET=utf8 COMMENT='All companys Com_Name Company_Develop_Stage Work_Address'
job_dif表在插入数据的时候,从job_info数据库中选取,并对公司名称进行去重处理,主要对公司信息进行些处理;
2.数据展示
利用百度的Echarts工具,对SQL查询到的数据进行展示。不得不说Echarts真的是挺好用的。
例图如下:
总得来说,如果数据库里面有足够多的数据了,那么需要进行什么样的统计分析,就需要自己用SQL从数据库里
把需要的数据取出来,可以在后台将数据转换为json数据格式,Echarts在前台页面动态展示数据库中的数据。
拉勾网招聘数据分析(Echarts, SQL, java)的更多相关文章
- 使用Spark分析拉勾网招聘信息(一):准备工作
本系列专属github地址:https://github.com/ios122/spark_lagou 前言 我觉得如果动笔,就应该努力地把要说的东西表达清楚.今后一段时间,尝试下系列博客文章.简单说 ...
- 爬取拉勾网招聘信息并使用xlwt存入Excel
xlwt 1.3.0 xlwt 文档 xlrd 1.1.0 python操作excel之xlrd 1.Python模块介绍 - xlwt ,什么是xlwt? Python语言中,写入Excel文件的扩 ...
- .NET/ASP.NET/C#/WCF/SQL Server/My SQL/Java/JSP/JDBC/Spring/Spring MVC/PHP/Python/Ruby/Shell/Agile/CSS/HTML/HTTP/Unix/Linux大量PDF书籍/电子书籍下载, Effective Java 下载
223本电子书籍,囊括了.NET/ASP.NET/C#/WCF/SQL Server/My SQL/Java/JSP/JDBC/Spring/Spring MVC/PHP/Python/Shell/A ...
- Echarts 的 Java 封装类库 转自 https://my.oschina.net/flags/blog/316920
转自: https://my.oschina.net/flags/blog/316920 Echarts 的 Java 封装类库:http://www.oschina.net/p/echarts-ja ...
- python 招聘数据分析
导入包 import pandas as pd import numpy as np import matplotlib.pyplot as plt 读文件 df=pd.read_csv(r'C:\U ...
- 使用Spark分析拉勾网招聘信息(二): 获取数据
要获取什么样的数据? 我们要获取的数据,是指那些公开的,可以轻易地获取地数据.如果你有完整的数据集,肯定是极好的,但一般都很难通过还算正当的方式轻易获取.单就本系列文章要研究的实时招聘信息来讲,能获取 ...
- 使用Spark分析拉勾网招聘信息(四): 几个常用的脚本与图片分析结果
概述 前一篇文章,已经介绍了BMR的基础用法,再结合Spark和Scala的文档,我想应该是可以开始你的数据分析之路的.这一篇文章,着重进行一些简单的思路上的引导和分析.如果你分析招聘数据时,卡在了某 ...
- Echarts在java中使用
index.jsp <%@ page language="java" import="java.util.*" pageEncoding="UT ...
- 优酷土豆2014校园招聘笔试题目之Java开发类
先总体说下题型,共有20道选择题,4道简答题,3道编程题和1道扩展题,题目都比较简单,限时一小时完成. 一.选择题 选择题非常简单,都是基础题,什么死锁发生的条件.HashMap和HashSet查找插 ...
随机推荐
- IIS7.5 用 IIS AppPool\应用程序池名 做账号 将各站点权限分开
IIS6里面,要把服务器上的各站点权限分开,要建一堆帐号,再一个一个站点绑定.IIS7.5就不用了. 选择 "应用程序用户" 选择 "应用程序用户",启动应用程 ...
- 纯真IP数据库格式详解
纯真版IP数据库,优点是记录多,查询速度快,它只用一个文件QQWry.dat就包含了所有记录,方便嵌入到其他程序中,也方便升级.缺点是你想要编辑它却是比较麻烦的,由于其文件格式的限制,你要直接添加IP ...
- 控制器controller与指令中的link、controller中变量作用域的关系
angjualrjs中的作用域与原生js中的函数嵌套原理一致,都是存在作用域的继承.若在子控制器(同样包括在指令中的link或是controllerding中定义变量,此时指令中必须未使用scope独 ...
- Scala基础 - 下划线使用指南
下划线这个符号几乎贯穿了任何一本Scala编程书籍,并且在不同的场景下具有不同的含义,绕晕了不少初学者.正因如此,下划线这个特殊符号无形中增加Scala的入门难度.本文希望帮助初学者踏平这个小山坡. ...
- 欧拉函数之HDU1286找新朋友
找新朋友 Time Limit : 2000/1000ms (Java/Other) Memory Limit : 65536/32768K (Java/Other) Total Submissi ...
- 如何自学成为一个WEB前端
WEB前端是做什么的? 那些什么高大上的介绍作者就略过了,简单来说就是做网页的,我们上网浏览的网站界面就是WEB前端工程师做的. 在互联网迅速发展的近几年,你上网冲浪的时候是不是感觉WEB网站越来越漂 ...
- JSP servlet的配置与使用
1. servlet 的配置文件内容如下所示 <servlet> <description>This is the description of my J2EE com ...
- 在服务器上用Fiddler抓取HTTPS流量
转自:http://yoursunny.com/t/2011/FiddlerHTTPS/在服务器上用Fiddler抓取HTTPS流量 阳光男孩 发表于2011-03-19 开发互联网应用的过程中,常常 ...
- Metrics
系统开发到一定的阶段,线上的机器越来越多,就需要一些监控了,除了服务器的监控,业务方面也需要一些监控服务.Metrics作为一款监控指标的度量类库,提供了许多工具帮助开发者来完成自定义的监控工作. 举 ...
- java 与操作系统进程同步问题(一)————互斥问题
最近学校开设了操作系统原理课程,老师要求用任意语言去模拟进程的同步和互斥问题. 在尝试的写了之后,发现这个问题非常有意思,故想记录在博客中,作为自己的学习轨迹. 个人还是比较喜欢用Java语言,所以采 ...