本周我们小组在分析上周用户需求之后,确定了网站的主要框架和功能、数据收集和存储方式,以及项目任务分配。

一、网站的主要框架和功能。

  网站近期将要实现的主要功能有,先重点收集高校(华东五校)就业宣讲会的的信息,可以按宣讲会的发布时间、发布高校进行分类显示。后期再加入公司所属行业类别、公司简介、公司评价等信息。后期效果图:

二、数据收集和存储方式。

  数据搜集目标是高校就业官网的宣讲会信息,包括公司名称、宣讲会时间、宣讲会地点,宣讲会介绍(链接),所属高校。

  搜集方法是python网络爬虫,主要用到的库为:requests、BeautifulSoup。python版本为2.7+。以复旦大学的就业网爬虫程序为例,如下所示:

 # -*- coding:utf-8 -*-

 import requests
from bs4 import BeautifulSoup url = 'http://www.career.fudan.edu.cn/jsp/career_talk_list.jsp'
front = 'http://www.career.fudan.edu.cn/html/xjh/1.html?view=true&key=' #查询count条记录
post_data = {
'count':'',
'list':'true',
'Referer': "http://www.career.fudan.edu.cn/jsp/career_talk_list.jsp?count=20&list=true&page=1",
'Host':"www.career.fudan.edu.cn",
'User-Agent':"Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:47.0) Gecko/20100101 Firefox/47.0"
}
return_data = requests.post(url, post_data)
soup = BeautifulSoup(return_data.text,'lxml')
for job in soup.find_all(id = 'tab1_bottom'):
url = front + job.get('key')
name = job.find(class_ = 'tab1_bottom1').get_text()
types = job.find(class_ = 'tab1_bottom2').get_text()
date = job.find(class_ = 'tab1_bottom3').get_text()
time = job.find(class_ = 'tab1_bottom4').get_text()
place = job.find(class_ = 'tab1_bottom5').get_text()
print name, types, place, date, time
print url,'\n'

  

  数据库存储选用Mysql,利用MYSQLdb进行python与数据库的连接,对于宣讲会信息存储,表内主要字段有公司名称(xjh_name)、宣讲会时间(xjh_time)、宣讲会地点(xjh_place),宣讲会介绍链接(xjh_url),所属高校(school_name)。

  三、团队人员任务分配。

  网页设计与后端:李嫣然、宫亚南、崔文祥、王涛。主要开发技术:Html、CSS、Javascript、Java Web(tomcat部署)

  数据搜集与存储:冀若阳、尤东森

7月17日——高校就业信息网站功能及数据获取之python爬虫的更多相关文章

  1. 优步UBER司机全国各地奖励政策汇总 (4月11日-4月17日)

    滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...

  2. 全国Uber优步司机奖励政策 (1月11日-1月17日)

    本周已经公开奖励整的城市有:北 京.成 都.重 庆.上 海.深 圳.长 沙.佛 山.广 州.苏 州.杭 州.南 京.宁 波.青 岛.天 津.西 安.武 汉.厦 门,可按CTRL+F,搜城市名快速查找. ...

  3. 8月17日 Power-BI关于全国房地产开发投资情况分析 QQ群视频交流开课啦

    <ignore_js_op> 数读|中国的经济只剩下房地产了么? 引言: 近日一则标题为“房奴们又立功啦,7月份新增贷款几乎都来自房贷!”的报道吸引了大众的目光.该报道指出在央行8月13日 ...

  4. 成都Uber优步司机奖励政策(4月17日)

    滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...

  5. 成都Uber优步司机奖励政策(3月17日)

    滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...

  6. 成都Uber优步司机奖励政策(2月17日)

    滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...

  7. 成都Uber优步司机奖励政策(1月17日)

    滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...

  8. CSDN下载频道于2014年7月17日改版,23日-24日系统维护

    尊敬的用户你们好: CSDN于2005年推出了下载服务,经过数年的发展,下载频道的用户已经为无数用户提供了帮助.分享500万的技术资源. 感谢用户们的资源共享精神,以及对CSDN下载频道的支持 下载频 ...

  9. Python学习日志9月17日 一周总结

    周一,9月11日 这天写的是过去一周的周总结,我从中找出当天的内容. 这天早晨给电脑折腾装机,早晨基本上没有学习,休息了一个早晨. 下午写的上周总结,完事做mooc爬虫课的作业,<Think P ...

随机推荐

  1. iOS - Push 通知推送

    1.UserNotifications 通知是 App 用来和用户交流的一种方式,特别是当 App 并没有在前台运行的时候.通知,正如它的名称所强调的,被用作向用户'通知'一个事件,或者仅仅向用户提示 ...

  2. 动态代理proxy与CGLib的区别

    什么是代理? 静态代理与动态代理 静态代理实例 JDK动态代理实例 CGLib 简介 CGLib 与JDK动态代理的区别 代理模式是Java中常见的一种模式,英文名字叫走Proxy或者Surrogat ...

  3. iOS 工程功能实现之好用的第三方

    1.http://www.cocoachina.com/ios/20140224/7868.html  (一个天气App案例) LBBlurredImage是一个继承自UIImageView,轻而易举 ...

  4. Isometric terrain

    Isometric terrainhttp://forum.mapeditor.org/t/isometric-terrain/192/2 无透视地图的地形制作时,将每一贴图逆时针旋转45度,则比较容 ...

  5. SPSS数据分析—多维偏好分析(MPA)

    之前的主成分分析和因子分析中,收集的变量数据都是连续型数值,但有时会碰到分类数据的情况,我们知道最优尺度变换可以对分类变量进行量化处理,如果将这一方法和主成分分析相结合,就称为了基于最优尺度变换的主成 ...

  6. nullable,nonnull, null_resettable以及_Null_unspecified的区别和使用

    1.关键字:可以用于属性 方法和返回值参数中 关键字作用:提示作用  告诉开发者属性信息 关键字的目的:迎合swift 强语言,swift必须要指定一个对象是否为空 关键字好处:提高代码规划,减少沟通 ...

  7. Codility Tree Height

    public class HeightOfTreeSolution { static int height=-1; public int solution(Tree T) { // write you ...

  8. 51nod 1113 矩阵快速幂

    题目链接:51nod 1113 矩阵快速幂 模板题,学习下. #include<cstdio> #include<cmath> #include<cstring> ...

  9. python 执行execute遇到的问题

    1.如下方式去查询无法查询出结果,但直接在数据库查询中去查询是能查询到结果的,郁闷中,花了很久的时间才知道原来是双引号导致的 把:name="%s" 中的%s前后的双引号去掉就对了 ...

  10. LINUX磁盘分区、格式化、挂载、卸载全程详解

    1.一切皆文件 Linux系统有一个理念:“一切皆文件”,所以计算机的硬件在linux中也是以“文件”的形式存在于/dev目录中.   图为CentOS 6.5系统中/dev目录的部分内容.不同的计算 ...