本周我们小组在分析上周用户需求之后,确定了网站的主要框架和功能、数据收集和存储方式,以及项目任务分配。

一、网站的主要框架和功能。

  网站近期将要实现的主要功能有,先重点收集高校(华东五校)就业宣讲会的的信息,可以按宣讲会的发布时间、发布高校进行分类显示。后期再加入公司所属行业类别、公司简介、公司评价等信息。后期效果图:

二、数据收集和存储方式。

  数据搜集目标是高校就业官网的宣讲会信息,包括公司名称、宣讲会时间、宣讲会地点,宣讲会介绍(链接),所属高校。

  搜集方法是python网络爬虫,主要用到的库为:requests、BeautifulSoup。python版本为2.7+。以复旦大学的就业网爬虫程序为例,如下所示:

 # -*- coding:utf-8 -*-

 import requests
from bs4 import BeautifulSoup url = 'http://www.career.fudan.edu.cn/jsp/career_talk_list.jsp'
front = 'http://www.career.fudan.edu.cn/html/xjh/1.html?view=true&key=' #查询count条记录
post_data = {
'count':'',
'list':'true',
'Referer': "http://www.career.fudan.edu.cn/jsp/career_talk_list.jsp?count=20&list=true&page=1",
'Host':"www.career.fudan.edu.cn",
'User-Agent':"Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:47.0) Gecko/20100101 Firefox/47.0"
}
return_data = requests.post(url, post_data)
soup = BeautifulSoup(return_data.text,'lxml')
for job in soup.find_all(id = 'tab1_bottom'):
url = front + job.get('key')
name = job.find(class_ = 'tab1_bottom1').get_text()
types = job.find(class_ = 'tab1_bottom2').get_text()
date = job.find(class_ = 'tab1_bottom3').get_text()
time = job.find(class_ = 'tab1_bottom4').get_text()
place = job.find(class_ = 'tab1_bottom5').get_text()
print name, types, place, date, time
print url,'\n'

  

  数据库存储选用Mysql,利用MYSQLdb进行python与数据库的连接,对于宣讲会信息存储,表内主要字段有公司名称(xjh_name)、宣讲会时间(xjh_time)、宣讲会地点(xjh_place),宣讲会介绍链接(xjh_url),所属高校(school_name)。

  三、团队人员任务分配。

  网页设计与后端:李嫣然、宫亚南、崔文祥、王涛。主要开发技术:Html、CSS、Javascript、Java Web(tomcat部署)

  数据搜集与存储:冀若阳、尤东森

7月17日——高校就业信息网站功能及数据获取之python爬虫的更多相关文章

  1. 优步UBER司机全国各地奖励政策汇总 (4月11日-4月17日)

    滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...

  2. 全国Uber优步司机奖励政策 (1月11日-1月17日)

    本周已经公开奖励整的城市有:北 京.成 都.重 庆.上 海.深 圳.长 沙.佛 山.广 州.苏 州.杭 州.南 京.宁 波.青 岛.天 津.西 安.武 汉.厦 门,可按CTRL+F,搜城市名快速查找. ...

  3. 8月17日 Power-BI关于全国房地产开发投资情况分析 QQ群视频交流开课啦

    <ignore_js_op> 数读|中国的经济只剩下房地产了么? 引言: 近日一则标题为“房奴们又立功啦,7月份新增贷款几乎都来自房贷!”的报道吸引了大众的目光.该报道指出在央行8月13日 ...

  4. 成都Uber优步司机奖励政策(4月17日)

    滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...

  5. 成都Uber优步司机奖励政策(3月17日)

    滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...

  6. 成都Uber优步司机奖励政策(2月17日)

    滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...

  7. 成都Uber优步司机奖励政策(1月17日)

    滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...

  8. CSDN下载频道于2014年7月17日改版,23日-24日系统维护

    尊敬的用户你们好: CSDN于2005年推出了下载服务,经过数年的发展,下载频道的用户已经为无数用户提供了帮助.分享500万的技术资源. 感谢用户们的资源共享精神,以及对CSDN下载频道的支持 下载频 ...

  9. Python学习日志9月17日 一周总结

    周一,9月11日 这天写的是过去一周的周总结,我从中找出当天的内容. 这天早晨给电脑折腾装机,早晨基本上没有学习,休息了一个早晨. 下午写的上周总结,完事做mooc爬虫课的作业,<Think P ...

随机推荐

  1. 为什么不要使用Response.Close()

    不要使用Response.Close()    不要使用Response.Close()    不要使用Response.Close()        1  因为:Close()方法会调用HttpWo ...

  2. 关于MySQL中的三种日期类型

    Mysql中我们经常用来存储日期的数据类型有三种:Date.Datetime.Timestamp. Date数据类型用来存储没有时间的日期.Mysql获取和显示这个类型的格式为"YYYY-M ...

  3. mysql的操作

    关系型数据库是表格形式,比普通文件存储访问数据的速度更快,更容易查阅和提取满足特定条件的数据 关系数据库具有内置的权限系统 每一条数据对应唯一的标识 1,打开XAMPP继承的数据库  打开mysql ...

  4. iOS开发 QQ粘性动画效果

    QQ(iOS)客户端的粘性动画效果 时间 2016-02-17 16:50:00  博客园精华区 原文  http://www.cnblogs.com/ziyi--caolu/p/5195615.ht ...

  5. Python学习---除法

    python有两种除法,普通除法 a/b ,不论a,b精度 得到的都是浮点数. 4/2 = 2.0    3/5 = 0.6 floor除法,a//b , 得到一个舍弃小数位的整数结果,所以结果永远是 ...

  6. Android之Dialer之紧急号码

    Android之Dialer之紧急号码 e over any other (e.g. supplementary service related) number analysis. a) 112 an ...

  7. Java源文件编译成功但是运行时加载不到文件

    最近系统重装了一些,Java等环境变量都需要重新配置,配置好以后编写了一个Java源文件编译了一下,通过Javac编译源文件,编译成功,但是再通过Java运行时没找到报出找不到加载文件或者加载文件不存 ...

  8. this

    JavaScript 中的 this ! 2016-12-28 vvv阿城 JavaScript 转自  https://qiutc.me/post/this-this-this-in-javascr ...

  9. c#基础3

    Console.WriteLine("屏幕显示的内容"); Console.Write("屏幕显示的内容"); 两者区别是:Console.WriteLine( ...

  10. python——有一种线程池叫做自己写的线程池

    这周的作业是写一个线程池,python的线程一直被称为鸡肋,所以它也没有亲生的线程池,但是竟然被我发现了野生的线程池,简直不能更幸运~~~于是,我开始啃源码,实在是虐心,在啃源码的过程中,我简略的了解 ...