本周我们小组在分析上周用户需求之后,确定了网站的主要框架和功能、数据收集和存储方式,以及项目任务分配。

一、网站的主要框架和功能。

  网站近期将要实现的主要功能有,先重点收集高校(华东五校)就业宣讲会的的信息,可以按宣讲会的发布时间、发布高校进行分类显示。后期再加入公司所属行业类别、公司简介、公司评价等信息。后期效果图:

二、数据收集和存储方式。

  数据搜集目标是高校就业官网的宣讲会信息,包括公司名称、宣讲会时间、宣讲会地点,宣讲会介绍(链接),所属高校。

  搜集方法是python网络爬虫,主要用到的库为:requests、BeautifulSoup。python版本为2.7+。以复旦大学的就业网爬虫程序为例,如下所示:

 # -*- coding:utf-8 -*-

 import requests
from bs4 import BeautifulSoup url = 'http://www.career.fudan.edu.cn/jsp/career_talk_list.jsp'
front = 'http://www.career.fudan.edu.cn/html/xjh/1.html?view=true&key=' #查询count条记录
post_data = {
'count':'',
'list':'true',
'Referer': "http://www.career.fudan.edu.cn/jsp/career_talk_list.jsp?count=20&list=true&page=1",
'Host':"www.career.fudan.edu.cn",
'User-Agent':"Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:47.0) Gecko/20100101 Firefox/47.0"
}
return_data = requests.post(url, post_data)
soup = BeautifulSoup(return_data.text,'lxml')
for job in soup.find_all(id = 'tab1_bottom'):
url = front + job.get('key')
name = job.find(class_ = 'tab1_bottom1').get_text()
types = job.find(class_ = 'tab1_bottom2').get_text()
date = job.find(class_ = 'tab1_bottom3').get_text()
time = job.find(class_ = 'tab1_bottom4').get_text()
place = job.find(class_ = 'tab1_bottom5').get_text()
print name, types, place, date, time
print url,'\n'

  

  数据库存储选用Mysql,利用MYSQLdb进行python与数据库的连接,对于宣讲会信息存储,表内主要字段有公司名称(xjh_name)、宣讲会时间(xjh_time)、宣讲会地点(xjh_place),宣讲会介绍链接(xjh_url),所属高校(school_name)。

  三、团队人员任务分配。

  网页设计与后端:李嫣然、宫亚南、崔文祥、王涛。主要开发技术:Html、CSS、Javascript、Java Web(tomcat部署)

  数据搜集与存储:冀若阳、尤东森

7月17日——高校就业信息网站功能及数据获取之python爬虫的更多相关文章

  1. 优步UBER司机全国各地奖励政策汇总 (4月11日-4月17日)

    滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...

  2. 全国Uber优步司机奖励政策 (1月11日-1月17日)

    本周已经公开奖励整的城市有:北 京.成 都.重 庆.上 海.深 圳.长 沙.佛 山.广 州.苏 州.杭 州.南 京.宁 波.青 岛.天 津.西 安.武 汉.厦 门,可按CTRL+F,搜城市名快速查找. ...

  3. 8月17日 Power-BI关于全国房地产开发投资情况分析 QQ群视频交流开课啦

    <ignore_js_op> 数读|中国的经济只剩下房地产了么? 引言: 近日一则标题为“房奴们又立功啦,7月份新增贷款几乎都来自房贷!”的报道吸引了大众的目光.该报道指出在央行8月13日 ...

  4. 成都Uber优步司机奖励政策(4月17日)

    滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...

  5. 成都Uber优步司机奖励政策(3月17日)

    滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...

  6. 成都Uber优步司机奖励政策(2月17日)

    滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...

  7. 成都Uber优步司机奖励政策(1月17日)

    滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...

  8. CSDN下载频道于2014年7月17日改版,23日-24日系统维护

    尊敬的用户你们好: CSDN于2005年推出了下载服务,经过数年的发展,下载频道的用户已经为无数用户提供了帮助.分享500万的技术资源. 感谢用户们的资源共享精神,以及对CSDN下载频道的支持 下载频 ...

  9. Python学习日志9月17日 一周总结

    周一,9月11日 这天写的是过去一周的周总结,我从中找出当天的内容. 这天早晨给电脑折腾装机,早晨基本上没有学习,休息了一个早晨. 下午写的上周总结,完事做mooc爬虫课的作业,<Think P ...

随机推荐

  1. python成长之路【第十五篇】:JavaScript初步认识

    JavaScript是一门编程语言,浏览器内置了JavaScript语言的解释器,所以在浏览器上按照JavaScript语言的规则编写相应代码之,浏览器可以解释并做出相应的处理. 一.如何编写 1.J ...

  2. jquery ajax的error错误信息

    项目开发中ajax的异常处理起来算是比较头疼的,因为是异步请求,所以即使ajax异常程序依然会继续执行,导致找ajax的异常比较麻烦. 今天处理ajax异常时搜到一篇文章,提到error可以返回aja ...

  3. python操作csv和excel文件

    1.操作csv文件 1).读取文件 import csv f=open("test.csv",'r') t_text=csv.reader(f) for t,i in t_text ...

  4. 【cpp】Vector

    这vector 很有用 // compile with: /EHsc #include <vector> #include <iostream> int main() { us ...

  5. Android N做了啥

    Android N做了哪些改变 一.    性能改善 Doze超级省电模式 手机在关屏同时没有充电的情况,在一段时间后会进入打盹状态,第一阶段会停掉同步.作业.网络等访问,第二阶段会停掉app的位置服 ...

  6. 配置appium 1.6.3 for MAC

    p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px "Helvetica Neue"; color: #454545 } 安装 ...

  7. Leetcode--Generate Parentheses

    主要考察栈的理解 static vector<string> generateParenthesis(int n) { vector<string> res; addingpa ...

  8. SQL server 常用语句

    SQL Server中常用的SQL语句   1.概述 2.查询概述 3.单表查询 4.连接查询 5.带有exists的相关子查询 6.SQL的集合操作 7.插入操作 8.删除操作 9.修改操作 10. ...

  9. 我的mysql测试环境

    版本:5.7 安装方式:yum 修改密码:alter user user() identified by 'root'; 修改配置文件: vi /etc/my.cnf 在my.cnf中添加 skip- ...

  10. js获取当前日期的前一天、一月、一年的日期 明天、后天(转)

    function getYestoday(date){ var yesterday_milliseconds=date.getTime()-1000*60*60*24; var yesterday = ...