2.6. 案例：使用BeautifuSoup4的爬虫

案例：使用BeautifuSoup4的爬虫

我们以腾讯社招页面来做演示：http://hr.tencent.com/position.php?&start=10#a

使用BeautifuSoup4解析器，将招聘网页上的职位名称、职位类别、招聘人数、工作地点、发布时间，以及每个职位详情的点击链接存储出来

# bs4_tencent.py

from bs4 import BeautifulSoup

import urllib2

import urllib

import json    # 使用了json格式存储

def tencent():

    url = 'http://hr.tencent.com/'

    request = urllib2.Request(url + 'position.php?&start=10#a')

    response =urllib2.urlopen(request)

    resHtml = response.read()

    output =open('tencent.json','w')

    html = BeautifulSoup(resHtml,'lxml')

# 创建CSS选择器

    result = html.select('tr[class="even"]')

    result2 = html.select('tr[class="odd"]')

    result += result2

    items = []

    for site in result:

        item = {}

        name = site.select('td a')[0].get_text()

        detailLink = site.select('td a')[0].attrs['href']

        catalog = site.select('td')[1].get_text()

        recruitNumber = site.select('td')[2].get_text()

        workLocation = site.select('td')[3].get_text()

        publishTime = site.select('td')[4].get_text()

        item['name'] = name

        item['detailLink'] = url + detailLink

        item['catalog'] = catalog

        item['recruitNumber'] = recruitNumber

        item['publishTime'] = publishTime

        items.append(item)

    # 禁用ascii编码来处理中文

    line = json.dumps(items,ensure_ascii=False)

    # 存储内容时使用utf-8编码

    output.write(line.encode('utf-8'))

    output.close()

if __name__ == "__main__":

   tencent()

2.6. 案例：使用BeautifuSoup4的爬虫的更多相关文章

python 案例：使用BeautifuSoup4的爬虫
我们以腾讯社招页面来做演示:http://hr.tencent.com/position.php?&start=10#a 使用BeautifuSoup4解析器,将招聘网页上的职位名称.职位类别 ...
案例：使用BeautifuSoup4的爬虫
使用BeautifuSoup4解析器,将招聘网页上的招聘单位名称存储出来.其他信息可类似爬取即可 # -*- coding:utf-8 -*- from bs4 import BeautifulSou ...
爬虫bs4案例
案例:使用BeautifuSoup4的爬虫我们以腾讯社招页面来做演示:http://hr.tencent.com/position.php?&start=10#a 使用BeautifuSou ...
Python爬虫实战（2）：爬取京东商品列表
1,引言在上一篇<Python爬虫实战:爬取Drupal论坛帖子列表>,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容.相反 ...
scrapy-redis 分布式爬虫
为什么要学? Scrapy_redis在scrapy的基础上实现了更多,更强大的功能. 有哪些功能体现? request去重.爬虫持久化.实现分布式爬虫.断点续爬(带爬取的request存在redis ...
一个简单的python爬虫程序
python|网络爬虫概述这是一个简单的python爬虫程序,仅用作技术学习与交流,主要是通过一个简单的实际案例来对网络爬虫有个基础的认识. 什么是网络爬虫简单的讲,网络爬虫就是模拟人访问web ...
NodeJs02 美女爬虫
note: demo代码要编号导出模块一个js文件就是一个模块,模块内部的所有变量,对象,方法对外界都不可见.如果想暴漏出去让别人用,就需要导出模块.语法如下: module.exports = ...
《C# 爬虫破境之道》：第一境爬虫原理 — 第五节：数据流处理的那些事儿
为什么说到数据流了呢,因为上一节中介绍了一下异步发送请求.同样,在数据流的处理上,C#也为我们提供几个有用的异步处理方法.而且,爬虫这生物,处理数据流是基础本能,比较重要.本着这个原则,就聊一聊吧. ...
吴裕雄--天生自然python学习笔记：编写网络爬虫代码获取指定网站的图片
我们经常会在网上搜索井下载图片,然而一张一张地下载就太麻烦了,本案例就是通过网络爬虫技术, 一次性下载该网站所有的图片并保存 . 网站图片下载并保存将指定网站的 .jpg 和 .png 格式的图片 ...

随机推荐

关于sws安全助手企业政府版的停止维护以及无法购买(官方已公开永久可用免费序列号并将软件开源)
sws安全助手企业政府版官方公布的永久可用系列号:XGVPP-NMH47-7TTHJ-W3FW7-8HV2C 安装程序官网下载地址:https://swssoftwareshare.gitee.io/ ...
Odoo13 新变化：会计
Odoo13将于2019年10月发布,本次发布也包含了大量的改进,例如,对会计的重构. 去掉了 account.invoice / account.invoice.line/ account.vouc ...
jQuery UI Widget(1.8.1)工作原理
/*! * jQuery UI Widget 1.8.1 * * Copyright (c) 2010 AUTHORS.txt (http://jqueryui.com/about) * Dual l ...
日常工作问题解决：记一次centos7上的lvm表错误解决过程
问题描述: 公司大数据hadoop2服务器采用电信云服务器,后来故障,电信恢复该服务器,需要重新部署程序,需要扩展lvm分区,但是使用pvsan命令发现有报错信息,需要解决以防重启后,因挂载问题,无法 ...
《你必须知道的495个C语言问题》读书笔记之第4-7章：指针
1. Q:为什么我不能对void *指针进行算术运算? A:因为编译器不知道所值对象的大小,而指针的算法运算总是基于所指对象的大小的. 2. Q:C语言可以“按引用传参”吗? A:不可以.严格来说,C ...
hdoj3534(树形dp，求树的直径的条数)
题目链接:https://vjudge.net/problem/HDU-3534 题意:给出一棵树,求树上最长距离(直径),以及这样的距离的条数. 思路:如果只求直径,用两次dfs即可.但是现在要求最 ...
（四）循环队列 VS 数组队列（效率对比）
目录背景测试代码结果链表随机访问背景各自完成插入 10万.20万条随机数,然后再将这些随机数出队列 : 测试代码 /** * 测试速度 */ public String testSpe ...
Django-djangorestframework-渲染模块
目录渲染模块渲染模块的效果源码分析如何自定义配置使用渲染类自定义渲染模块渲染模块可以根据用户请求 URL 或用户可接受的类型,筛选出合适的渲染组件. reponse 数据 json ...
Django ORM相关的一些操作
一般操作看专业的官网文档,做专业的程序员! 必知必会13条 <1> all(): 查询所有结果 <2> filter(**kwargs): 它包含了与所给筛选条件相匹配的对象 ...
贝叶斯优化 Bayesian Optimization
贝叶斯优化 Bayesian Optimization 2018年07月02日 22:28:06 余生最年轻阅读数 4821更多分类专栏: 机器学习版权声明:本文为博主原创文章,遵循CC 4 ...

2.6. 案例：使用BeautifuSoup4的爬虫

案例：使用BeautifuSoup4的爬虫

2.6. 案例：使用BeautifuSoup4的爬虫的更多相关文章

随机推荐

热门专题