案例：使用BeautifuSoup4的爬虫

使用BeautifuSoup4解析器，将招聘网页上的招聘单位名称存储出来。其他信息可类似爬取即可

# -*- coding:utf-8 -*-

from bs4 import BeautifulSoup

import urllib2

import json  # 使用了json格式存储

def csdn():

    url = 'https://job.csdn.net/search/index'

    headers = {

        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

    request = urllib2.Request(url, headers=headers)

    response = urllib2.urlopen(request)

    resHtml = response.read()

    output = open('csdnJob.json', 'w')

    soup = BeautifulSoup(resHtml, 'html.parser', from_encoding='utf-8')

    # 创建CSS选择器

    result = soup.select('div[class="position_list clearfix"]')

    # result += result2

    print("----")

    print (result)

    items = []

    for site in result:

        item = {}

        print (site)

        name = site.select('a[class="enterprise_name"]')[0].get_text()

        item['name'] = name

        items.append(item)

    # 禁用ascii编码，按utf-8编码

    line = json.dumps(items, ensure_ascii=False)

    output.write(line.encode('utf-8'))

    output.close()

if __name__ == "__main__":

    csdn()

效果：

案例：使用BeautifuSoup4的爬虫的更多相关文章

2.6. 案例：使用BeautifuSoup4的爬虫
案例:使用BeautifuSoup4的爬虫我们以腾讯社招页面来做演示:http://hr.tencent.com/position.php?&start=10#a 使用BeautifuSou ...
python 案例：使用BeautifuSoup4的爬虫
我们以腾讯社招页面来做演示:http://hr.tencent.com/position.php?&start=10#a 使用BeautifuSoup4解析器,将招聘网页上的职位名称.职位类别 ...
爬虫bs4案例
案例:使用BeautifuSoup4的爬虫我们以腾讯社招页面来做演示:http://hr.tencent.com/position.php?&start=10#a 使用BeautifuSou ...
Python爬虫实战（2）：爬取京东商品列表
1,引言在上一篇<Python爬虫实战:爬取Drupal论坛帖子列表>,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容.相反 ...
scrapy-redis 分布式爬虫
为什么要学? Scrapy_redis在scrapy的基础上实现了更多,更强大的功能. 有哪些功能体现? request去重.爬虫持久化.实现分布式爬虫.断点续爬(带爬取的request存在redis ...
一个简单的python爬虫程序
python|网络爬虫概述这是一个简单的python爬虫程序,仅用作技术学习与交流,主要是通过一个简单的实际案例来对网络爬虫有个基础的认识. 什么是网络爬虫简单的讲,网络爬虫就是模拟人访问web ...
NodeJs02 美女爬虫
note: demo代码要编号导出模块一个js文件就是一个模块,模块内部的所有变量,对象,方法对外界都不可见.如果想暴漏出去让别人用,就需要导出模块.语法如下: module.exports = ...
《C# 爬虫破境之道》：第一境爬虫原理 — 第五节：数据流处理的那些事儿
为什么说到数据流了呢,因为上一节中介绍了一下异步发送请求.同样,在数据流的处理上,C#也为我们提供几个有用的异步处理方法.而且,爬虫这生物,处理数据流是基础本能,比较重要.本着这个原则,就聊一聊吧. ...
吴裕雄--天生自然python学习笔记：编写网络爬虫代码获取指定网站的图片
我们经常会在网上搜索井下载图片,然而一张一张地下载就太麻烦了,本案例就是通过网络爬虫技术, 一次性下载该网站所有的图片并保存 . 网站图片下载并保存将指定网站的 .jpg 和 .png 格式的图片 ...

随机推荐

Postgresql日志配置
将PostgreSQL数据库安装后,需要进行一些关于数据库日志的配置,将postgresql.conf文件中,关于日志的配置选项详解,记录如下: 1.logging_collector = on/of ...
Linux服务-rsync
目录 1. rsync简介 2. rsync特性 3. rsync的ssh认证协议 4. rsync命令 5. rsync+inotify Linux服务-rsync 1. rsync简介 rsync ...
2013.6.29 - OpenNER第九天
上午看计算机网络,下午做计算机实验.晚上写计算机实验报告,还有OpenStack的实验报告. 写完之后跟师兄讨论了一下OpenNER的事情,觉得OpenNE很像是化学物质,里面很多都可以构成原子团,原 ...
关闭firefox火狐浏览器下载完成时自动扫描（49.0.2以后版本）
本人自己找到的方法,亲测有效,如下:1.在火狐浏览器地址里输入about:config回车,可能会提示“这可能使质量保证失效”,点击[我了解此风险!]2.在搜索框里输入browser.safebrow ...
jquery 子元素后代元素兄弟元素相邻元素
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-type" content ...
对 Jenkins+ANT+Jmeter 接口测试的实践
转载地址:https://testerhome.com/topics/5262 1.前言最近感觉大家都在讲Jenkins+jmeter+ant或maven的使用,但没有说到具体怎么投入到项目使用,只 ...
VUE之路
最近研究了下Vue这个前端框架,不得不说这个前端框架很是厉害.不过对于习惯了jQuery的我来说,刚上手那会儿还是踩了很多的坑啊.那会儿觉得天啊,这个Vue框架特别的绕,并且也更复杂.不过待我写了几天 ...
Map遍历效率比较
1.由来上次博客提到了Map的四种遍历方法,其中有的只是获取了key值或者是value值,但我们应该在什么时刻选择什么样的遍历方式呢,必须通过实践的比较才能看到效率. 也看了很多文章,大家建议使用e ...
Linux——CentOS7没有ifconfig命令
前言今天新安装的centos7,使用ifconfig命令却提示没有,直接安装也没有~ 正文直接安装直接告诉我这个包不是一个有效的 [root@kafka ~]# yum install -y if ...
事件类型（onfocus和onblur）
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

案例：使用BeautifuSoup4的爬虫

案例：使用BeautifuSoup4的爬虫的更多相关文章

随机推荐

热门专题