Python爬虫【实战篇】scrapy 框架爬取某招聘网存入mongodb

创建项目

scrapy startproject zhaoping

创建爬虫

cd zhaoping

scrapy genspider hr zhaopingwang.com

目录结构

items.py

    title = scrapy.Field()

    position = scrapy.Field()

    publish_date = scrapy.Field()

pipelines.py

from pymongo import MongoClient

mongoclient = MongoClient(host='192.168.226.150',port=27017)

collection = mongoclient['zhaoping']['hr']

class TencentPipeline(object):

    def process_item(self, item, spider):

        print(item)

        # 需要转换为 dict

        collection.insert(dict(item))

        return item

spiders/hr.py

    def parse(self, response):

        # 不要第一个 和最后一个

        tr_list = response.xpath("//table[@class='tablelist']/tr")[1:-1]

        for tr in tr_list:

            item = TencentItem()

            # xpath 从1 开始数起

            item["title"] = tr.xpath("./td[1]/a/text()").extract_first()

            item["position"] = tr.xpath("./td[2]/text()").extract_first()

            item["publish_date"] = tr.xpath("./td[5]/text()").extract_first()

            yield item

        next_url = response.xpath("//a[@id='next']/@href").extract_first()

        # 构造url

        if next_url != "javascript:;":

            print(next_url)

            next_url = "https://hr.tencent.com/" + next_url

            yield scrapy.Request(url=next_url,callback=self.parse,)

就是这么简单，就获取到数据

Python爬虫【实战篇】scrapy 框架爬取某招聘网存入mongodb的更多相关文章

python爬虫实战（1）--爬取糗事百科
这里利用正则表达式进行匹配,糗事百科是不需要登录的,所以也没必要用到Cookie,另外糗事百科有的段子是附图的,我们把图抓下来图片不便于显示,那么我们就尝试过滤掉有图的段子. 本篇目标 1.抓取糗事百 ...
爬虫第六篇：scrapy框架爬取某书网整站爬虫爬取
新建项目 # 新建项目$ scrapy startproject jianshu# 进入到文件夹 $ cd jainshu# 新建spider文件 $ scrapy genspider -t craw ...
python爬虫实战（2）--爬取百度贴吧
本篇目标 1.对百度贴吧的任意帖子进行抓取 2.指定是否只抓取楼主发帖内容 3.将抓取到的内容分析并保存到文件 1.URL格式的确定先观察百度贴吧url格式,以中南财经政法大学迎新帖为例,URL我们 ...
Python爬虫实战之Requests+正则表达式爬取猫眼电影Top100
import requests from requests.exceptions import RequestException import re import json # from multip ...
【Python爬虫实战】Scrapy框架的安装搬运工亲测有效
windows下亲测有效 http://blog.csdn.net/liuweiyuxiang/article/details/68929999这个我们只是正确操作步骤详解的搬运工
使用scrapy框架爬取自己的博文（2）
之前写了一篇用scrapy框架爬取自己博文的博客,后来发现对于中文的处理一直有问题- - 显示的时候 [u'python\u4e0b\u722c\u67d0\u4e2a\u7f51\u9875\u76 ...
Python爬虫进阶之Scrapy框架安装配置
Python爬虫进阶之Scrapy框架安装配置初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此 ...
Python爬虫学习三------requests+BeautifulSoup爬取简单网页
第一次第一次用MarkDown来写博客,先试试效果吧! 昨天2018俄罗斯世界杯拉开了大幕,作为一个伪球迷,当然也得为世界杯做出一点贡献啦. 于是今天就编写了一个爬虫程序将腾讯新闻下世界杯专题的相关新 ...
python爬虫调用搜索引擎及图片爬取实战
实战三-向搜索引擎提交搜索请求关键点:利用搜索引擎提供的接口百度的接口:wd="要搜索的内容" 360的接口:q="要搜索的内容" 所以我们只要把我们提交给 ...

随机推荐

invokedynamic字节码指令
1. 方法引用和invokedynamic invokedynamic是jvm指令集里面最复杂的一条.本文将从高观点的角度下分析invokedynamic指令是如何实现方法引用(Method refe ...
vscode创建net core控制台程序
vscode近来深受的开发人员的喜爱.在下的前端同事们也纷纷使用vscode.在下就想了我等后端程序员也可以用vscode写C#代码.毕竟是从宇宙第一IDE ----Visual Studio衍生的 ...
5. VIM 系列 - 文件管理
目录目录树文件检索 ctrlp.vim fzf.vim 目录树安装 nerdtree.vim 插件 Plug 'scrooloose/nerdtree', { 'on': 'NERDTreeTo ...
redis学习--的持久化数据备份（RDB和AOF）
接上一篇:安装window下的redis,redis可视化管理工具(Redis Desktop Manager)安装,基础使用,实例化项目一.dump.rdb文件是怎么生成的二.什么是redis持 ...
推荐系统(Recommendation system )介绍
前言随着电子商务的发展,网络购物成为一种趋势,当你打开某个购物网站比如淘宝.京东的时候,会看到很多给你推荐的产品,你是否觉得这些推荐的产品都是你似曾相识或者正好需要的呢.这个就是现在电子商务里面的推 ...
ACache【轻量级的开源缓存框架】
版权声明:本文为HaiyuKing原创文章,转载请注明出处! 前言官方介绍 ASimpleCache 是一个为android制定的轻量级的开源缓存框架.轻量到只有一个java文件(由十几个类精简 ...
Netty源码服务端的启动
最近一直在看netty,看完之后就想做点笔记.可是实在是太忙了,挤了还要几个晚上终于挤出来了上图是服务端的实例代码.大致的流程先梳理一遍. 首先会执行用于创建两个线程组,boosGroup用于接受 ...
Python：鲜为人知的功能特性（下）
GitHub 上有一个名为<What the f*ck Python!>的项目,这个有趣的项目意在收集 Python 中那些难以理解和反人类直觉的例子以及鲜为人知的功能特性,并尝试讨论这些 ...
一套代码小程序&Web&Native运行的探索03——处理模板及属性
接上文:一套代码小程序&Web&Native运行的探索02 对应Git代码地址请见:https://github.com/yexiaochai/wxdemo/tree/master/m ...
从PRISM开始学WPF（五）MVVM（一）ViewModel-更新至Prism7.1
0x5 MVVM [7.1updated]截止到目前,我们看到7.1的更新主要在三个地方 PrismApplication ,并且不再使用Bootstrapper 更新了unity,现在使用prism ...

Python爬虫【实战篇】scrapy 框架爬取某招聘网存入mongodb

Python爬虫【实战篇】scrapy 框架爬取某招聘网存入mongodb的更多相关文章

随机推荐

热门专题