scrapy 学习笔记

1、scrapy 配合 selenium、phantomJS 抓取动态页面，单纯的selemium 加 Firefox浏览器就可以抓取动态页面了，

但开启窗口太耗资源,而且一般服务器的linux 没有视窗系统，所以通过无窗口的phantomJS就行了，原理都是通过webket加载js渲染。

直接 pip install selenium 安装 selenium，下载 phantomJS 解压，并将 phantomJS.exe 加入到系统环境，然后就大功告成了。

#coding:utf-8

import sys

reload(sys)

sys.setdefaultencoding( "utf-8" )

from selenium import webdriver

from selenium.webdriver.common.keys import Keys

from selenium.webdriver.common.action_chains import ActionChains

from scrapy.selector import Selector

import time

import os

def writeFile(dirPath, page):

    data = Selector(text = page).xpath("//td[@class='zwmc']/div/a")

    titles = data.xpath('string(.)').extract()

    timeMarks = Selector(text = browser.page_source).xpath("//td[@class='gxsj']/span/text()").extract()

    links = Selector(text = browser.page_source).xpath("//td[@class='zwmc']/div/a/@href").extract()

    for i in range(len(titles)):

        fileName = titles[i].replace(':', '-').replace('/', '-').replace('\\', '-').replace('*', 'x').replace('|', '-').replace('?', '-').replace('<', '-').replace('>', '-').replace('"', '-').replace('\n', '-').replace('\t', '-')

        filePath = dirPath + os.sep + fileName + '.txt'

        with open(filePath, 'w') as fp:

            fp.write(titles[i])

            fp.write('$***$')

            fp.write(timeMarks[i])

            fp.write('$***$')

            fp.write(links[i])

def searchFunction(browser, url, keyWord, dirPath):

    browser.get(url)

#勾选城市

    browser.find_element_by_xpath("//input[@id='buttonSelCity']").click()

    browser.find_element_by_xpath("//table[@class='sPopupTabC']/tbody/tr[1]/td/label/input[@iname='北京']").click()

    browser.find_element_by_xpath("//table[@class='sPopupTabC']/tbody/tr[1]/td/label/input[@iname='上海']").click()

    browser.find_element_by_xpath("//table[@class='sPopupTabC']/tbody/tr[3]/td/label/input[@iname='南京']").click()

    browser.find_element_by_xpath("//table[@class='sPopupTabC']/tbody/tr[4]/td/label/input[@iname='苏州']").click()

    browser.find_element_by_xpath("//table[@class='sPopupTabC']/tbody/tr[4]/td/label/input[@iname='无锡']").click()

    browser.find_element_by_xpath("//div[@class='sPopupTitle250']/div/a[1]").click()

#定位搜索框

    searchBox = browser.find_element_by_xpath("//div[@class='keyword']/input[@type='text']")

#发送搜索内容

    searchBox.send_keys(keyWord)

#确认搜索

    browser.find_element_by_xpath("//div[@class='btn']/button[@class='doSearch']").click()

    totalCount = Selector(text = browser.page_source).xpath("//span[@class='search_yx_tj']/em/text()").extract()[0]

    pageOver = int(totalCount) / 40

    for i in range(pageOver):

        time.sleep(3)

        writeFile(dirPath, browser.page_source)

        browser.find_element_by_link_text("下一页").click()    

    time.sleep(3)

    writeFile(dirPath, browser.page_source) 

if __name__ == '__main__':

    print 'START'

    url = 'http://www.zhaopin.com/'

    keyWord = u"华为技术有限公司"

    dirPath = keyWord + u"招聘信息"

    if not os.path.exists(dirPath):

        os.makedirs(dirPath)

#定义一个火狐浏览器对象

    # browser = webdriver.Firefox()

    browser = webdriver.PhantomJS()

    searchFunction(browser, url, keyWord, dirPath)

    # browser.close()

    browser.quit()

    print 'END'

参考资料：

1、python+selenium+scrapy搭建简单爬虫 http://blog.csdn.net/treasure_z/article/details/51064493

2、数据抓取的艺术（一）：Selenium+Phantomjs数据抓取环境配置 http://blog.chinaunix.net/uid-22414998-id-3692113.html

3、scrapy 和selenium如何连接起来 https://segmentfault.com/q/1010000002958344

scrapy 学习笔记的更多相关文章

Scrapy:学习笔记(2)——Scrapy项目
Scrapy:学习笔记(2)——Scrapy项目 1.创建项目创建一个Scrapy项目,并将其命名为“demo” scrapy startproject demo cd demo 稍等片刻后,Scr ...
Scrapy:学习笔记(1)——XPath
Scrapy:学习笔记(1)——XPath 1.快速开始 XPath是一种可以快速在HTML文档中选择并抽取元素.属性和文本的方法. 在Chrome,打开开发者工具,可以使用$x工具函数来使用XPat ...
scrapy 学习笔记1
最近一段时间开始研究爬虫,后续陆续更新学习笔记爬虫,说白了就是获取一个网页的html页面,然后从里面获取你想要的东西,复杂一点的还有: 反爬技术(人家网页不让你爬,爬虫对服务器负载很大) 爬虫框架( ...
scrapy学习笔记(1)
初探scrapy,发现很多入门教程对应的网址都失效或者改变布局了,走了很多弯路.于是自己摸索做一个笔记. 环境是win10 python3.6(anaconda). 安装 pip install sc ...
Scrapy学习笔记(5)-CrawlSpider+sqlalchemy实战
基础知识 class scrapy.spiders.CrawlSpider 这是抓取一般网页最常用的类,除了从Spider继承过来的属性外,其提供了一个新的属性rules,它提供了一种简单的机制,能够 ...
scrapy 学习笔记2
本章学习爬虫的回调和跟踪链接使用参数回调和跟踪链接上一篇的另一个爬虫,这次是为了抓取作者信息 # -*- coding: utf-8 -*- import scrapy class Myspi ...
scrapy学习笔记一
以前写爬虫都是直接手写获取response然后用正则匹配,被大佬鄙视之后现在决定开始学习scrapy 一.安装 pip install scrapy 二.创建项目 scrapy startprojec ...
Scrapy 学习笔记（一）数据提取
Scrapy 中常用的数据提取方式有三种:Css 选择器.XPath.正则表达式. Css 选择器 Web 中的 Css 选择器,本来是用于实现在特定 DOM 元素上应用花括号内的样式这样一个功能的. ...
scrapy学习笔记
1.scrapy用哪条命令行重新编辑已有的项目?cd projectname 2.如何在pycharm中开启scrapy?先在终端创建一个项目(即文件夹),再在pycharm中打开.

随机推荐

js判断用户是否正在滚动滚动条，滚动条滚动是否停止
js智能判断是否可以自动滚动比如,做一个音乐播放器,边播放,边定位歌词,播放的时候,需要自动定位到播放语句,但是用户去拖动或者滚动div(歌词面板)时,这时就必须停止自动滚动,或者说是不能自动滚动, ...
中大东校小米路由器mini实现inode上网，ipv6 wifi【中大】【东校】【inode】【ipv6】
还有不到4个月就要毕业了,前几天半夜没事捣鼓小米路由没想到竟然实现了wifi的ipv6. 正好又安利了同学一台小米路由mini,从刷机到inode到ipv6全搞了一遍. 这里将教程写出来,服务学弟妹. ...
SSH整合
首先,SSH不是一个框架,而是多个框架(struts+spring+hibernate)的集成,是目前较流行的一种Web应用程序开源集成框架,用于构建灵活.易于扩展的多层Web应用程序. 集成SSH框 ...
hadoop fs -ls no such file or directory
http://blog.csdn.net/baolibin528/article/details/43650919
node基础12：动态网页
1.显示动态网页又到了激动人心的时刻,马上就可以使用node创建动态网站了,其原理为: 在HTML模板中使用占位符根据请求路径,确定需要返回的页面根据请求参数来确定静态模板中占位符的值使用正则 ...
openssl、x509、crt、cer、key、csr、ssl、tls 这些都是什么鬼?
今天尝试在mac机上搭建docker registry私有仓库时,杯具的发现最新的registry出于安全考虑,强制使用ssl认证,于是又详细了解linux/mac上openssl的使用方法,接触了一 ...
委托，匿名函数和lambda表达式
很早之前就接触到了委托,但是一直对他用的不是太多,主要是本人是菜鸟,能写的比较高级的代码确实不多,但是最近在看MSDN微软的类库的时候,发现了微软的类库好多都用到了委托,于是决定好好的研究研究,加深一 ...
NFS简单使用
NFS网络文件系统(Network File System),由Sun公司开发,从名字上就能够知道这个服务是通过网络的方式来共享文件系统,目前RHEL 6上使用的版本为NFSv4,提供有状态的连接,追 ...
Binding笔记
Binding基础绑定某个对象的属性值到控制上,写法如下: public class Order : INotifyPropertyChanged//只要实现此接口 { public event ...
Python实战项目网络爬虫之爬取小说吧小说正文
本次实战项目适合,有一定Python语法知识的小白学员.本人也是根据一些网上的资料,自己摸索编写的内容.有不明白的童鞋,欢迎提问. 目的:爬取百度小说吧中的原创小说<猎奇师>部分小说内容 ...

scrapy 学习笔记

scrapy 学习笔记的更多相关文章

随机推荐

热门专题