scrapy 学习笔记

1、scrapy 配合 selenium、phantomJS 抓取动态页面，单纯的selemium 加 Firefox浏览器就可以抓取动态页面了，

但开启窗口太耗资源,而且一般服务器的linux 没有视窗系统，所以通过无窗口的phantomJS就行了，原理都是通过webket加载js渲染。

直接 pip install selenium 安装 selenium，下载 phantomJS 解压，并将 phantomJS.exe 加入到系统环境，然后就大功告成了。

#coding:utf-8

import sys

reload(sys)

sys.setdefaultencoding( "utf-8" )

from selenium import webdriver

from selenium.webdriver.common.keys import Keys

from selenium.webdriver.common.action_chains import ActionChains

from scrapy.selector import Selector

import time

import os

def writeFile(dirPath, page):

    data = Selector(text = page).xpath("//td[@class='zwmc']/div/a")

    titles = data.xpath('string(.)').extract()

    timeMarks = Selector(text = browser.page_source).xpath("//td[@class='gxsj']/span/text()").extract()

    links = Selector(text = browser.page_source).xpath("//td[@class='zwmc']/div/a/@href").extract()

    for i in range(len(titles)):

        fileName = titles[i].replace(':', '-').replace('/', '-').replace('\\', '-').replace('*', 'x').replace('|', '-').replace('?', '-').replace('<', '-').replace('>', '-').replace('"', '-').replace('\n', '-').replace('\t', '-')

        filePath = dirPath + os.sep + fileName + '.txt'

        with open(filePath, 'w') as fp:

            fp.write(titles[i])

            fp.write('$***$')

            fp.write(timeMarks[i])

            fp.write('$***$')

            fp.write(links[i])

def searchFunction(browser, url, keyWord, dirPath):

    browser.get(url)

#勾选城市

    browser.find_element_by_xpath("//input[@id='buttonSelCity']").click()

    browser.find_element_by_xpath("//table[@class='sPopupTabC']/tbody/tr[1]/td/label/input[@iname='北京']").click()

    browser.find_element_by_xpath("//table[@class='sPopupTabC']/tbody/tr[1]/td/label/input[@iname='上海']").click()

    browser.find_element_by_xpath("//table[@class='sPopupTabC']/tbody/tr[3]/td/label/input[@iname='南京']").click()

    browser.find_element_by_xpath("//table[@class='sPopupTabC']/tbody/tr[4]/td/label/input[@iname='苏州']").click()

    browser.find_element_by_xpath("//table[@class='sPopupTabC']/tbody/tr[4]/td/label/input[@iname='无锡']").click()

    browser.find_element_by_xpath("//div[@class='sPopupTitle250']/div/a[1]").click()

#定位搜索框

    searchBox = browser.find_element_by_xpath("//div[@class='keyword']/input[@type='text']")

#发送搜索内容

    searchBox.send_keys(keyWord)

#确认搜索

    browser.find_element_by_xpath("//div[@class='btn']/button[@class='doSearch']").click()

    totalCount = Selector(text = browser.page_source).xpath("//span[@class='search_yx_tj']/em/text()").extract()[0]

    pageOver = int(totalCount) / 40

    for i in range(pageOver):

        time.sleep(3)

        writeFile(dirPath, browser.page_source)

        browser.find_element_by_link_text("下一页").click()    

    time.sleep(3)

    writeFile(dirPath, browser.page_source) 

if __name__ == '__main__':

    print 'START'

    url = 'http://www.zhaopin.com/'

    keyWord = u"华为技术有限公司"

    dirPath = keyWord + u"招聘信息"

    if not os.path.exists(dirPath):

        os.makedirs(dirPath)

#定义一个火狐浏览器对象

    # browser = webdriver.Firefox()

    browser = webdriver.PhantomJS()

    searchFunction(browser, url, keyWord, dirPath)

    # browser.close()

    browser.quit()

    print 'END'

参考资料：

1、python+selenium+scrapy搭建简单爬虫 http://blog.csdn.net/treasure_z/article/details/51064493

2、数据抓取的艺术（一）：Selenium+Phantomjs数据抓取环境配置 http://blog.chinaunix.net/uid-22414998-id-3692113.html

3、scrapy 和selenium如何连接起来 https://segmentfault.com/q/1010000002958344

scrapy 学习笔记的更多相关文章

Scrapy:学习笔记(2)——Scrapy项目
Scrapy:学习笔记(2)——Scrapy项目 1.创建项目创建一个Scrapy项目,并将其命名为“demo” scrapy startproject demo cd demo 稍等片刻后,Scr ...
Scrapy:学习笔记(1)——XPath
Scrapy:学习笔记(1)——XPath 1.快速开始 XPath是一种可以快速在HTML文档中选择并抽取元素.属性和文本的方法. 在Chrome,打开开发者工具,可以使用$x工具函数来使用XPat ...
scrapy 学习笔记1
最近一段时间开始研究爬虫,后续陆续更新学习笔记爬虫,说白了就是获取一个网页的html页面,然后从里面获取你想要的东西,复杂一点的还有: 反爬技术(人家网页不让你爬,爬虫对服务器负载很大) 爬虫框架( ...
scrapy学习笔记(1)
初探scrapy,发现很多入门教程对应的网址都失效或者改变布局了,走了很多弯路.于是自己摸索做一个笔记. 环境是win10 python3.6(anaconda). 安装 pip install sc ...
Scrapy学习笔记(5)-CrawlSpider+sqlalchemy实战
基础知识 class scrapy.spiders.CrawlSpider 这是抓取一般网页最常用的类,除了从Spider继承过来的属性外,其提供了一个新的属性rules,它提供了一种简单的机制,能够 ...
scrapy 学习笔记2
本章学习爬虫的回调和跟踪链接使用参数回调和跟踪链接上一篇的另一个爬虫,这次是为了抓取作者信息 # -*- coding: utf-8 -*- import scrapy class Myspi ...
scrapy学习笔记一
以前写爬虫都是直接手写获取response然后用正则匹配,被大佬鄙视之后现在决定开始学习scrapy 一.安装 pip install scrapy 二.创建项目 scrapy startprojec ...
Scrapy 学习笔记（一）数据提取
Scrapy 中常用的数据提取方式有三种:Css 选择器.XPath.正则表达式. Css 选择器 Web 中的 Css 选择器,本来是用于实现在特定 DOM 元素上应用花括号内的样式这样一个功能的. ...
scrapy学习笔记
1.scrapy用哪条命令行重新编辑已有的项目?cd projectname 2.如何在pycharm中开启scrapy?先在终端创建一个项目(即文件夹),再在pycharm中打开.

随机推荐

WPF 开发 WebBrowser
WebBrowser WebBrowser 报错如何屏蔽 CEF(Chromium Embedded Framework) 参考 WPF, Chrome Embedded and WebA ...
IBM Bluemix体验：Containers进阶
上一篇中介绍了Bluemix的Containers服务以及如何使用自定义的docker image创建一个容器实例并对外提供服务.除了自定义镜像之外,Bluemix Containers还可以使用Do ...
Chrome Developer Tools：Timeline Panel说明
一.Timeline panel 概况 Timeline工具栏可以详细检测出Web应用在加载过程中,时间花费情况的概览.这些应用包括下载资源,处理DOM事件, 页面布局渲染或者向屏幕绘制元素. 如下图 ...
使用DFA做文本编辑器的自动提示
之前看龙书的时候,龙书提到可以在编译器里用动态的生成的NFA自动机来动态匹配自己的输入串,NFA的简单实现其实写起来非常简单,但是我是实际凭感觉写完之后,却觉得并不是非常的好用,在处理自己已经输入过的 ...
CSS3文字渐变效果
background-clip + text-fill-color下的实现如果您手头上的浏览器是Chrome或是Safari,则您可以在demo页面中看到类似下面的效果: <h2 class= ...
[LeetCode] Palindrome Partitioning II 拆分回文串之二
Given a string s, partition s such that every substring of the partition is a palindrome. Return the ...
python获取父类的子类（遍历，递归），并循环执行所有子类的某一方法
前言换了新工作,踏足于python语言的开发,也把自己的学习过程记录下来. 一,递归获取某一父类的所有子类 all_subclasses = {'0': '0'} def get_all_class ...
数据集偏斜 - class skew problem - 以SVM松弛变量为例
原文接下来要说的东西其实不是松弛变量本身,但由于是为了使用松弛变量才引入的,因此放在这里也算合适,那就是惩罚因子C.回头看一眼引入了松弛变量以后的优化问题: 注意其中C的位置,也可以回想一下C所起的 ...
Java NIO使用及原理分析（1-4）（转）
转载的原文章也找不到!从以下博客中找到http://blog.csdn.net/wuxianglong/article/details/6604817 转载自:李会军•宁静致远最近由于工作关系要做一 ...
Web App 压力测试
建议您可以在本地压测来进行评估具体的压测方法请参考下面的链接:https://www.visualstudio.com/zh-cn/docs/test/performance-testing/run ...

scrapy 学习笔记

scrapy 学习笔记的更多相关文章

随机推荐

热门专题