Scrapy and Selenium

How to scrapy js?

scrapy结合webkit抓取js生成的页面 http://www.cnblogs.com/Safe3/archive/2011/10/19/2217965.html

pip install -U selenium

Selenium IDE
http://docs.seleniumhq.org/projects/ide/

Download the server separately, from: http://selenium-release.storage.googleapis.com/2.40/selenium-server-standalone-2.40.0.jar

java -jar selenium-server-standalone-2.40.0.jar

下面我们开始一步步来做：
1. 首先，进入你的电脑上Selenium Server的jar包所在的目录，通过java -jar xxx.jar的方式运行它，程序会自动监听本地的4444端口；
2. 参考我的上一篇博文《如何连入一台没有外网IP的服务器》，将本地的4444端口与服务器的4444端口建立Remote映射；
3. 使用Scrapy框架开始编写python程序，具体的例子不再赘述，网上有许多例子，比如这个：https://gist.github.com/1045108。仅描述几个要点：
a) 在python里调用selenium这样写：
self.sel = selenium(“localhost”, 4444, “*firefox”,”http://example.com/”)
不过直接写 “*firefox” 可能会找不到Firefox的路径，这时可以强制指定Firefox的程序路径，比如：”*firefox D:/Program Files/Mozilla Firefox/firefox.exe”。
b) 获取Firefox渲染完成后的HTML代码：

sel = self.selenium

sel.open(response.url)

sel.wait_for_page_to_load(10000)

html = sel.get_eval(“selenium.browserbot.getCurrentWindow().document.getElementsByTagName(‘html’)[0].innerHTML”)

from selenium import selenium

from scrapy.spider import BaseSpider

from scrapy.http import Request

import time

import lxml.html

class SeleniumSprider(BaseSpider):

    name = "selenium"

    allowed_domains = ['selenium.com']

    start_urls = ["http://localhost"]

    def __init__(self,  **kwargs):

        print kwargs

        self.sel = selenium("localhost", 4444, "*firefox","http://selenium.com/")

        self.sel.start()

    def parse(self, response):

        sel = self.sel

        sel.open("/index.aspx")

        sel.click("id=radioButton1")

        sel.select("genderOpt", "value=male")

        sel.type("nameTxt", "irfani")

        sel.click("link=Submit")

        time.sleep(1) #wait a second for page to load

        root = lxml.html.fromstring(sel.get_html_source())

参考：
http://networkedblogs.com/F9Eph

https://pypi.python.org/pypi/selenium

http://docs.seleniumhq.org/download/

http://yupengyan.com/scrapy-and-selenium.html

Scrapy and Selenium的更多相关文章

scrapy和selenium结合抓取动态网页
1.安装python (我用的是2.7版本的) 2.安装scrapy: 详情请参考 http://blog.csdn.net/wukaibo1986/article/details/8167590 ...
30.Scrapy 对接 Selenium
Scrapy 对接 Selenium(参考代码网址,https://github.com/Python3WebSpider/ScrapySeleniumTest) 此文就是参考书上的代码拿下来跑,作为 ...
15，scrapy中selenium的应用
引入在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生如果直接用scrapy对其url发请求,是获取不到那部分动态加载出来的数据值,但是通过观察会发现,通过浏览器 ...
scrapy结合selenium抓取武汉市环保局空气质量日报
1.前言目标网站:武汉市环境保护局(http://hbj.wuhan.gov.cn/viewAirDarlyForestWaterInfo.jspx).scrapy对接selenium模块抓取空气质 ...
15.scrapy中selenium的应用
引入在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值.但是通过观察我们会发现 ...
scrapy中selenium的应用
引入在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值.但是通过观察我们会发现 ...
scrapy框架 + selenium 爬取豆瓣电影top250......
废话不说,直接上代码..... 目录结构 items.py import scrapy class DoubanCrawlerItem(scrapy.Item): # 电影名称 movieName = ...
Scrapy实战篇（八）之Scrapy对接selenium爬取京东商城商品数据
本篇目标:我们以爬取京东商城商品数据为例,展示Scrapy框架对接selenium爬取京东商城商品数据. 背景: 京东商城页面为js动态加载页面,直接使用request请求,无法得到我们想要的商品数据 ...
scrapy中 selenium(中间件) + 语言处理 +mysql
在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值.但是通过观察我们会发现,通过 ...

随机推荐

sql-exists和not exists
EXISTS用于检查子查询是否至少会返回一行数据,该子查询实际上并不返回任何数据,而是返回值True或FalseEXISTS 指定一个子查询,检测行的存在. 实例: (一). 在子查询中使用 NULL ...
遍历HashMap的四种方法
public static void main(String[] args) { Map<String,String> map=new HashMap<String,String&g ...
log4j2 使用说明
因近期需要编写J2EE程序,所以简单学习了Log4j2,这里把我学习的一些信息做记录: 1.从HelloWorld开始参考:http://logging.apache.org/log4j/2.x/m ...
Day4_计算器
read me 1.构造三个函数,乘除(mad),加减(aas),去括号(par): 2.获取表达式字符串之后,判断是否包含“+-*/()”等字符,包含则下一步3:不包含,返回字符串: 3.par 函 ...
Cocos2d-X3.0 刨根问底（九）----- 场景切换（TransitionScene）源码分析
上一章我们分析了Scene与Layer相关类的源码,对Cocos2d-x的场景有了初步了解,这章我们来分析一下场景变换TransitionScene源码. 直接看TransitionScene的定义 ...
VirtualBox安装Fedora20
工具/原料 Fedora20 32位版(必须是32位,VirtualBox不识别64位操作系统) Oracle VM VirtualBox 方法/步骤 1 搜索Oracle VM VirtualBox ...
2个比较经典的PHP加密解密函数分享
项目中有时我们需要使用PHP将特定的信息进行加密,也就是通过加密算法生成一个加密字符串,这个加密后的字符串可以通过解密算法进行解密,便于程序对解密后的信息进行处理. 最常见的应用在用户登录以及一些AP ...
hdu 1205 吃糖果
思路: 仔细想想,想要不重复吃一种糖果, 把所有糖果吃完,只要所有糖果的和,减去最多的糖果+1>=最多糖果的数量即可不重复吃完. #include <stdio.h> int mai ...
golang社工库数据扫描程序
https://github.com/xiaojiong/scanfile 演示站点: http://www.weigongkai.com/ 7G数据 2s完成扫描 package scanfil ...
统一软件开发过程（rup）理解
不好意思,没有内容,请看百科吧http://baike.baidu.com/link?url=-zXA6oXiHRts5Z1THGzie7seH-YRigfiR7KRppP6TYcnnb7_Bxc_f ...

Scrapy and Selenium

Scrapy and Selenium的更多相关文章

随机推荐

热门专题