scrapy和selenium结合抓取动态网页

1、安装python (我用的是2.7版本的)

2、安装scrapy: 详情请参考 http://blog.csdn.net/wukaibo1986/article/details/8167590 (提示，能下载源码安装的就避免用pip install **)

安装过程中遇到python扩展问题”unable to find vcvarsall.bat“的解决办法： http://blog.csdn.net/ren911/article/details/6448696

3、安装selenium, https://pypi.python.org/pypi/selenium，注意安装后Download the server separately, from:http://selenium-release.storage.googleapis.com/2.42/selenium-server-standalone-2.42.0.jar，然后运行(命令行运行，需要安装Java Runtime Environment (JRE)) java -jar selenium-server-standalone-2.42.0.jar

4、建scrapy工程，参考 http://www.searchtb.com/2011/01/an-introduction-to-crawler.html?spm=0.0.0.0.HrlxVl

5、scrapy和selenium结合抓取动态网页： https://github.com/tmslav/google_adwords_scrape/blob/master/adwords_bot.py

7、Python Selenium socket error - [Errno 61] Connection refused： http://stackoverflow.com/questions/12913991/python-selenium-socket-error-errno-61-connection-refused

8、Selenium: FirefoxProfile exception Can't load the profile： https://github.com/tmslav/google_adwords_scrape/blob/master/adwords_bot.py

scrapy和selenium结合抓取动态网页的更多相关文章

Python:利用 selenium 库抓取动态网页示例
前言在抓取常规的静态网页时,我们直接请求对应的 url 就可以获取到完整的 HTML 页面,但是对于动态页面,网页显示的内容往往是通过 ajax 动态去生成的,所以如果是用 urllib.reque ...
selenium抓取动态网页数据
1.selenium抓取动态网页数据基础介绍 1.1 什么是AJAX AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进 ...
使用scrapy-selenium, chrome-headless抓取动态网页
在使用scrapy抓取网页时, 如果遇到使用js动态渲染的页面, 将无法提取到在浏览器中看到的内容. 针对这个问题scrapy官方给出的方案是scrapy-selenium, 这是一个把sel ...
python网络爬虫抓取动态网页并将数据存入数据库MySQL
简述以下的代码是使用python实现的网络爬虫,抓取动态网页 http://hb.qq.com/baoliao/ .此网页中的最新.精华下面的内容是由JavaScript动态生成的.审查网页元素与网页 ...
【转】详解抓取网站，模拟登陆，抓取动态网页的原理和实现（Python，C#等）
转自:http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_ ...
scrapy 抓取动态网页
-- coding: utf-8 -- ''' gouwu.sogou.com Spider, Created on Dec, 2014 version: 1.0 author: chenqx @ht ...
Selenium来抓取动态加载的页面
一般的爬虫都是直接使用http协议,下载指定url的html内容,并对内容进行分析和抽取.在我写的爬虫框架webmagic里也使用了HttpClient来完成这样的任务. 但是有些页面是通过js以及a ...
使用Selenium来抓取动态加载的页面
原文:http://my.oschina.net/flashsword/blog/147334?p=1 一般的爬虫都是直接使用http协议,下载指定url的html内容,并对内容进行分析和抽取.在我写 ...
java抓取动态生成的网页
最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到).刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架 ...

随机推荐

每天一个linux命令（8）：cat 命令
cat命令的用途是连接文件或标准输入并打印.这个命令常用来显示文件内容,或者将几个文件连接起来显示,或者从标准输入读取内容并显示,它常与重定向符号配合使用. 1．命令格式: cat [选项] [文件] ...
【POJ 2250】Compromise(最长公共子序列LCS)
题目字符串的LCS,输出解我比较不会,dp的时候记录从哪里转移来的,之后要一步一步转移回去把解存起来然后输出. #include<cstdio> #include<cstring&g ...
解决Oracle忘记密码问题
在使用ORACLE的过程中,会出现各种各样的问题,各种各样的错误,其中ORA-12899就是前段时间我在将数据导入到我本地机器上的时候一直出现的问题.不过还好已经解决了这个问题,现在分享一下,解决方案 ...
Bzoj 1336&1337 Alien最小圆覆盖
1336: [Balkan2002]Alien最小圆覆盖 Time Limit: 1 Sec Memory Limit: 162 MBSec Special Judge Submit: 1473 ...
北航编译实践 PL/0文法
编译实践-PL\0编译系统实现姓名: 专业: 计算机科学与技术学院: 软件学院提交时间: 2013年12月25日北京航空航天大学·软件学院编译实践-PL\0编译系统实现实验要求以个人 ...
HTTPS-能否避免流量劫持
流量劫持是什么? EtherDream在一篇科普文章<>中详细介绍了流量劫持途径和方式. 流量劫持是一种古老的攻击方式,比如早已见惯的广告弹窗等,很多人已经对此麻木,并认为流量劫持不会造成 ...
Eclipse在线安装ADT插件
要想使用Eclipse开发Android应用,首先要安装一个ADT插件,在此记录一下在Eclipse中采用在线安装的方式ADT插件,我使用的Eclipse版本是:eclipse-jee-luna-SR ...
xml 嵌入式资源
使用Ibatis总是说未能加载相应的sqlmap.xml,原来是 xml以内容方式,而不是嵌入式方式载入Dll中
mongo复习
$pop:-1移除数组的第一个元素,1移除最后一个元素eg: db.c.update({"name" : "toyota"},{$pop:{"titl ...
利用a标签自动解析URL
parseURL // This function creates a new anchor element and uses location // properties (inherent) to ...

scrapy和selenium结合抓取动态网页

scrapy和selenium结合抓取动态网页的更多相关文章

随机推荐

热门专题