phantomjs 抓取房产信息
抓取https://sf.taobao.com/item_list.htm信息

    
    
driver=webdriver.PhantomJS(service_args=['--ssl-protocol=any'])
or
driver = webdriver.PhantomJS( service_args=['--ignore-ssl-errors=true'])
cur_driver=webdriver.PhantomJS(service_args=['--ssl-protocol=any', '--load-images=false'])
service_args=['--load-images=false']
抓取代码
# coding=utf-8
import os
import re
from selenium import webdriver
# from selenium.common.exceptions import TimeoutException
import selenium.webdriver.support.ui as ui
import time
from datetime import datetime
from selenium.webdriver.common.action_chains import ActionChains
import IniFile
# from threading import Thread
from pyquery import PyQuery as pq
import LogFile
import mongoDB
import urllib class taobao(object):
def __init__(self):
self.driver = webdriver.PhantomJS(service_args=['--ssl-protocol=any'])
self.driver.set_page_load_timeout(10)
self.driver.maximize_window()
self.url ='https://sf.taobao.com/item_list.htm' def scrapy_date(self):
try:
self.driver.get(self.url) selenium_html = self.driver.execute_script("return document.documentElement.outerHTML")
doc = pq(selenium_html)
Elements = doc('ul[class="sf-pai-item-list"]').find('li[class="pai-item pai-status-doing"]')
for element in Elements.items():
priceinfo = element('div[class="info-section"]').find('p').text().encode('utf8').strip()
title = element('div[class="header-section "]').find('p').text().encode('utf8').strip()
print title
print priceinfo
print '--------------------------------------------------------------------------------' except Exception, e:
print e.message
finally:
pass obj = taobao()
obj.scrapy_date()
抓取结果

phantomjs 抓取房产信息的更多相关文章
- NodeJS + PhantomJS 抓取页面信息以及截图
		
利用PhantomJS做网页截图经济适用,但其API较少,做其他功能就比较吃力了.例如,其自带的Web Server Mongoose最高只能同时支持10个请求,指望他能独立成为一个服务是不怎么实际的 ...
 - [Python爬虫] 之十一:Selenium +phantomjs抓取活动行中会议活动信息
		
一.介绍 本例子用Selenium +phantomjs爬取活动行(http://www.huodongxing.com/search?qs=数字&city=全国&pi=1)的资讯信息 ...
 - C#使用Selenium+PhantomJS抓取数据
		
本文主要介绍了C#使用Selenium+PhantomJS抓取数据的方法步骤,具有很好的参考价值,下面跟着小编一起来看下吧 手头项目需要抓取一个用js渲染出来的网站中的数据.使用常用的httpclie ...
 - [Python爬虫] 之十:Selenium +phantomjs抓取活动行中会议活动
		
一.介绍 本例子用Selenium +phantomjs爬取活动树(http://www.huodongshu.com/html/find_search.html?search_keyword=数字) ...
 - 网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(3): 抓取amazon.com价格
		
通过上一篇随笔的处理,我们已经拿到了书的书名和ISBN码.(网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息 ...
 - 网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息及ISBN码
		
这一篇首先从allitebooks.com里抓取书籍列表的书籍信息和每本书对应的ISBN码. 一.分析需求和网站结构 allitebooks.com这个网站的结构很简单,分页+书籍列表+书籍详情页. ...
 - PHP快速抓取快递信息
		
<?php header("Content-type:text/html;charset=utf-8"); /** * Express.class.php 快递查询类 * @ ...
 - CasperJS基于PhantomJS抓取页面
		
CasperJS基于PhantomJS抓取页面 Casperjs是基于Phantomjs的,而Phantom JS是一个服务器端的 JavaScript API 的 WebKit. CasperJS是 ...
 - .net抓取网页信息 - Jumony框架使用1
		
往往在实际开发中,经常会用到一些如抓取网站信息之类的的操作,往往大家采用的是用一些正则的方式获取,但是有时候正则是很死板的,我们常常试想能不能使用jquery的选择器,获取符合自己要求的元素,然后进行 ...
 
随机推荐
- mysql中的制表符替换
			
-- 问题重现set @v_t=' ';select hex(@v_t) -- 原因: -- ASCII格式的hex进展ox09对应char为(ht)制表tab,喔原来是有很多的制表符吧. ...
 - 使用PuTTY连接树莓派
			
这是 meelo 原创的 玩转树莓派 系列文章 PuTTY是一个支持Telnet.SSH协议,实现远程登录的软件.树莓派的官方操作系统Raspbian默认开启了SSH协议进行登录,这样即使没有专门的显 ...
 - BZOJ 1901: Zju2112 Dynamic Rankings 区间k大 带修改 在线 线段树套平衡树
			
之前写线段树套splay数组版..写了6.2k..然后弃疗了.现在发现还是很水的..嘎嘎.. zju过不了,超时. upd:才发现zju是多组数据..TLE一版才发现.然后改了,MLE...手写内存池 ...
 - 解决Cocos2d-js 在使用 TiledMap时的黑线问题
			
在项目中,加载TiledMap时,如果当前显示分辨率与设计分辨率不符,做出的地图上会有黑线产生.屏幕移动时,也会有黑线. 解决的方式很简单.找到配置文件 CCConfig.js 一般情况是在 ra ...
 - 深入解析php中的foreach问题
			
本篇文章是对php中的foreach问题进行了详细的分析介绍,需要的朋友参考下 前言:php4中引入了foreach结构,这是一种遍历数组的简单方式.相比传统的for循环,foreach能够更加便 ...
 - CodeForces 779E Bitwise Formula
			
位运算,枚举. 按按分开计算,枚举$?$是$0$还是$1$,分别计算出$sum$,然后就可以知道该位需要填$1$还是$0$了. #include<map> #include<set& ...
 - Bzoj3566/洛谷P4284 [SHOI2014]概率充电器(概率dp)
			
题面 Bzoj 洛谷 题解 首先考虑从儿子来的贡献: $$ f[u]=\prod_{v \in son[u]}f[v]+(1-f[v])\times(1-dis[i]) $$ 根据容斥原理,就是儿子直 ...
 - 洛谷——P3908 异或之和
			
P3908 异或之和 题目描述 求1 \bigoplus 2 \bigoplus\cdots\bigoplus N1⨁2⨁⋯⨁N 的值. A \bigoplus BA⨁B 即AA , BB 按位异或. ...
 - #、##和__VA_ARGS__
			
转自:http://www.cnblogs.com/zhujudah/admin/EditPosts.aspx?opt=1 1.#假如希望在字符串中包含宏参数,ANSI C允许这样作,在类函数宏的替换 ...
 - angularjs学习笔记3-directive中scope的绑定修饰符
			
在angularjs中,一个directive返回一个对象,对象存在很多属性,并且可以在directive中自定义自己的scope,而使用自己的scope是为了防止一个directive被使用在多个地 ...