Python 爬虫实例（12）—— python selenium 爬虫

# coding:utf-

from common.contest import *

def spider():

　　url = "http://www.salamoyua.com/es/subasta.aspx?origen=subastas&subasta=79"

 　　chromedriver = 'C:/Users/xuchunlin/AppData/Local/Google/Chrome/Application/chromedriver.exe'

    chome_options = webdriver.ChromeOptions()

　　　
　　#使用代理　

    # proxies = r.get('4')

    # chome_options.add_argument(('--proxy-server=http://' + proxies))

    os.environ["webdriver.chrome.driver"] = chromedriver

    driver = webdriver.Chrome(chromedriver, chrome_options=chome_options)

    for i in range(1,100):

       print "正在爬取第" + str(i) + "页的数据"

       if i ==1:

           # 请求url

           driver.get(session_url)

           result = driver.page_source

       else:

          try:

             # 将页面滚动条拖到底部

             js = "var q=document.documentElement.scrollTop=10000"

             driver.execute_script(js)

             driver.find_element_by_id('ctl00_phContenidos_lbSiguiente').click()

             # 得到爬取页面的结果

             result = driver.page_source

             time.sleep(3)

           except:

               result = ""

      soup = BeautifulSoup(result, 'html.parser')

      result_div = soup.find_all('figure', attrs={"class": "Lotes fade"})

      # print len(result_div)

      for i in result_div:

　　　　　　　　　result_replace = replace(i)

                print result_replace

                item_url = re.findall('<figure class="Lotes fade"><a href="(.*?)" id=',result_replace)[0]

                item_url = "http://www.salamoyua.com/es/" + item_url.replace('','')

                item_imgurl = re.findall('<img id=".*?" src="..(.*?)" style="border-width:0px', result_replace)[0]

                item_imgurl = "http://www.salamoyua.com" + item_imgurl.replace('', '')

                if "Remate" not in result_replace:

                    sold_price = ""

                else:

                    sold_price = re.findall('<p><strong>Remate:(.*?)</strong></p></figcaption>', result_replace)[0]

                    sold_price = sold_price.replace(' ','')

                try:

                    item_lotnum = re.findall('title="Lote vendido"><span id=".*?">(.*?)</span>', result_replace)[0]

                    item_lotnum = item_lotnum.replace('Lote','').replace(' ','')

                except:

                    item_lotnum = re.findall('<span id=".*?">(.*?)</span></header>',result_replace)[0]

                    item_lotnum = item_lotnum.replace('Lote', '').replace(' ', '')

                print item_url

                print item_lotnum

                print item_imgurl

                print sold_price

　　

spider()

Python 爬虫实例（12）—— python selenium 爬虫的更多相关文章

python小实例一：简单爬虫
本文所谓的爬虫就是通过本地远程访问url,然后将url的读成源代码形式,然后对源代码进行解析,获取自己需要的数据,相当于简单数据挖掘.本文实现的是将一个网页的图片爬出保存到本地的过程,例子很简单,用的 ...
python爬虫实例——基于python实现有道云翻译接口
# 分析包# 分析post请求中参数# 使用python模拟lts.sign.salt参数运算# 执行结果> > 1.按F12对网页进行分析,填写内容后自动翻译的功能一般是通过ajax实现 ...
Python 爬虫实例（11）—— 爬虫苏宁易购
# coding:utf-8 import json import redis import time import requests session = requests.session() imp ...
转：Scrapy安装、爬虫入门教程、爬虫实例（豆瓣电影爬虫）
Scrapy在window上的安装教程见下面的链接:Scrapy安装教程上述安装教程已实践,可行.(本来打算在ubuntu上安装Scrapy的,但是Ubuntu 磁盘空间太少了,还没扩展磁盘空间,所 ...
Scrapy安装、爬虫入门教程、爬虫实例（豆瓣电影爬虫）
Scrapy在window上的安装教程见下面的链接:Scrapy安装教程上述安装教程已实践,可行.(本来打算在ubuntu上安装Scrapy的,但是Ubuntu 磁盘空间太少了,还没扩展磁盘空间,所 ...
Python学习：12.Python字符串格式化
字符串格式化讲解Python这么久,也没有讲解Python的字符串的格式化,那我们今天就来了解一下python字符串格式化的强大之处. 首先我们先理解一下为什么要有字符串的格式化,就是为了方便字符串 ...
shell及Python爬虫实例展示
1.shell爬虫实例: [root@db01 ~]# vim pa.sh #!/bin/bash www_link=http://www.cnblogs.com/clsn/default.html? ...
小白学 Python 爬虫（40）：爬虫框架 Scrapy 入门基础（七）对接 Selenium 实战
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
Python 爬虫实例
下面是我写的一个简单爬虫实例 1.定义函数读取html网页的源代码 2.从源代码通过正则表达式挑选出自己需要获取的内容 3.序列中的htm依次写到d盘 #!/usr/bin/python import ...
python Cmd实例之网络爬虫应用
python Cmd实例之网络爬虫应用标签(空格分隔): python Cmd 爬虫废话少说,直接上代码 # encoding=utf-8 import os import multiproces ...

随机推荐

Windows操作系统下的MySQL主从复制及读写分离[转]
mysql主从复制配置保证主库和从库数据库数据一致 mysql主库MASTER配置(在my.cnf中加入以下配置):log-bin=master-binbinlog-do-db=test #需要 ...
auto_ptr,unique_ptr,shared_ptr,weak_ptr
http://mojijs.com/2016/08/218129/index.html http://www.cnblogs.com/lanxuezaipiao/p/4132096.html
Flash: Event.PASTE Flash获取剪贴板内容触发paste事件 how to get paste event
actionscript把文字存放到剪贴板这个就非常简单了,一般网站做点击复制基本都是这么做的. 但是,基本没有人做flash粘贴内容.今天本来想尝试一下,通过flash实现网页编辑器粘贴图片,但貌似 ...
Android开发之使用HttpURLConnection进行POST请求
一.前提准备在开始实际编码之前,我们有必要先了解下将会用的类以及方法,进行一个大体的了解. 1.URL类这个类主要的功能是定位到要获取资源的网址以及打开连接.比如下面的代码: URL realur ...
2011的n次方
题目:http://noi.openjudge.cn/ch0204/2991/ 总时间限制:1000ms 内存限制: 65536kB 描述已知长度最大为200位的正整数n,请求出2011^n的后四 ...
P2093 零件分组【贪心算法练习题】
题目链接: http://codevs.cn/problem/4888/ https://www.luogu.org/problem/show?pid=2093 题目描述某工厂生产一批棍状零件,每个 ...
Android中使用DialogFragment来取代popopwindow
DialogFragment +fragment 来取代popopwindow +fragment 先留个标题,这几天过来写,重大发现
Easyui + asp.net MVC 系列教程第09-17 节完成登录高清录制
前面八节在这里 Easyui + asp.net mvc + sqlite 开发教程(录屏)适合入门在接下来的几节里面我们完成登录功能打开页面首先进入登录页面只有登录成功了才能进入管理 ...
ext3, ext4 和 reiserfs 文件系统性能对比
: 创建空文件10000个的耗时创建小文件,每个小文件使用512个blocks,一共创建10000个创建一个2G文件的耗时复制2G文件的耗时删除2G大文件的耗时删除10000个小文件的耗时 ...
swift3 生成UUID
swift3 生成UUID //获取UUID func getUUID() -> String { let uuidRef = CFUUIDCreate(nil) let uuidStringR ...

Python 爬虫实例（12）—— python selenium 爬虫

Python 爬虫实例（12）—— python selenium 爬虫的更多相关文章

随机推荐

热门专题