使用selenium抓取淘宝的商品信息

　　淘宝的页面大量使用了js加载数据，所以采用selenium来进行爬取更为简单，selenum作为一个测试工具，主要配合无窗口浏览器phantomjs来使用。

import re

from selenium import webdriver

from selenium.common.exceptions import TimeoutException

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

from pyquery import PyQuery as pq

'''

wait.until()语句是selenum里面的显示等待，wait是一个WebDriverWait对象，它设置了等待时间，如果页面在等待时间内

没有在 DOM中找到元素，将继续等待，超出设定时间后则抛出找不到元素的异常,也可以说程序每隔xx秒看一眼，如果条件

成立了，则执行下一步，否则继续等待，直到超过设置的最长时间，然后抛出TimeoutException

1.presence_of_element_located 元素加载出，传入定位元组，如(By.ID, 'p')

2.element_to_be_clickable 元素可点击

3.text_to_be_present_in_element 某个元素文本包含某文字

'''

# 定义一个无界面的浏览器

browser = webdriver.PhantomJS(

    service_args=[

        '--load-images=false',

        '--disk-cache=true'])

# 10s无响应就down掉

wait = WebDriverWait(browser, 10)

#虽然无界面但是必须要定义窗口

browser.set_window_size(1400, 900)

def search():

    '''

    此函数的作用为完成首页点击搜索的功能，替换标签可用于其他网页使用

    :return:

    '''

    print('正在搜索')

    try:

        #访问页面

        browser.get('https://www.taobao.com')

        # 选择到淘宝首页的输入框

        input = wait.until(

            EC.presence_of_element_located((By.CSS_SELECTOR, '#q'))

        )

        #搜索的那个按钮

        submit = wait.until(EC.element_to_be_clickable(

            (By.CSS_SELECTOR, '#J_TSearchForm > div.search-button > button')))

        #send_key作为写到input的内容

        input.send_keys('面条')

        #执行点击搜索的操作

        submit.click()

        #查看到当前的页码一共是多少页

        total = wait.until(EC.presence_of_element_located(

            (By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.total')))

        #获取所有的商品

        get_products()

        #返回总页数

        return total.text

    except TimeoutException:

        return search()

def next_page(page_number):

    '''

    翻页函数，

    :param page_number:

    :return:

    '''

    print('正在翻页', page_number)

    try:

        #这个是我们跳转页的输入框

        input = wait.until(EC.presence_of_element_located(

            (By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > input')))

        #跳转时的确定按钮

        submit = wait.until(

            EC.element_to_be_clickable(

                (By.CSS_SELECTOR,

                 '#mainsrp-pager > div > div > div > div.form > span.J_Submit')))

        #清除里面的数字

        input.clear()

        #重新输入数字

        input.send_keys(page_number)

        #选择并点击

        submit.click()

        #判断当前页是不是我们要现实的页

        wait.until(

            EC.text_to_be_present_in_element(

                (By.CSS_SELECTOR,

                 '#mainsrp-pager > div > div > div > ul > li.item.active > span'),

                str(page_number)))

        #调用函数获取商品信息

        get_products()

    #捕捉超时，重新进入翻页的函数

    except TimeoutException:

        next_page(page_number)

def get_products():

    '''

    搜到页面信息在此函数在爬取我们需要的信息

    :return:

    '''

    #每一个商品标签，这里是加载出来以后才会拿网页源代码

    wait.until(EC.presence_of_element_located(

        (By.CSS_SELECTOR, '#mainsrp-itemlist .items .item')))

    #这里拿到的是整个网页源代码

    html = browser.page_source

    #pq解析网页源代码

    doc = pq(html)

    items = doc('#mainsrp-itemlist .items .item').items()

    for item in items:

        # print(item)

        product = {

            'image': item.find('.pic .img').attr('src'),

            'price': item.find('.price').text(),

            'deal': item.find('.deal-cnt').text()[:-3],

            'title': item.find('.title').text(),

            'shop': item.find('.shop').text(),

            'location': item.find('.location').text()

        }

        print(product)

def main():

    try:

        #第一步搜索

        total = search()

        #int类型刚才找到的总页数标签，作为跳出循环的条件

        total = int(re.compile('(\d+)').search(total).group(1))

        #只要后面还有就继续爬，继续翻页

        for i in range(2, total + 1):

            next_page(i)

    except Exception:

        print('出错啦')

    finally:

        #关闭浏览器

        browser.close()

if __name__ == '__main__':

    main()

使用selenium抓取淘宝的商品信息的更多相关文章

selenium+PhantomJS 抓取淘宝搜索商品
最近项目有些需求,抓取淘宝的搜索商品,抓取的品类还多.直接用selenium+PhantomJS 抓取淘宝搜索商品,快速完成. #-*- coding:utf-8 -*-__author__ =''i ...
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...
selenium抓取淘宝数据报错:warnings.warn('Selenium support for PhantomJS has been deprecated, please use headless
ssh://root@192.168.33.12:22/root/anaconda3/bin/python3 -u /www/python3/maoyantop100/meishi_selenium. ...
使用Pyquery+selenium抓取淘宝商品信息
配置文件,配置好数据库名称,表名称,要搜索的产品类目,要爬取的页数 MONGO_URL = 'localhost' MONGO_DB = 'taobao' MONGO_TABLE = 'phone' ...
一个小demo 实用selenium 抓取淘宝搜索页面内的产品内容
废话少说,上代码 #conding:utf-8 import re from selenium import webdriver from selenium.webdriver.common.by i ...
使用selenium抓取淘宝信息并存储mongodb
selenium模块简单小例子 Author:song import pyquery from selenium import webdriver from selenium.common.exce ...
python3编写网络爬虫16-使用selenium 爬取淘宝商品信息
一.使用selenium 模拟浏览器操作爬取淘宝商品信息之前我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过A ...
Python爬虫学习==>第十二章：使用 Selenium 模拟浏览器抓取淘宝商品美食信息
学习目的: selenium目前版本已经到了3代目,你想加薪,就跟面试官扯这个,你赢了,工资就到位了,加上一个脚本的应用,结局你懂的正式步骤需求背景:抓取淘宝美食 Step1:流程分析搜索关键字 ...
利用Selenium爬取淘宝商品信息
一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一 ...

随机推荐

HDU 6166 Senior Pan(多校第九场二进制分组最短路）
题意:给出n个点和m条有向边(有向边!!!!我还以为是无向查了半天),然后给出K个点,问这k个点中最近的两点的距离思路:比赛时以为有询问,就直接丢了,然后这题感觉思路很棒,加入把所有点分成起点和终点 ...
ios多线程NSThread
1.简介: 1.1 iOS有三种多线程编程的技术,分别是: 1..NSThread 2.Cocoa NSOperation (iOS多线程编程之NSOperation和NSOperationQueue ...
Linux rm删除文件未释放空间问题分析
问题描述: 在自己的虚拟机上做实验时出现空间不足情况,检查发现之前的kafka集群测试日志在几天写了 25G,于是进入 /data/kafka01/logs 目录执行 “rm -rf *” 删除所有测 ...
（2）zabbix硬件需求
1. 硬件需求无非就是cpu.内存.硬盘之类的1.1 CPU由你的zabbix数据库使用情况来做决定,如果你监控的项目越多,那你的cpu要越好.具体多好,下面有个表格 1.2 内存与硬盘最基本的需求 ...
linux运维中常用的指令
一.终端中常用的快捷键 man界面中的快捷键: ?keyword 向上搜索关键词keyword,n向下搜索,N继续向上搜索 /keyword 向下搜索关键词keyw ...
【Charles】使用Charles时，抓不到包的情况。
有可能是因为浏览器的代理权限给了其他插件,需要停用该插件,重启浏览器,重新进行访问就可以看到Charles的抓包信息了.
【php】Windows PHP及xdebug安装安装
php version 7.0 redis 下载地址 https://pecl.php.net/package/redis 7.0版本的redis不再依赖php_igbinary.dll扩展,可以独立 ...
XML,面向对象基础
什么是XML XML与JSON的对比 XML文档格式使用XML模块解析一,什么是XML ''' XML 全称可扩展标记语言 <tag></tag> 双标签 <tag/ ...
PHP优化之批量操作MySQL
设计一个数据表如下: create table optimization( id INT NOT NULL AUTO_INCREMENT, value VARCHAR(10) NOT NULL, PR ...
[uiautomator篇] python uiautomatorDemo
#coding=utf-8 """ @version: 1.0 @author: @prerequisite: based on Python 2.7 @usage: 1 ...

使用selenium抓取淘宝的商品信息

使用selenium抓取淘宝的商品信息的更多相关文章

随机推荐

热门专题