selenium+plantomJS

#!/usr/bin/env python

# -*- coding:utf-8 -*-

"""

    流程框架：

        1.搜索关键词，利用selenium驱动浏览器搜索关键词，查询得到商品列表

        2.分析页码并翻页，得到商品页码数，模拟翻页，得到后续页面的商品列表

        3.分析提取商品内容，利用PyQuery分析源码，解析得到商品列表

        4.存储至MongoDB，将商品列表信息存储到Mongodb数据库

"""

from selenium import webdriver

from selenium.common.exceptions import TimeoutException

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

import re

from pyquery import PyQuery as pq

import pymongo

LOCATION = "localhost"

MONGO_DB = 'taobao'

MONGO_TABLE = "taobao"

KEYWORD = '零食'

client = pymongo.MongoClient(LOCATION)

db = client[MONGO_DB]

driver = webdriver.PhantomJS(service_args=['--load-images=false', ])

wait = WebDriverWait(driver, 20)

driver.set_window_size(1366, 768)

def search(keyword):

    print("正在搜索关键字：%s" % keyword)

    try:

        driver.get('http://www.taobao.com')

        element = wait.until(

            EC.presence_of_element_located((By.CSS_SELECTOR, "#q"))

        )

        submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.btn-search')))

        element.clear()

        element.send_keys(keyword)

        submit.click()

        total = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.total')))

        get_product()

        return total.text

    except TimeoutException:

        search(keyword)

def next_page(page_number):

    print("正在翻页：%s" % page_number)

    flag = False

    try:

        element = WebDriverWait(driver, 20).until(

            EC.presence_of_element_located((By.CSS_SELECTOR, 'input.input:nth-child(2)')))

        submit = WebDriverWait(driver, 20).until(

                          EC.element_to_be_clickable((By.CSS_SELECTOR, 'span.btn:nth-child(4)')))

        element.clear()

        element.send_keys(page_number)

        submit.click()

        wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR, 'span.num'), str(page_number)))

        get_product()

        flag = True

    except TimeoutException:

        next_page(page_number)

    except Exception as e:

        print(e)

    return flag

def get_product():

    print("正在获取产品信息...")

    try:

        wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-itemlist .items .item')))

        html = driver.page_source

        doc = pq(html)

        items = doc('#mainsrp-itemlist .items .item').items()

        for item in items:

            product = {

                "img": item.find(".pic-box div a img").attr('src'),

                'title': item.find(".title a").text(),

                "sales": item.find(".deal-cnt").text(),

                "shop": item.find(".shopname").text(),

                "location": item.find(".location").text(),

                "price": item.find(".price strong").text()

            }

            save_to_mongo(product)

    except Exception as e:

        print(e)

def save_to_mongo(result):

    try:

        if db[MONGO_TABLE].insert(result):

            print("产品信息成功保存到mongodb", result)

    except Exception as e:

        print("保存失败！", e)

def main():

    page = search(KEYWORD)

    page = re.compile("\d+").search(page).group(0)

    flag = ''

    for i in range(2, int(page) + 1):

        flag = next_page(i)

    return flag

if __name__ == "__main__":

    main()

selenium+plantomJS的更多相关文章

Python爬虫小白入门（四）PhatomJS+Selenium第一篇
一.前言在上一篇博文中,我们的爬虫面临着一个问题,在爬取Unsplash网站的时候,由于网站是下拉刷新,并没有分页.所以不能够通过页码获取页面的url来分别发送网络请求.我也尝试了其他方式,比如下拉 ...
Selenium的PO模式（Page Object Model）[python版]
Page Object Model 简称POM 普通的测试用例代码: .... #测试用例 def test_login_mail(self): driver = self.driver driv ...
selenium元素定位篇
Selenium webdriver是完全模拟用户在对浏览器进行操作,所有用户都是在页面进行的单击.双击.输入.滚动等操作,而webdriver也是一样,所以需要我们指定元素让webdriver进行单 ...
selenium自动化基础知识
什么是自动化测试? 自动化测试分为:功能自动化和性能自动化功能自动化即使用计算机通过编码的方式来替代手工测试,完成一些重复性比较高的测试,解放测试人员的测试压力.同时,如果系统有不份模块更改后,只要 ...
幼儿园的 selenium
from selenium import webdriver *固定开头 b=webdriver.Firefox() *打开火狐浏览器 browser. ...
使用selenium编写脚本常见问题（一）
前提:我用selenium IDE录制脚本,我用java写的脚本,如果大家想看的清楚明白推荐java/Junit4/Webdriver 我用的是java/TestNG/remote control 1 ...
关于selenium RC的脚本开发
第一.需要录制脚本,找个我也不说了.就是在firefox下下载一个selenium-IDE并且安装. 第二.在工具里找到selenium-IDE点击运行. 第三.默认是红色按钮点击状态的,接下来随便你 ...
基于python的selenium自动化测试环境安装
1. Python2安装官方网站:https://www.python.org/downloads/ (python3或新版本已经默认集成了pip包和path,安装的时候打勾就行,可以直接跳过下面第 ...
Selenium+python 配置
1. 安装python, www.python.org. 下载最新的python,应该是32位的.注意配置环境变量. 2. 安装PIP(pip是一个以Python计算机程序语言写成的软件包管理系统). ...

随机推荐

netease-cloud-music : 依赖: libqt5x11extras5 (>= 5.1.0) 但是它将不会被安装
修复一下依赖关系: sudo apt-get install -f #或者:sudo apt-get -f install 上面两条是修复依赖关系(depends)的命令,就是假如你的系统上有某个pa ...
ArcMap属性表操作接口ITableWindow3
ITableWindow3 tableWindow3 = new TableWindowClass { //Layer = laye ...
Git分布式版本控制系统（上）
Git分布式版本控制系统(上) 链接:https://pan.baidu.com/s/1CgaEv12cwfbs5RxcNpxdAg 提取码:fytm 复制这段内容后打开百度网盘手机App,操作更方便 ...
linux6.5 网卡绑定
Linux网口绑定通过网口绑定(bond)技术,可以很容易实现网口冗余,负载均衡,从而达到高可用高可靠的目的.前提约定: 2个物理网口分别是:eth0,eth1 绑定后的虚拟口是:bond0 服务器 ...
vue组件实例的生命周期
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
SQL 查询子句
SQL WHERE Clause(查询子句) WHERE 子句用于过滤记录. SQL WHERE 子句 WHERE子句用于提取满足指定标准的记录. SQL WHERE 语法 SELECT column ...
【架构】spring framework核心框架体系结构
Spring官方文档,用的版本为4.3.11版本. 一.引用官方文档 2.2.1核心集装箱所述核心容器由以下部分组成spring-core, spring-beans,spring-context, ...
Ubuntu 18.04 安装 python3.7
Ubuntu 18.04系统内置了Python 3.6和Python 2.7版本,以下是在Ubuntu 18.04系统中安装Python 3.7版本的方法. 1. 执行所有升级# sudo apt u ...
Android中怎么破解游戏之修改金币数
我们在玩游戏的时候总是会遇到一些东东需要进行购买的,但是我们可能又舍不得花钱,那么我们该怎么办呢?那就是用游戏外挂吧!我们这里说的是Android中的游戏,在网上搜索一下移动端游戏外挂,可能会找到一款 ...
Linux 软硬链接区别
一.“硬链接“和“软链接“ 链接的概念:链接简单说实际上是一种文件共享的方式,是 POSIX 中的概念,主流文件系统都支持链接文件. 链接的作用:可以将链接简单地理解为 Windows 中常见的快捷方 ...

selenium+plantomJS

selenium+plantomJS的更多相关文章

随机推荐

热门专题