Selenium+Chrome+PhantomJS爬取淘宝美食

搜索关键字

利用selenium驱动浏览器搜索有关键字，得到查询后的商品列表

分析页码并翻页

得到商品码数，模拟翻页，得到后续页面的商品列表

分析提取商品内容

利用PyQuery分析源码，解析得到商品列表

存储至MongoDB

将商品列表信息存储到数据库MongoDB

代码如下：

import re

from selenium import webdriver

from selenium.common.exceptions import TimeoutException

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

from pyquery import PyQuery as pq

from config import *

import pymongo

client = pymongo.MongoClient(MONGO_URL,connect=False)

db = client[MONGO_DB]

browser = webdriver.Chrome()

# browser = webdriver.PhantomJS(r'D:\phantomjs-2.1.1-windows\bin\phantomjs.exe')

# browser.set_window_size(1400,900)

wait = WebDriverWait(browser, 10)

def search():

    print('正在搜索')

    try:

        browser.get('https://www.taobao.com')

        input = wait.until(

            EC.presence_of_element_located((By.CSS_SELECTOR, "#q"))

        )

        submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,"#J_TSearchForm > div.search-button > button")))

        input.send_keys(KEYWORD)

        submit.click()

        total = wait.until(

            EC.presence_of_element_located((By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > div.total"))

        )

        get_products()

        return total.text

    except TimeoutException:

        return search()

def next_page(page_number):

    print('正在翻页',page_number)

    try:

        input = wait.until (

            EC.presence_of_element_located ( (By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > div.form > input") )

        )

        submit = wait.until (

            EC.element_to_be_clickable ( (By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit") ) )

        input.clear()

        input.send_keys(page_number)

        submit.click()

        wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > ul > li.item.active > span'),str(page_number)))

        get_products()

    except TimeoutException:

        next_page(page_number)

def get_products():

    wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#mainsrp-itemlist .items .item')))

    html = browser.page_source

    doc = pq(html)

    items = doc('#mainsrp-itemlist .items .item').items()

    for item in items:

        product = {

            'image':item.find('.pic .img').attr('data-src'),

            'price':re.sub('\\n','',item.find('.g_price').text()),

            'deal':item.find('.deal-cnt').text()[:-3],

            'title':re.sub(r'\n',' ',item.find('.title').text()),

            'shop':item.find('.shop').text(),

            'location':item.find('.location').text()

        }

        print(product)

        save_to_mongo(product)

def save_to_mongo(result):

    try:

        if db[MONGO_TABLE].insert_one(result):

            print('存储到MongoDB成功',result)

    except:

        print('存储到MongoDB失败',result)

def main():

    try:

        total = search()

        total = int(re.compile(r'(\d+)').search(total).group(1))

        for i in range(2,total + 1):

            next_page(i)

    except:

        print('出错啦')

    finally:

        browser.close()

if __name__ == '__main__':

    main()

spider.py

MONGO_URL = 'localhost'

MONGO_DB = 'toubao'

MONGO_TABLE = 'product'

SERVICE_ARGS = ['--load-images=[false]','--disk-cache=[true]']

# SERVICE_ARGS = [

#     '--proxy=113.106.249.42:80',

#     '--proxy-type=socks5',

# ]

KEYWORD = '美食'

config.py

注意

phantomjs已经不再支持selenium模块，所以我这里安装的是旧版本selenium pip install selenium==3.8.0

Selenium+Chrome+PhantomJS爬取淘宝美食的更多相关文章

Python爬虫系列-Selenium+Chrome/PhantomJS爬取淘宝美食
1.搜索关键字利用Selenium驱动浏览器搜索关键字,得到查询后的商品列表 2.分析页码并翻页得到商品页码数,模拟翻页,得到后续页面的商品列表 3.分析提取商品内容利用PyQuery分析源码, ...
Selenium+Chrome+PhantomJS 爬取淘宝
https://github.com/factsbenchmarks/taobao-jingdong 一简单铺垫 Selenium负责驱动浏览器与python对接 PhantomJS负责渲染解析Ja ...
关于爬虫的日常复习（10）—— 实战：使用selenium模拟浏览器爬取淘宝美食
Selenium模拟浏览器抓取淘宝美食信息
前言: 无意中在网上发现了静觅大神(崔老师),又无意中发现自己硬盘里有静觅大神录制的视频,于是乎看了其中一个,可以说是非常牛逼了,让我这个用urllib,requests用了那么久的小白,体会到sel ...
爬虫实战4：用selenium爬取淘宝美食
方案1:一次性爬取全部淘宝美食信息 1. spider.py文件如下 __author__ = 'Administrator' from selenium import webdriver from ...
selenium+pyquery爬取淘宝美食100页（无头静默模式）
import re from selenium import webdriver from selenium.webdriver.common.by import By from selenium.w ...
selenium＋pyquery爬取淘宝商品信息
import re from selenium import webdriver from selenium.common.exceptions import TimeoutException fro ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
16-使用Selenium模拟浏览器抓取淘宝商品美食信息
淘宝由于含有很多请求参数和加密参数,如果直接分析ajax会非常繁琐,selenium自动化测试工具可以驱动浏览器自动完成一些操作,如模拟点击.输入.下拉等,这样我们只需要关心操作而不需要关心后台发生了 ...

随机推荐

[原创]分享本人自己PY写的BOOST编译程序（源码）
本程序WINDOWS专用,只做抛砖引玉,希望诸位按照各自需求自行修改,主要目的是为了让诸位编译时可以省一些组合指令的时间,只需要修改几个参数即可自动编译. 支持64位编译模式. 改进版本:http:/ ...
Android Studio真机测试
本页内容 1.真机测试好处多 2.开始吧!真机测试 1.真机测试好处多不久前才开我的Android Studio之旅,就遇上了一个大麻烦——创建的模拟器各种运行出错.尝试了各种解决方法,都没有什么结 ...
redis windows下安装
1.下载redis windows文件包下载地址 2.解压文件包复制压缩包地址 3.进入cmd 命令行 cd进入redis文件包目录 4.执行 redis-server.exe 使用netsta ...
Linux的进程与服务（一）
启动的配置文件/etc/inittab,修改完配置文件以后 init q立即生效 # Default runlevel. The runlevels used by RHS are: # - halt ...
Bootstrap导航栏
导航栏: <div id="menu-nav" class="navbar navbar-default navbar-inverse navbar-fixed-t ...
[转]构建基于WCF Restful Service的服务
本文转自:http://www.cnblogs.com/scy251147/p/3566638.html 前言传统的Asmx服务,由于遵循SOAP协议,所以返回内容以xml方式组织.并且客户端需要添 ...
Oracle EBS FND User Info API
1. 与用户信息相关API PKG. --和用户处理有关的API FND_USER_PKG; --和用户密码处理有关的API FND_WEB_SEC; --和用户职责处理有关的API ...
webservice需要的包以及demo
包地址:http://pan.baidu.com/s/1qWyPgqo demo:http://pan.baidu.com/s/1dDvNJg9
nginx 配置中的if判断
正则表达式匹配: ==:等值比较; ~:与指定正则表达式模式匹配时返回“真”,判断匹配与否时区分字符大小写: ~*:与指定正则表达式模式匹配时返回“真”,判断匹配与否时不区分字 ...
记一次很坑的python2与python3共存问题
当添加PYTHONPATH环境变量时,无论输入pip2 -V还是pip3 -V都显示的是python2的环境变量,使用pip3 install 时也是安装在了python2的三方库(因为python2 ...

Selenium+Chrome+PhantomJS爬取淘宝美食

搜索关键字

分析页码并翻页

分析提取商品内容

存储至MongoDB

Selenium+Chrome+PhantomJS爬取淘宝美食的更多相关文章

随机推荐

热门专题