Selenium+Chrome+PhantomJS爬取淘宝美食

搜索关键字

利用selenium驱动浏览器搜索有关键字，得到查询后的商品列表

分析页码并翻页

得到商品码数，模拟翻页，得到后续页面的商品列表

分析提取商品内容

利用PyQuery分析源码，解析得到商品列表

存储至MongoDB

将商品列表信息存储到数据库MongoDB

代码如下：

import re

from selenium import webdriver

from selenium.common.exceptions import TimeoutException

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

from pyquery import PyQuery as pq

from config import *

import pymongo

client = pymongo.MongoClient(MONGO_URL,connect=False)

db = client[MONGO_DB]

browser = webdriver.Chrome()

# browser = webdriver.PhantomJS(r'D:\phantomjs-2.1.1-windows\bin\phantomjs.exe')

# browser.set_window_size(1400,900)

wait = WebDriverWait(browser, 10)

def search():

    print('正在搜索')

    try:

        browser.get('https://www.taobao.com')

        input = wait.until(

            EC.presence_of_element_located((By.CSS_SELECTOR, "#q"))

        )

        submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,"#J_TSearchForm > div.search-button > button")))

        input.send_keys(KEYWORD)

        submit.click()

        total = wait.until(

            EC.presence_of_element_located((By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > div.total"))

        )

        get_products()

        return total.text

    except TimeoutException:

        return search()

def next_page(page_number):

    print('正在翻页',page_number)

    try:

        input = wait.until (

            EC.presence_of_element_located ( (By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > div.form > input") )

        )

        submit = wait.until (

            EC.element_to_be_clickable ( (By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit") ) )

        input.clear()

        input.send_keys(page_number)

        submit.click()

        wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > ul > li.item.active > span'),str(page_number)))

        get_products()

    except TimeoutException:

        next_page(page_number)

def get_products():

    wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#mainsrp-itemlist .items .item')))

    html = browser.page_source

    doc = pq(html)

    items = doc('#mainsrp-itemlist .items .item').items()

    for item in items:

        product = {

            'image':item.find('.pic .img').attr('data-src'),

            'price':re.sub('\\n','',item.find('.g_price').text()),

            'deal':item.find('.deal-cnt').text()[:-3],

            'title':re.sub(r'\n',' ',item.find('.title').text()),

            'shop':item.find('.shop').text(),

            'location':item.find('.location').text()

        }

        print(product)

        save_to_mongo(product)

def save_to_mongo(result):

    try:

        if db[MONGO_TABLE].insert_one(result):

            print('存储到MongoDB成功',result)

    except:

        print('存储到MongoDB失败',result)

def main():

    try:

        total = search()

        total = int(re.compile(r'(\d+)').search(total).group(1))

        for i in range(2,total + 1):

            next_page(i)

    except:

        print('出错啦')

    finally:

        browser.close()

if __name__ == '__main__':

    main()

spider.py

MONGO_URL = 'localhost'

MONGO_DB = 'toubao'

MONGO_TABLE = 'product'

SERVICE_ARGS = ['--load-images=[false]','--disk-cache=[true]']

# SERVICE_ARGS = [

#     '--proxy=113.106.249.42:80',

#     '--proxy-type=socks5',

# ]

KEYWORD = '美食'

config.py

注意

phantomjs已经不再支持selenium模块，所以我这里安装的是旧版本selenium pip install selenium==3.8.0

Selenium+Chrome+PhantomJS爬取淘宝美食的更多相关文章

Python爬虫系列-Selenium+Chrome/PhantomJS爬取淘宝美食
1.搜索关键字利用Selenium驱动浏览器搜索关键字,得到查询后的商品列表 2.分析页码并翻页得到商品页码数,模拟翻页,得到后续页面的商品列表 3.分析提取商品内容利用PyQuery分析源码, ...
Selenium+Chrome+PhantomJS 爬取淘宝
https://github.com/factsbenchmarks/taobao-jingdong 一简单铺垫 Selenium负责驱动浏览器与python对接 PhantomJS负责渲染解析Ja ...
关于爬虫的日常复习（10）—— 实战：使用selenium模拟浏览器爬取淘宝美食
Selenium模拟浏览器抓取淘宝美食信息
前言: 无意中在网上发现了静觅大神(崔老师),又无意中发现自己硬盘里有静觅大神录制的视频,于是乎看了其中一个,可以说是非常牛逼了,让我这个用urllib,requests用了那么久的小白,体会到sel ...
爬虫实战4：用selenium爬取淘宝美食
方案1:一次性爬取全部淘宝美食信息 1. spider.py文件如下 __author__ = 'Administrator' from selenium import webdriver from ...
selenium+pyquery爬取淘宝美食100页（无头静默模式）
import re from selenium import webdriver from selenium.webdriver.common.by import By from selenium.w ...
selenium＋pyquery爬取淘宝商品信息
import re from selenium import webdriver from selenium.common.exceptions import TimeoutException fro ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
16-使用Selenium模拟浏览器抓取淘宝商品美食信息
淘宝由于含有很多请求参数和加密参数,如果直接分析ajax会非常繁琐,selenium自动化测试工具可以驱动浏览器自动完成一些操作,如模拟点击.输入.下拉等,这样我们只需要关心操作而不需要关心后台发生了 ...

随机推荐

docker跨主机互联
以下内容只是命令,原理自行百度,google或者官方查阅! 方案一.overlay Consul 三台主机为例(都要安装docker): 192.168.20.20(consul服务) 192.168 ...
Jmeter Cookie管理器获取JSESSIONID
1.打开jmeter.抓包添加Web请求后,添加Cookie管理器.直接添加就行.值要不要都一样添加值:${COOKIE_JSESSIONID 域:${server} 2.点击载入到当前脚本 3.到 ...
javascript 深度克隆
关键词 :递归主要分为数组 .对象.以及基本类型 function clone(Obj) { var buf; if (Obj instanceof Arr ...
[c# 20问] 2.如何转换XML文件
添加System.Xml引用使用XmlReader转换字符串 DEMO #region Parse Xml private static void ParseXml(string xmlString ...
struct timeval 计时问题
linux编程中,如果用到计时,可以用struct timeval获取系统时间.struct timeval的函数原型如下: struct timeval { __kernel_time_t tv_s ...
unity 分数的显示
通常在完成条件之后再增加分数所以一开始先增加 public int 得到分数; public Text 分数ui; 在完成条件后增加得到分数++; 分数ui.text = 得到分数.ToSt ...
css细节复习笔记——结构与层叠
每个合法的文档都会生成一个结构树,有了结构树元素的祖先.属性兄弟元素等等创建选择器来选择元素,这是CSS继承的核心.继承是从一个元素向后代元素传递属性值所采用的机制.面向一个元素使用哪些值时,用户代理 ...
Syncthing源码解析 - 在Gogland中对Syncthing的各个模块进行调试？
Syncthing的模块很多,各自负责不同的功能,如何能够对各个模块进行调试?Syncthing开发者早就想到这个问题了,允许开发者对任意模块进行单独调试,也允许同时对所有模块调试,调试方式是打印各个 ...
Git 教程 -- 基于自己学习记录
Git 教程 -- 基于自己学习记录 1. 引言由于学校布置了一项熟悉 git 和 svn 操作的实验,所以自己重新温习了下 git,记录过程在这. 2. 注册登录 GitHub. 3. 选择一个仓 ...
javascript获取网址参数
通过以上图片,就可以很好的理解: location.href location.protocol location.host location.hostname location.port locat ...

Selenium+Chrome+PhantomJS爬取淘宝美食

搜索关键字

分析页码并翻页

分析提取商品内容

存储至MongoDB

Selenium+Chrome+PhantomJS爬取淘宝美食的更多相关文章

随机推荐

热门专题