Selenium模拟浏览器抓取淘宝美食信息

前言：

无意中在网上发现了静觅大神（崔老师），又无意中发现自己硬盘里有静觅大神录制的视频，于是乎看了其中一个，可以说是非常牛逼了，让我这个用urllib，requests用了那么久的小白，体会到selenium的神奇之处，关键是虽然对小白来说信息量很大，但是讲得特别清楚，不亚于培训班哈哈哈哈。接下来言归正传。

使用Selenium模拟浏览器抓取淘宝美食信息并保存到MongoDB数据库，流程如下：

1、利用Selenium驱动浏览器搜索关键字，得到查询后的商品列表。

2、得到商品页码数，模拟翻页，得到后续页面的商品列表。

3、利用PyQuery分析源码，解析得到商品列表。

4、将商品列表信息存储到数据库MongoDB。

环境：

win64位系统，python3.6,IDE为pycharm，已经安装MongoDB数据库，Selenium，chrome63版本以及chromedriver2.34版本。

预备知识：

首先就是selenium。。（本人还不会啊，要赶紧学了！），然后要会用CSS选择器，pyquery库（抓网页信息很好用），re正则表达式（必须会），以及MongoDB数据库等等。

代码：

这里需要pycharm在目录下新建一个项目，然后建两个py文件，一个是spider爬虫，另一个是config用来放MongoDB的一些信息，先是spider

from selenium import webdriver

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.common.by import By

from selenium.common.exceptions import TimeoutException

import regex as re

from pyquery import PyQuery as pq

from config import *

import pymongo

client = pymongo.MongoClient(MONGO_URL)

db = client[MONGO_DB]

browser = webdriver.Chrome()

#browser = webdriver.Chrome(service_args=['--ignore-ssl-errors=true', '--ssl-protocol=TLSv1'])

wait = WebDriverWait(browser,10)

def search():

    try:

        browser.get('https://www.taobao.com')

        input = wait.until(

            EC.presence_of_element_located((By.CSS_SELECTOR,'#q'))

        )

        submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,'#J_TSearchForm > div.search-button > button')))

        input.send_keys('美食')

        submit.click()

        total = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > div.total')))

        get_products()

        return total.text

    except TimeoutException:

        return search()

def next_page(page_number):

    try:

        input = wait.until(

            EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > input'))

        )

        submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit')))

        input.clear()

        input.send_keys(page_number)

        submit.click()

        wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > ul > li.item.active > span'),str(page_number)))

        get_products()

    except TimeoutException:

        next_page(page_number)

def get_products():

    wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#mainsrp-itemlist .items .item')))

    html = browser.page_source

    doc = pq(html)

    items = doc('#mainsrp-itemlist .items .item').items()

    for item in items:

        product = {

            'image': item.find('.pic .img').attr('src'),

            'price':item.find('.price').text(),

            'deal':item.find('.deal-cnt').text()[:-3],

            'title':item.find('.title').text(),

            'shop':item.find('.shop').text(),

            'location':item.find('.location').text()

        }

        print(product)

        save_to_mongo(product)

def save_to_mongo(result):

    try:

        if db[MONGO_TABLE].insert(result):

            print('存储成功',result)

    except Exception:

        print('存储失败',result)

def main():

    total = search()

    total = int(re.findall('(\d+)',total)[0])

    #print(total)

    for i in range(2,total+1):

        next_page(i)

if __name__ == '__main__':

    main()

然后是config

MONGO_URL = 'localhost'

MONGO_DB = 'taobao'

MONGO_TABLE = 'product'

先放着，等入门selenium之后再来注释，另外还可以用PhantomJS来代替Chrome，之后也会学习并且修改代码

Selenium模拟浏览器抓取淘宝美食信息的更多相关文章

使用selenium模拟浏览器抓取淘宝信息
通过Selenium模拟浏览器抓取淘宝商品美食信息,并存储到MongoDB数据库中. from selenium import webdriver from selenium.common.excep ...
3.使用Selenium模拟浏览器抓取淘宝商品美食信息
# 使用selenium+phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏览器翻页,并 ...
Python爬虫学习==>第十二章：使用 Selenium 模拟浏览器抓取淘宝商品美食信息
学习目的: selenium目前版本已经到了3代目,你想加薪,就跟面试官扯这个,你赢了,工资就到位了,加上一个脚本的应用,结局你懂的正式步骤需求背景:抓取淘宝美食 Step1:流程分析搜索关键字 ...
16-使用Selenium模拟浏览器抓取淘宝商品美食信息
淘宝由于含有很多请求参数和加密参数,如果直接分析ajax会非常繁琐,selenium自动化测试工具可以驱动浏览器自动完成一些操作,如模拟点击.输入.下拉等,这样我们只需要关心操作而不需要关心后台发生了 ...
使用Selenium模拟浏览器抓取淘宝商品美食信息
代码: import re from selenium import webdriver from selenium.webdriver.common.by import By from seleni ...
爬虫实战--使用Selenium模拟浏览器抓取淘宝商品美食信息
from selenium import webdriver from selenium.webdriver.common.by import By from selenium.common.exce ...
关于爬虫的日常复习（10）—— 实战：使用selenium模拟浏览器爬取淘宝美食
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
使用Selenium模拟浏览器抓取斗鱼直播间信息
获取斗鱼直播间每个房间的名称.观看人数.tag.主播名字代码: import time from multiprocessing import Pool from selenium import w ...

随机推荐

Kubernetes 编排系统
1.1 Kubernetes简介 1.1.1 什么是Kubernetes Kubernetes (通常称为K8s,K8s是将8个字母“ubernete”替换为“8”的缩写) 是用于自动部署.扩展和管理 ...
MySQL SELECT 执行的具体步骤
1:SELECT 执行的顺序 8SELECT 9DISTINCT <select_list> 1FROM <left_table> 3JOIN <right_table& ...
C#后台执行js
StringBuilder sb = new StringBuilder(); sb.Append("<script type='text/javascript'>") ...
redhat7.0配置网卡
1.切换到网卡配置目录: cd /etc/sysconfig/network-scripts 2.编辑网卡信息如 vim ifcfg-enpos3 TYPE=Ethernet #设备类型 BOOTP ...
【Android】详解Android Service
目录结构: contents structure [+] Service简单概述 Service在清单文件中的声明 Service启动服务 Service绑定服务扩展Binder类使用Messen ...
译:1. RabbitMQ Java Client 之 "Hello World"
这些教程介绍了使用RabbitMQ创建消息传递应用程序的基础知识.您需要安装RabbitMQ服务器才能完成教程 1. 打造第一个Hello World 程序 RabbitMQ是一个消息代理:它接受和转 ...
linux每日命令(21)：find命令之exec
find是我们很常用的一个Linux命令,但是我们一般查找出来的并不仅仅是看看而已,还会有进一步的操作,这个时候exec的作用就显现出来了. 一. exec参数说明: -exec 参数后面跟的是com ...
[转]Ubuntu 16.04安装有道词典
原文:https://www.cnblogs.com/scplee/archive/2016/05/13/5489024.html 以前用Ubuntu 14.04 的时候,直接下载有道词典官方deb安 ...
iOS开发支付宝支付
iOS支付宝支付(Alipay)详细接入流程以及项目中遇到的问题分析浏览: 149 发布日期: 2016-10-19 分类: ios 最近在项目中接入了微信支付和支付宝支付,总的来说没有那么 ...
【WPF】点击滑动条（Slider），移动滑块（Tick）到鼠标点击的位置
问题:点击Slider控件时,滑块会自动跳到滑动条的最边缘位置,无法跳到鼠标点击的位置上. 办法:给Slider控件设置属性IsMoveToPointEnabled="True"即 ...

Selenium模拟浏览器抓取淘宝美食信息

前言：

环境：

预备知识：

代码：

Selenium模拟浏览器抓取淘宝美食信息的更多相关文章

随机推荐

热门专题