python3编写网络爬虫16-使用selenium 爬取淘宝商品信息

一、使用selenium 模拟浏览器操作爬取淘宝商品信息

之前我们已经成功尝试分析Ajax来抓取相关数据，但是并不是所有页面都可以通过分析Ajax来完成抓取。
比如，淘宝，它的整个页面数据确实也是通过Ajax获取的，但是这些Ajax接口参数比较复杂，可能会包含加密密钥等，
所以如果想自己构造Ajax参数，还是比较困难的。
对于这种页面，最方便快捷的抓取方法就是通过Selenium

目标：利用Selenium抓取淘宝商品并用pyquery解析得到商品的图片、名称、价格、购买人数、店铺名称和店铺所在地信息

完整代码

#-*-coding:utf-8-*-

#抓取淘宝商品信息

from selenium import webdriver

from selenium.common.exceptions import TimeoutException

from selenium.webdriver.common.by import By

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait

from urllib.parse import quote

from pyquery import PyQuery as pq

import pymongo

import time

browser = webdriver.Chrome()

wait = WebDriverWait(browser,15)

KEYWORD = 'iPad'

#抓取索引页

def index_page(page):

　　print('正在爬取第',page,'页')

　　try:

　　　　url = 'https://s.taobao.com/search?q='+ quote(KEYWORD)

　　　　browser.get(url)

　　　　if page > 1:

　　　　　　input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#mainsrp-pager div.form > input')))

　　　　　　submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,'#mainsrp-pager div.form > span.btn.J_Submit')))

　　　　　　input.clear()

　　　　　　input.send_keys(page)

　　　　　　submit.click()

　　　　wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR,'#mainsrp-pager li.item.active > span'),str(page)))

　　　　wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'.m-itemlist .items .item')))

　　　　get_products()

　　except TimeoutException:

　　　　index_page(page)

#解析商品列表

def get_products():

　　html = browser.page_source

　　doc = pq(html)

　　items = doc('#mainsrp-itemlist .items .item').items()

　　for item in items:

　　　　product = {

　　　　　　'image' : item.find('.pic .img').attr('data-src'),

　　　　　　'price' : item.find('.price').text(),

　　　　　　'deal' : item.find('.dral-cnt').text(),

　　　　　　'title' : item.find('.title').text(),

　　　　　　'shop' : item.find('.shop').text(),

　　　　　　'location' : item.find('.localtion').text()

　　　　}

　　　　print(product)

　　　　save_to_mongo(product)

#保存到MongoDB

MONGO_URL = 'localhost'

MONGO_DB = 'taobao'

MONGO_COLLECTION = 'products'

client = pymongo.MongoClient(host=MONGO_URL,port=27017)

db = client[MONGO_DB]

def save_to_mongo(result):

　　try:

　　　　if db[MONGO_COLLECTION.insert(result)]:

　　　　print('存储成功')

　　except Exception:

　　　　print('存储失败')

#main函数

MAX_PAGE = 5

def main():

　　url = 'https://s.taobao.com/search?q=' + quote(KEYWORD)

　　browser.get(url)

　　wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#J_QRCodeImg')))

　　time.sleep(10)

　　for i in range(1,MAX_PAGE+1):

　　　　index_page(i)

main()

python3编写网络爬虫16-使用selenium 爬取淘宝商品信息的更多相关文章

利用Selenium爬取淘宝商品信息
一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一 ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
<day003>登录+爬取淘宝商品信息+字典用json存储
任务1:利用cookie可以免去登录的烦恼(验证码) ''' 只需要有登录后的cookie,就可以绕过验证码登录后的cookie可以通过Selenium用第三方(微博)进行登录,不需要进行淘宝的滑动 ...
爬取淘宝商品信息，放到html页面展示
爬取淘宝商品信息 import pymysql import requests import re def getHTMLText(url): kv = {'cookie':'thw=cn; hng= ...
使用Selenium爬取淘宝商品
import pymongo from selenium import webdriver from selenium.common.exceptions import TimeoutExceptio ...
Python网络爬虫（6）--爬取淘宝模特图片
经过前面的一些基础学习,我们大致知道了如何爬取并解析一个网页中的信息,这里我们来做一个更有意思的事情,爬取MM图片并保存.网址为https://mm.taobao.com/json/request_t ...
Selenium爬取淘宝商品概要入mongodb
准备: 1.安装Selenium:终端输入 pip install selenium 2.安装下载Chromedriver:解压后放在…\Google\Chrome\Application\:如果是M ...
selenium＋pyquery爬取淘宝商品信息
import re from selenium import webdriver from selenium.common.exceptions import TimeoutException fro ...
使用Pyquery+selenium抓取淘宝商品信息
配置文件,配置好数据库名称,表名称,要搜索的产品类目,要爬取的页数 MONGO_URL = 'localhost' MONGO_DB = 'taobao' MONGO_TABLE = 'phone' ...

随机推荐

Apollo 9 — adminService 主/灰度版本发布
目录 Controller 层 Service 层 publish 方法发送 ReleaseMessage 消息总结 1. Controller 层主版本发布即点击主版本发布按钮: 具体接口位置 ...
Javascript Cookie小插件
var ManagerCookie = function(){ //添加cookie function addCookie(key,value,time,path){ key = encodeURI( ...
EF(EntityFramework) 插入或更新数据报错
报错信息:Store update, insert, or delete statement affected an unexpected number of rows (0). Entities m ...
Linux-bc命令(21)
bc 命令是任意精度计算器语言,通常在linux下当计算器用. 它类似基本的计算器, 使用这个计算器可以做基本的数学运算. bc支持运算有以下几种: + - * / % :加,减,乘,除,取余 a^b ...
python名片管理
python名片管理是我根据视频自己敲敲的代码,后续学习会持续更新代码 card_main.py import card_tools # 无限循环,由用户决定什么时候退出 while True: # ...
BZOJ1007: [HNOI2008]水平可见直线(单调栈)
Time Limit: 1 Sec Memory Limit: 162 MBSubmit: 8638 Solved: 3327[Submit][Status][Discuss] Descripti ...
洛谷P4726 【模板】多项式指数函数(多项式exp)
题意题目链接 Sol 多项式exp,直接套泰勒展开的公式 \(F(x) = e^{A(x)}\) 求个导\(F'(x) = A(x)\) 我们要求的就是\(G(f(x)) = lnF(x) - A( ...
洛谷P4704 太极剑(乱搞)
题意题目链接 Sol 不会正解写了发暴力过了,貌似跑的还挺快?.. // luogu-judger-enable-o2 // luogu-judger-enable-o2 #include< ...
Mysql 用户和权限
创建用户 CREATE USER '用户名'@'localhost' IDENTIFIED BY '密码'; 删除用户 DROP USER '用户名'@'localhost'; 权限列表 ALL 或 ...
微软语音引擎 TTS 最基本使用
TTS(TextToSpeak) 需求:需要借助程序实现文字合成语音/语音识别. TTS 介绍就不说了,这里介绍非常详细 >>> TTS详细介绍 + SAPI(微软的TTS语音 ...

python3编写网络爬虫16-使用selenium 爬取淘宝商品信息

python3编写网络爬虫16-使用selenium 爬取淘宝商品信息的更多相关文章

随机推荐

热门专题