使用Selenium模拟浏览器抓取淘宝商品美食信息

代码:

import re

from selenium import webdriver

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

from selenium.common.exceptions import TimeoutException

from pyquery import PyQuery as pq

from bs4 import BeautifulSoup

from pymongo import MongoClient

from pymongo.errors import PyMongoError

url = 'http://www.taobao.com'

KEYWORD = '美食'

# monogdb配置信息

MONGO_HOST = "localhost"

MONGO_DATABASE = "taobao"

MONGO_TABLE = "meishi"

client = MongoClient(host=MONGO_HOST)

db = client[MONGO_DATABASE]

# PhantomJS 命令行相关配置

# 参见 http://phantomjs.org/api/command-line.html

SERVICE_ARGS = ['--disk-cache=true', '--load-images=false']

# driver = webdriver.Chrome()  # 有界面

driver = webdriver.PhantomJS(service_args=SERVICE_ARGS)  # 无界面

delay = 10

wait = WebDriverWait(driver, delay)

# print('windows size', driver.get_window_size())

# PhantomJs()的浏览器窗口很小,宽高只有400 * 300

driver.maximize_window()  # 窗口最大化  # 对于PhantomJS来说设置窗口大小很关键，如果不设置，经常会出现问题

# driver.set_window_size(1920, 1080) # 设置浏览器窗口大小

# 模拟在淘宝网页中输入关键字搜索

def search():

    print("准备搜索 %s" % KEYWORD)

    try:

        driver.get(url)

        input_box = wait.until(

            EC.presence_of_element_located((By.CSS_SELECTOR, "input#q"))

        )

        search_btn = wait.until(EC.element_to_be_clickable(

            (By.CSS_SELECTOR, '#J_TSearchForm > div.search-button > button')))

        input_box.send_keys(KEYWORD)

        search_btn.click()

        total_page_str = wait.until(

            EC.presence_of_element_located(

                (By.CSS_SELECTOR, 'div.total'))).text

        total_page_num = int(re.search("(\d+)", total_page_str).group(1))

        item_list = get_goods_by_beautifulsoup()

        save_to_mongodb(item_list)

        return total_page_num

    except TimeoutError:

        print("搜索%s超时", KEYWORD)

        print("重新尝试搜索: %s", KEYWORD)

        search()

# 根据页码获取指定页数据，并将其保存到数据库中

def get_page(page_num):

    print("正在获取第%d页数据" % page_num)

    try:

        page_num_box = wait.until(

            EC.presence_of_element_located(

                (By.CSS_SELECTOR, "div.form > input")))

        ok_btn = wait.until(EC.element_to_be_clickable(

            (By.CSS_SELECTOR, 'div.form > span.btn.J_Submit')))

        page_num_box.clear()

        page_num_box.send_keys(page_num)

        ok_btn.click()

        wait.until(

            EC.text_to_be_present_in_element(

                (By.CSS_SELECTOR,

                 'li.item.active > span.num'),

                str(page_num)))

        item_list = get_goods_by_beautifulsoup()

        save_to_mongodb(item_list)

    except TimeoutException:

        print("请求第%d页失败" % page_num)

        print("尝试重新获取第%d页" % page_num)

        return get_page(page_num)

def get_goods_by_pyquery():

    '''

    通过pyquery库解析数据

    获取商品的图片url、价格、标题、成交量、店铺名称、店铺位置

    '''

    wait.until(EC.presence_of_element_located(

        (By.CSS_SELECTOR, "#mainsrp-itemlist  .items .item")))

    html = driver.page_source

    doc = pq(html)

    items = list(doc('#mainsrp-itemlist  .items .item').items())

    for item in items:

        yield {

            # 不要用src属性,获取的图片地址很多是.gif图片，而非真实商品图片,

            'image': 'http://' + item.find('.J_ItemPic.img').attr('data-src'),

            'price': item.find('.price').text(),

            'title': item.find('.row > .J_ClickStat').text().strip(),

            'deal_cnt': item.find('.deal-cnt').text()[:-3],

            'shop': item.find('.shop').text(),

            'location': item.find('.location').text(),

        }

# 通过bs4解析数据

def get_goods_by_beautifulsoup():

    '''

    通过bs4库解析数据

    获取商品的图片url、价格、标题、成交量、店铺名称、店铺位置

    '''

    wait.until(EC.presence_of_element_located(

        (By.CSS_SELECTOR, "#mainsrp-itemlist  .items .item")))

    html = driver.page_source

    soup = BeautifulSoup(html, 'lxml')

    items = soup.select('#mainsrp-itemlist  .items .item')

    for item in items:

        yield {

            'image': 'http:' + item.select('img.J_ItemPic.img')[0]['data-src'],

            'price': item.select('div.price.g_price.g_price-highlight')[0].get_text(strip=True),

            'title': item.select('div.row.row-2.title > a.J_ClickStat')[0].get_text(strip=True),

            'deal_cnt': item.select('div.deal-cnt')[0].text[:-3],

            'shop': item.select('div.shop > a')[0].get_text(strip=True),

            'location': item.select('div.location')[0].text,

        }

def save_to_mongodb(item_list):

    for item in item_list:

        try:

            db[MONGO_TABLE].insert(item)   # insert支持插入多条数据

            print("mongodb插入数据成功:", item)

        except PyMongoError as e:

            print("mongodb插入数据失败:", item, e)

# 获取淘宝美食的图片url、价格、标题、成交量、店铺名称、店铺位置并将结果保存在mongodb数据库中

if __name__ == '__main__':

    try:

        total_pages = search()

        for page_num in range(2, total_pages + 1):

            get_page(page_num)

    except Exception as e:

        print("出错了", e)

    finally:  # 确保 浏览器能正常关闭

        driver.close()

备注:

PhantomJS无界面浏览器打开的窗口默认大小400*300, 往往不能将网页加载完全，会给提取数据造成很大的困难，因此需要指定窗口大小。

可以使用 maximize_window() 最大化窗口或者set_window_size()设置指定大小

可能会出现的异常:

raise TimeoutException(message, screen, stacktrace)

selenium.common.exceptions.TimeoutException: Message:

Screenshot: available via screen

使用Selenium模拟浏览器抓取淘宝商品美食信息的更多相关文章

3.使用Selenium模拟浏览器抓取淘宝商品美食信息
# 使用selenium+phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏览器翻页,并 ...
Python爬虫学习==>第十二章：使用 Selenium 模拟浏览器抓取淘宝商品美食信息
学习目的: selenium目前版本已经到了3代目,你想加薪,就跟面试官扯这个,你赢了,工资就到位了,加上一个脚本的应用,结局你懂的正式步骤需求背景:抓取淘宝美食 Step1:流程分析搜索关键字 ...
16-使用Selenium模拟浏览器抓取淘宝商品美食信息
淘宝由于含有很多请求参数和加密参数,如果直接分析ajax会非常繁琐,selenium自动化测试工具可以驱动浏览器自动完成一些操作,如模拟点击.输入.下拉等,这样我们只需要关心操作而不需要关心后台发生了 ...
爬虫实战--使用Selenium模拟浏览器抓取淘宝商品美食信息
from selenium import webdriver from selenium.webdriver.common.by import By from selenium.common.exce ...
使用selenium模拟浏览器抓取淘宝信息
通过Selenium模拟浏览器抓取淘宝商品美食信息,并存储到MongoDB数据库中. from selenium import webdriver from selenium.common.excep ...
Selenium模拟浏览器抓取淘宝美食信息
前言: 无意中在网上发现了静觅大神(崔老师),又无意中发现自己硬盘里有静觅大神录制的视频,于是乎看了其中一个,可以说是非常牛逼了,让我这个用urllib,requests用了那么久的小白,体会到sel ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
关于爬虫的日常复习（10）—— 实战：使用selenium模拟浏览器爬取淘宝美食
Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...

随机推荐

rest-framework之版本控制
rest-framework之版本控制本文目录一作用二内置的版本控制类三局部使用四全局使用五示例源码分析回到目录一作用用于版本的控制回到目录二内置的版本控制类 f ...
（0）前端总结（HTML + CSS + JQ）
HTML 1.<meta charset="UTF-8"> #设置页面编码,这个设置英文则现在国内浏览器会弹出是否要转换中文 2.<title>我的第一个 ...
Java中动态获取项目根目录的绝对路径
https://www.cnblogs.com/zhouqing/archive/2012/11/10/2757774.html 序言在开发过程中经常会用到读写文件,其中就必然涉及路径问题.使用固定 ...
【JVM】jvm虚拟机参数解析
转载:https://blog.csdn.net/see__you__again/article/details/51998038不管是YGC还是Full GC,GC过程中都会对导致程序运行中中断,正 ...
【maven】maven查看项目依赖并解决依赖冲突的问题
一.问题项目开发过程中,经常会遇到jar冲突,然后maven根据自己的规则进行冲突解决,导致项目在运行的过程中报错. 1.maven自动解决依赖冲突的规则是什么? 2.如何查看当前项目的maven的 ...
IntelliJ IDEA 快捷键说明大全（中英对照、带图示详解）
因为觉得网络上的 idea 快捷键不够详尽,所以特别编写了此篇文章,方便大家使用 idea O(∩_∩)O~ 其中的英文说明来自于 idea 的官网资料,中文说明主要来自于自己的领会和理解,英文说明只 ...
python 基础的用法新发现
引用的发现: # 引用的处理因为变量指的是某一内存地址引用变量实际是引用一个固定的内存地址,# 当这个变量中的内容变了之后,他的内存地址不变, 所以引用者也动态的得到了变化的变量l1=[1,2,3 ...
openresty 使用lua-resty-shell 执行shell 脚本
lua-resty-shell 是一个很不错的项目,让我们可以无阻塞的执行shell命令,之间的通信是通过socket (一般是unix socket) 环境准备 docker-compose 文件 ...
lch 儿童围棋课堂初级篇1 ( (李昌镐著))
第1章常用术语第2章吃子第3章死活:死活题初步第4章劫争第5章中盘第6章官子第7章形势判断第8章对杀技巧第9章手筋第1章常用术语一镇在对方棋子上方隔一路落下 ...
深入详解美团点评CAT跨语言服务监控（三）CAT客户端原理
cat客户端部分核心类 message目录下面有消息相关的部分接口 internal目录包含主要的CAT客户端内部实现类: io目录包含建立服务端连接.重连.消息队列监听.上报等io实现类: spi目 ...

使用Selenium模拟浏览器抓取淘宝商品美食信息

使用Selenium模拟浏览器抓取淘宝商品美食信息的更多相关文章

随机推荐

热门专题