使用Selenium爬取淘宝商品

import pymongo

from selenium import webdriver

from selenium.common.exceptions import TimeoutException

from selenium.webdriver.common.by import By

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait

from pyquery import PyQuery as pq

from urllib.parse import quote

# browser = webdriver.Chrome()

# browser = webdriver.PhantomJS(service_args=SERVICE_ARGS)

chrome_options = webdriver.ChromeOptions()

chrome_options.add_argument('--headless')

browser = webdriver.Chrome(chrome_options=chrome_options)

MONGO_URL = 'localhost'

MONGO_DB = 'taobao'

MONGO_COLLECTION = 'products'

KEYWORD = 'ipad'

MAX_PAGE = 100

SERVICE_ARGS = ['--load-images=false', '--disk-cache=true']

wait = WebDriverWait(browser, 10)

client = pymongo.MongoClient(MONGO_URL)

db = client[MONGO_DB]

def index_page(page):

    """

    抓取索引页

    :param page: 页码

    """

    print('正在爬取第', page, '页')

    try:

        url = 'https://s.taobao.com/search?q=' + quote(KEYWORD)

        browser.get(url)

        if page > 1:

            input = wait.until(

                EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager div.form > input')))

            submit = wait.until(

                EC.element_to_be_clickable((By.CSS_SELECTOR, '#mainsrp-pager div.form > span.btn.J_Submit')))

            input.clear()

            input.send_keys(page)

            submit.click()

        wait.until(

            EC.text_to_be_present_in_element((By.CSS_SELECTOR, '#mainsrp-pager li.item.active > span'), str(page)))

        wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.m-itemlist .items .item')))

        get_products()

    except TimeoutException:

        index_page(page)

def get_products():

    """

    提取商品数据

    """

    html = browser.page_source

    doc = pq(html)

    items = doc('#mainsrp-itemlist .items .item').items()

    for item in items:

        product = {

            'image': item.find('.pic .img').attr('data-src'),

            'price': item.find('.price').text(),

            'deal': item.find('.deal-cnt').text(),

            'title': item.find('.title').text(),

            'shop': item.find('.shop').text(),

            'location': item.find('.location').text()

        }

        print(product)

        save_to_mongo(product)

def save_to_mongo(result):

    """

    保存至MongoDB

    :param result: 结果

    """

    try:

        if db[MONGO_COLLECTION].insert(result):

            print('存储到MongoDB成功')

    except Exception:

        print('存储到MongoDB失败')

def main():

    """

    遍历每一页

    """

    for i in range(1, MAX_PAGE + 1):

        index_page(i)

    browser.close()

if __name__ == '__main__':

    main()

from selenium import webdriver

from selenium.common.exceptions import TimeoutException

from selenium.webdriver.common.by import By

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait

from urllib.parse import quote

from pyquery import PyQuery

from pymongo import MongoClient

browser = webdriver.Chrome()

wait = WebDriverWait(browser, 10)

KEYWORD = 'iPad'

def index_page(page):

    """

    抓取索引页

    :param page: 页码

    """

    print('正在爬取第', page, '页')

    try:

        url = 'https://s.taobao.com/search?q=' + quote(KEYWORD)

        browser.get(url)

        if page > 1:

            input = wait.until(

                EC.presence_of_element_located(

                    (By.CSS_SELECTOR, '#mainsrp-page div.form > input')

                )

            )

            # 利用 CSS 选择器，选择 id=mainsrp-page 的节点的所有元素，再从中选择父节点为 div 的 input 元素

            # 其中 div 的属性 class=form。此时选择的是输入框

            submit = wait.until(

                EC.element_to_be_clickable(

                    (By.CSS_SELECTOR, '#mainsrp-pager div.form > span.btn.J_Submit')

                )

            )

            # 利用CSS选择器，选择 id=mainsrp-pager 的节点的所有元素，再从中选择父节点为 div 的 span 元素

            # 其中 div 的属性 class=form，span 的属性 class=btn J_Submit。此时选择的是"确定"按钮

            input.clear()                   # 清除输入框中的内容

            input.send_keys(page)           # 在输入框中输入页码 page

            submit.click()                  # 点击确定按钮

        wait.until(

            EC.text_to_be_present_in_element(

                (By.CSS_SELECTOR, '#mainsrp-pager li.item.active > span'), str(page)

            )

        )

        # 利用CSS选择器，选择 id=mainsrp-pager 的节点的所有元素，在从中选出 span 节点，

        # 其中span节点的父节点为li节点，li节点的属性class=item active

        wait.until(

            EC.presence_of_element_located(

                (By.CSS_SELECTOR, '.m-itemlist .items .item')

            )

        )

        # 利用 CSS 选择器，选择 class=m-iremlist 的节点，从该节点中选择 class-items 的节点，再从中选择 class=item 的节点的所有元素

        # 这里对应的是这一页中的每个淘宝商品

        get_products()

    except TimeoutException:

        index_page(page)

def get_products():

    """

    提取商品数据

    """

    html = browser.page_source                          # 获取源代码

    doc = PyQuery(html)                                 # 解析html

    items = doc('#mainsrp-itemlist .items .item').items()

    for item in items:

        # 这个 item 中

        product = {

            'image': item.find('.pic .J_ItemPic.img').attr('data-src'),

            # 找到 class=pic 的节点，再从中选择 class=J_ItemPic img 的节点，最后通过 attr() 方法获取 data-src 属性

            'price': item.find('.price.g_price.g_price-highlight').text(),

            # 找到属性 class=price g_price g_price-highlight 的节点，获取其文本（价格）

            'deal': item.find('.deal-cnt').text(),

            # 找到 class=deal-cnt 的节点，获取其文本（付款人数）

            'title': item.find('row.row-2.title').text(),

            # 找到属性值 class=row row-2 title 的节点，获取其文本（商品价格）

            'shop': item.find('.shop').text(),

            # 获取 class=shop 的节点的文本（店铺）

            'location': item.find('.location').text()

            # 获取 class=location 的节点的文本（店铺地址）

        }

        print(product)

        save_to_mongo(product)

MONGO_URL = 'localhost'

MONGO_DB = 'TaoBao'

MONGO_COLLECTION = 'products'

client = MongoClient(MONGO_URL)

db = client[MONGO_DB]

def save_to_mongo(result):

    """

    将爬取结果保存到MongoDB

    :param result: 结果

    :return:

    """

    try:

        if db[MONGO_COLLECTION].insert(result):

            print('存储到 MongoDB 成功')

    except Exception:

        print('存储到 MongoDB 失败')

MAX_PAGE = 100

def main():

    """

    遍历每一页

    :return:

    """

    for i in range(1, MAX_PAGE + 1):

        index_page(i)

    browser.close()

if __name__ == '__main__':

    main()

与上面的一样

使用Selenium爬取淘宝商品的更多相关文章

利用Selenium爬取淘宝商品信息
一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一 ...
python3编写网络爬虫16-使用selenium 爬取淘宝商品信息
一.使用selenium 模拟浏览器操作爬取淘宝商品信息之前我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过A ...
Selenium爬取淘宝商品概要入mongodb
准备: 1.安装Selenium:终端输入 pip install selenium 2.安装下载Chromedriver:解压后放在…\Google\Chrome\Application\:如果是M ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
<day003>登录+爬取淘宝商品信息+字典用json存储
任务1:利用cookie可以免去登录的烦恼(验证码) ''' 只需要有登录后的cookie,就可以绕过验证码登录后的cookie可以通过Selenium用第三方(微博)进行登录,不需要进行淘宝的滑动 ...
Python 爬取淘宝商品数据挖掘分析实战
Python 爬取淘宝商品数据挖掘分析实战项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 爬取淘宝商品 ...
爬取淘宝商品信息，放到html页面展示
爬取淘宝商品信息 import pymysql import requests import re def getHTMLText(url): kv = {'cookie':'thw=cn; hng= ...
利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇，超详细教程
项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析词云可视化 2. ...
python爬虫学习(三)：使用re库爬取"淘宝商品"，并把结果写进txt文件
第二个例子是使用requests库+re库爬取淘宝搜索商品页面的商品信息 (1)分析网页源码打开淘宝,输入关键字“python”,然后搜索,显示如下搜索结果从url连接中可以得到搜索商品的关键字是 ...

随机推荐

Python列表的深度排序
实例1:>>>L = [2,3,1,4]>>>L.sort()>>>L>>>[1,2,3,4] 实例2:>>> ...
一文搞定 SonarQube 接入 C#(.NET) 代码质量分析
1. 前言 C#语言接入Sonar代码静态扫描相较于Java.Python来说,相对麻烦一些.Sonar检测C#代码时需要预先编译,而且C#代码必须用MSbuid进行编译,如果需要使用SonarQub ...
js赋值，字典，数据类型和参数传递的简单熟悉
之所以这样分,原因是布尔类型和整数浮点数在内存里是直接赋值的,而数组实际上数组名指的是这个数组的地址字符串同样是地址,字典也是. //熟悉赋值 var x=0; console.log(x); va ...
.NET斗鱼直播弹幕客户端（上）
现在直播平台由于弹幕的存在,主播与观众可以更轻松地进行互动,非常受年轻群众的欢迎.斗鱼TV就是一款非常流行的直播平台,弹幕更是非常火爆.看到有不少主播接入弹幕语音播报器.弹幕点歌等模块,这都需要首先连 ...
Github配合Jenkins，实现vue等前端项目的自动构建与发布
本篇文章前端项目以vue为例(其实前端工程化项目的操作方法都相同),部署在Linux系统上(centos). 之前做前端项目的部署,一直都是手动运行打包命令,打包完.再使用FTP.Xshell等这类的 ...
【Python3爬虫】我爬取了七万条弹幕，看看RNG和SKT打得怎么样
一.写在前面直播行业已经火热几年了,几个大平台也有了各自独特的“弹幕文化”,不过现在很多平台直播比赛时的弹幕都基本没法看的,主要是因为网络上的喷子还是挺多的,尤其是在观看比赛的时候,很多弹幕不是喷选 ...
算法学习之剑指offer（六）
题目1 题目描述输入n个整数,找出其中最小的K个数.例如输入4,5,1,6,2,7,3,8这8个数字,则最小的4个数字是1,2,3,4,. import java.util.*; public cl ...
p0wnedshell的介绍与使用
0x01 前言 p0wnedShell是一个用c#编写的攻击性PowerShell主机应用程序,它不依赖于PowerShell .exe,而是在PowerShell runspace环境(. net) ...
msf之hash攻击
使用hashdump抓取密码(需要系统管理权限) 另外一个更强大的模块 smart_hashdump 如果目标是win7 就需要先绕过UAC 还可以使用msf内置的mimikatz抓取hash msv ...
Windows 批处理入门
Windows 批处理入门目录本教程概述用到的工具标签简介 1.命令简介 2.符号简介 3.语句结构 4.实例讲解本教程概述本课我们学习windows批处理用到的工具 cmd.ex ...

使用Selenium爬取淘宝商品

使用Selenium爬取淘宝商品的更多相关文章

随机推荐

热门专题