python selenum 爬取淘宝

# -*- coding:utf-8 -*-

# author : yesehngbao

# time:2018/3/29

import re

import pymongo

from lxml import etree

from selenium import webdriver

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.common.by import By

# from selenium.webdriver.common.utils import Keys

MONGO_HOST = 'localhost'

MONGO_PORT = 27017

MONGO_DB = 'test'

MONGO_COLL = 'selenum_tao'

webdir = webdriver.Chrome()

def get_page_num():

    webdir.get('http://www.taobao.com')

    input = WebDriverWait(webdir, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR, '#q')))

    button = WebDriverWait(webdir, 10).until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.btn-search')))

    input.clear()

    input.send_keys('衬衫')

    button.click()

    page_num = WebDriverWait(webdir, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.total'))).text

    page_num = re.findall('\d+', page_num)[0]

    return page_num

def gain_page(page):

    try:

        WebDriverWait(webdir, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR, '.items .item .pic a img')))

        input = WebDriverWait(webdir, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR, '.J_Input')))

        button = WebDriverWait(webdir, 10).until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.J_Submit')))

        input.clear()

        input.send_keys(page)

        button.click()

        WebDriverWait(webdir, 10).until(EC.text_to_be_present_in_element((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > ul > li.item.active > span'), str(page)))

    except Exception:

        gain_page(page)

def get_page_html(page):

    if page:

        html = webdir.page_source

        return html

def analysis_page(html):

    doc = etree.HTML(html)

    div_list = doc.xpath('.//div[@class="items"]//div[contains(@class,"item")]')

    for div in div_list:

        img = div.xpath('.//div[@class="pic"]/a/img/@data-src')[0]

        money = div.xpath('.//div[contains(@class, "price")]/strong/text()')[0]

        yield {

            'img': img,

            'money': money,

        }

def save_mongo(content):

    mongo_client = pymongo.MongoClient(host=MONGO_HOST, port=MONGO_PORT)

    db = mongo_client[MONGO_DB]

    coll = db[MONGO_COLL]

    coll.insert(content)

def main():

    page_num = get_page_num()

    for page in range(1, int(page_num)+1):

        gain_page(page)

        html = get_page_html(page)

        content = analysis_page(html)

        save_mongo(content)

if __name__ == '__main__':

    main()

python selenum 爬取淘宝的更多相关文章

利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇，超详细教程
项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析词云可视化 2. ...
Python 002- 爬虫爬取淘宝上耳机的信息
参照:https://mp.weixin.qq.com/s/gwzym3Za-qQAiEnVP2eYjQ 一般看源码就可以解决问题啦 #-*- coding:utf-8 -*- import re i ...
python selenium 爬取淘宝
# -*- coding:utf-8 -*- # author : yesehngbao # time:2018/3/29 import re import pymongo from lxml imp ...
python爬虫学习(三)：使用re库爬取"淘宝商品"，并把结果写进txt文件
第二个例子是使用requests库+re库爬取淘宝搜索商品页面的商品信息 (1)分析网页源码打开淘宝,输入关键字“python”,然后搜索,显示如下搜索结果从url连接中可以得到搜索商品的关键字是 ...
Python 爬取淘宝商品数据挖掘分析实战
Python 爬取淘宝商品数据挖掘分析实战项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 爬取淘宝商品 ...
使用Python爬取淘宝两千款套套
各位同学们,好久没写原创技术文章了,最近有些忙,所以进度很慢,给大家道个歉. 警告:本教程仅用作学习交流,请勿用作商业盈利,违者后果自负!如本文有侵犯任何组织集团公司的隐私或利益,请告知联系猪哥删除! ...
甜咸粽子党大战，Python爬取淘宝上的粽子数据并进行分析
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 爬虫爬取淘宝数据,本次采用的方法是:Selenium控制Chrome浏览 ...
利用Selenium爬取淘宝商品信息
一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一 ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...

随机推荐

Jquery判断单选框是否选中和获取选中的值
第一种:利用选中值判断选中 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http ...
c字符数组
一.PTA实验作业题目1:统计一行文本的单词个数 1. 本题PTA提交列表 2. 设计思路定义一个长度为1000的字符数组str[1000] 在定义 i=0,cnt=0:cnt用来记录单词的个数 ...
EasyUI 中easyui-textbox和easyui-searchbox文本框的点击事件。
html: <input id="txtsearch" class="easyui-textbox" data-options="buttonT ...
Gson序列化对象如何忽略字段
Gson序列化对象如何忽略字段 Gson版本 2.8.2 梗概用注解@Expose(serialize = false, deserialize = false)在类的成员上以告诉Gson 跳过本字 ...
在WebStorm中启动Angular项目
点击配置创建选择命令 package.json 运行查看运行结果
Linux知识积累（5）关机shutdown和重启reboot
Linux centos关机与重启命令详解与实战 Linux centos重启命令: 1.reboot 2.shutdown -r now 立刻重启(root用户使用) 3.shutdown -r 1 ...
搭建ssm框架，可实现登录和数据展示以及增删改查
需求: 后台使用ssm(spring-springMVC-mybatis)进行整合前台使用bootstrap框架前后台交互使用Ajax进行发送表结构: 登录页面后显示所有用户信息,可对每条进行增 ...
C# word文档转换成PDF格式文档
最近用到一个功能word转pdf,有个方法不错,挺方便的,直接调用即可,记录下方法:ConvertWordToPdf(string sourcePath, string targetPath) so ...
C# 后台构造json数据
前后台传值一般情况下,都会用到json类型的数据,比较常见,但是每次用到的时候去网上找比较麻烦,所以自己记录一下,下次直接用. 构造的json串格式,如下: [{","name&q ...
s遇到错误不要慌，教你方法走四方
我觉得不管是新手还是老手,他们都会出错,有些错误控制台会报错,而有些错误控制台不会报错面对不会报错的时候,就有一些人烦恼,不知道怎么办了,久而久之,就失去了对学习的乐趣. 所以我在这里说一下对错误处 ...

python selenum 爬取淘宝

python selenum 爬取淘宝的更多相关文章

随机推荐

热门专题