python爬取淘宝华为手机

import re  

from selenium import webdriver

from selenium.common.exceptions import TimeoutException

from  selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

from  pyquery import PyQuery as pq

from config import *

import  pymongo  

client = pymongo.MongoClient(MONGO_URL)

db = client[MONGO_DB]  

# browser = webdriver.PhantomJS(service_args=SERVER_ARGS)

browser = webdriver.Chrome()

wait = WebDriverWait(browser,10)  

# browser.set_window_size(1400,900)  

def search():

    print('SEARCHING...')

    try:

        browser.get('https://www.taobao.com')

        input = wait.until(

            EC.presence_of_element_located((By.CSS_SELECTOR,'#q'))

        )  

        submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,'#J_TSearchForm > div.search-button > button')))

        input.send_keys(KEYWORD)

        submit.click()

        total = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > div.total')))

        get_products()

        return total.text

    except TimeoutException:

        return search()  

def next_page(page_number):

    print('PAGE TURNING...', page_number)

    try:

        input = wait.until(

            EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > input'))

        )

        submit = wait.until(

            EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit'))

        )

        input.clear()

        input.send_keys(page_number)

        submit.click()

        wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > ul > li.item.active > span'),str(page_number)))

        get_products()

    except TimeoutException:

        next_page(page_number)  

def get_products():

    wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-itemlist .items .item')))

    html = browser.page_source

    doc = pq(html)

    items = doc('#mainsrp-itemlist .items .item').items()

    for item in items:

        products = {

            'image': item.find('.pic .img').attr('src'),

            'price': item.find('.price').text(),

            'deal': item.find('.deal-cnt').text()[:-3],

            'title': item.find('.title').text(),

            'shop': item.find('.shop').text(),

            'location': item.find('.location').text()

        }

        print(products)

        save_to_mongo(products)  

def save_to_mongo(result):

    try:

        if db[MONGO_TABLE].insert(result):

            print('SUCCESSD!', result)

    except Exception:

        print('FAILD!', result)  

def main():

    try:

        total = search()

        total = int(re.compile('(\d+)').search(total).group(1))

        # print(total)

        for i in range (2, total + 1):

            next_page(i)

    except Exception:

        print('error...')

    finally:

        browser.close()  

if __name__ == '__main__':

    main()

python爬取淘宝华为手机的更多相关文章

Python 爬取淘宝商品数据挖掘分析实战
Python 爬取淘宝商品数据挖掘分析实战项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 爬取淘宝商品 ...
使用Python爬取淘宝两千款套套
各位同学们,好久没写原创技术文章了,最近有些忙,所以进度很慢,给大家道个歉. 警告:本教程仅用作学习交流,请勿用作商业盈利,违者后果自负!如本文有侵犯任何组织集团公司的隐私或利益,请告知联系猪哥删除! ...
甜咸粽子党大战，Python爬取淘宝上的粽子数据并进行分析
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 爬虫爬取淘宝数据,本次采用的方法是:Selenium控制Chrome浏览 ...
【Python爬虫案例学习】python爬取淘宝里的手机报价并以价格排序
第一步: 先分析这个url,"?"后面的都是它的关键字,requests中get函数的关键字的参数是params,post函数的关键字参数是data, 关键字用字典的形式传进去,这 ...
Python爬取淘宝店铺和评论
1 安装开发需要的一些库 (1) 安装mysql 的驱动:在Windows上按win+r输入cmd打开命令行,输入命令pip install pymysql,回车即可. (2) 安装自动化测试的驱动s ...
【Python爬虫案例学习】Python爬取淘宝店铺和评论
安装开发需要的一些库 (1) 安装mysql 的驱动:在Windows上按win+r输入cmd打开命令行,输入命令pip install pymysql,回车即可. (2) 安装自动化测试的驱动sel ...
一篇文章教会你用Python爬取淘宝评论数据（写在记事本）
[一.项目简介] 本文主要目标是采集淘宝的评价,找出客户所需要的功能.统计客户评价上面夸哪个功能多,比如防水,容量大,好看等等. 很多人学习python,不知道从何学起.很多人学习python,掌握了 ...
python 爬取淘宝的模特照片
前段时间花了一部分时间学习下正则表达式,总觉得利用正则要做点什么事情,所以想通过爬取页面的方式把一些美女的照片保存下来,其实过程很简单. 1.首先读取页面信息: 2.过滤出来照片的url地址: 3.通 ...
python爬取淘宝排名
import timeimport jsonimport requestsimport xlrdimport randomimport os from xlutils.copy import copy ...

随机推荐

UIWebView 获取网页标题
- (void)webViewDidFinishLoad:(UIWebView *)webView { NSString *urlString = webView.request.URL.absolu ...
AndroidUI组件之AdapterViewFilpper
package com.gc.adapterviewflipperdemo; /** * 功能:自己主动播放的图片库 * @author Android将军 */ /* * 1.AdapterView ...
Ansible常用功能
Ansible 是近几年十分流行的DevOps工具架构什么的我就不在这里赘述了,网上一找一堆这里写点我在ansible常用功能 1.命令串 #copy文件 #ansible host文件中的主机组 ...
vue-cli3 使用mint-ui
关于vue-cli3.x按需引入mint-ui问题记录: 按需引入借助 babel-plugin-component,我们可以只引入需要的组件,以达到减小项目体积的目的. 首先,安装 babel-p ...
MySQL学习之路(一)——初涉MySQL。
MySQL学习之路(一) 1.1MySQL的概述 MySQL由瑞典MySQL AB公司开发,目前属于Oracle公司. MySQL是一个开源的关系型数据库管理系统. MySQL分为社区版和企业版. 1 ...
嵌入式C语言自我修养 09：链接过程中的强符号和弱符号
9.1 属性声明:weak GNU C 通过 __atttribute__ 声明weak属性,可以将一个强符号转换为弱符号. 使用方法如下. void __attribute__((weak)) fu ...
浏览器窗口输入网址后发生的一段事情（http完整请求）
1.DNS查询得到IP 输入的是域名,需要进行dns解析成IP,大致流程: 如果浏览器有缓存,直接使用浏览器缓存,否则使用本机缓存,再没有的话就是用host 如果本地没有,就向dns域名服务器查询(当 ...
c语言单向链表逆转实现方法
自己理解的思路如下所示: 从第二个节点开始,先记录下一个节点,把第二个节点移到头节点之前,头节点变为移动的这个节点之前记录的节点变为接下来要移动的节点用for循环重复最后把原来头节点变成尾节点(*ne ...
Bessel函数的零点计算 MATLAB
由于MATLAB自己没有附带贝塞尔函数零点,因此使用起来很不方便,特别是在绘制仿真场量时. 下面给出0-9阶的贝塞尔函数零点的计算公式,其中理论上计算零点个数N在50以内时较为精确: function ...
关于使用READ TABLE语句
READ tabe 是用来遍历内表,取第一条符合条件的记录. READ TABLE <itab> [INTO <wa>] WITH KEY <key> [BINAR ...

python爬取淘宝华为手机

python爬取淘宝华为手机的更多相关文章

随机推荐

热门专题