Python 爬虫实例（9）—— 搜索爬取淘宝

# coding:utf-

import json

import redis

import time

import requests

session = requests.session()

import logging.handlers

import pickle

import sys

import re

import datetime

from bs4 import BeautifulSoup

import sys

reload(sys)

sys.setdefaultencoding('utf8')

import datetime

# 生成一年的日期

def dateRange(start, end, step=, format="%Y-%m-%d"):

    strptime, strftime = datetime.datetime.strptime, datetime.datetime.strftime

    days = (strptime(end, format) - strptime(start, format)).days

    return [strftime(strptime(start, format) + datetime.timedelta(i), format) for i in xrange(, days, step)]

def spider():

    from selenium import webdriver

    import os

    # 引入chromedriver.exe

    chromedriver = "C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe"

    os.environ["webdriver.chrome.driver"] = chromedriver

    browser = webdriver.Chrome(chromedriver)

    # 设置浏览器需要打开的url

    url = "https://www.taobao.com/"

    browser.get(url)

    time.sleep()

    browser.find_element_by_id("q").send_keys(u'python')

    browser.find_element_by_class_name("btn-search").click()

    time.sleep()

    for i in range(,):

        browser.find_element_by_xpath('//a[@trace="srp_bottom_pagedown"]').click()

        time.sleep()

        result = browser.page_source

        result_replace = str(result).replace('\n','').replace('\r','').replace('\t','').replace(' ','')

        result_replace = re.findall('<divclass="pic-boxJ_MouseEneterLeaveJ_PicBox">(.*?)</div><divclass="ctx-boxJ_MouseEneterLeaveJ_IconMoreNew">(.*?)</div><divclass="rowrow-4g-clearfix">(.*?)</div></div></div>',result_replace)

        print len(result_replace)

        for item in result_replace:

            item_imgurl = re.findall('data-src="(.*?)"alt=',item[])[]

            item_name = re.findall('alt="(.*?)"/></a></div><divclass=',item[])[]

            item_loation = re.findall('<divclass="location">(.*?)</div>',item[])[]

            company_name = re.findall('</span></span><span>(.*?)</span></a></div><divclass="location">',item[])[]

            company_price = re.findall('<divclass="priceg_priceg_price-highlight"><span>¥</span><strong>(.*?)</strong></div>',item[])[]

            purchase_num = re.findall('<divclass="deal-cnt">(.*?)人付款</div>',item[])[]

            print item_imgurl

            print item_name

            print item_loation

            print company_name

            print company_price

            print purchase_num

            print "="*

            # time.sleep()

    # 关闭浏览器

    # browser.quit()

spider()

Python 爬虫实例（9）—— 搜索爬取淘宝的更多相关文章

Python爬虫实战四之抓取淘宝MM照片
原文:Python爬虫实战四之抓取淘宝MM照片其实还有好多,大家可以看 Python爬虫学习系列教程福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 本篇目标 1. ...
一次Python爬虫的修改，抓取淘宝MM照片
这篇文章是2016-3-2写的,时隔一年了,淘宝的验证机制也有了改变.代码不一定有效,保留着作为一种代码学习. 崔大哥这有篇>>小白爬虫第一弹之抓取妹子图不失为学python爬虫的绝佳教 ...
python3编写网络爬虫16-使用selenium 爬取淘宝商品信息
一.使用selenium 模拟浏览器操作爬取淘宝商品信息之前我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过A ...
python 网路爬虫（二）爬取淘宝里的手机报价并以价格排序
今天要写的是之前写过的一个程序,然后把它整理下,巩固下知识点,并对之前的代码进行一些改进. 今天要爬取的是淘宝里的关于手机的报价的信息,并按照自己想要价格来筛选. 要是有什么问题希望大佬能指出我的错误 ...
Python网络爬虫（6）--爬取淘宝模特图片
经过前面的一些基础学习,我们大致知道了如何爬取并解析一个网页中的信息,这里我们来做一个更有意思的事情,爬取MM图片并保存.网址为https://mm.taobao.com/json/request_t ...
利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇，超详细教程
项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析词云可视化 2. ...
python爬虫学习(三)：使用re库爬取"淘宝商品"，并把结果写进txt文件
第二个例子是使用requests库+re库爬取淘宝搜索商品页面的商品信息 (1)分析网页源码打开淘宝,输入关键字“python”,然后搜索,显示如下搜索结果从url连接中可以得到搜索商品的关键字是 ...
【Python3 爬虫】14_爬取淘宝上的手机图片
现在我们想要使用爬虫爬取淘宝上的手机图片,那么该如何爬取呢?该做些什么准备工作呢? 首先,我们需要分析网页,先看看网页有哪些规律打开淘宝网站http://www.taobao.com/ 我们可以看到 ...
使用Python爬取淘宝两千款套套
各位同学们,好久没写原创技术文章了,最近有些忙,所以进度很慢,给大家道个歉. 警告:本教程仅用作学习交流,请勿用作商业盈利,违者后果自负!如本文有侵犯任何组织集团公司的隐私或利益,请告知联系猪哥删除! ...

随机推荐

bootstrap页面sidebar
function change_active(select_item){ $('.mail-navigation').find('li').each(function(){ $(this).remov ...
EF Core使用CodeFirst在MySql中创建新数据库以及已有的Mysql数据库如何使用DB First生成域模型
官方教程:https://docs.microsoft.com/en-us/aspnet/core/data/?view=aspnetcore-2.1 使用EF CodeFirst在MySql中创建新 ...
C# MediaHelper
using System.Text; public class MediaHelper { private static MediaHelper media = null; private Media ...
Cisco 12系列 AP 初始化配置-2-初始化配置
用于SSH登陆这个设备 bridge irb bridge 1 route ip 开启路由功能 interface BVI1 ip address 10.15.106.44 255.255.255. ...
网络基础配置--usg系统升级
1.usg2000系统升级 1.1.TFTP设置这里用到一个工具:3CDeamon, 是在由3Com开发类别 Web Development Freeware 软件,是一个简易服务器工具,含TFTP ...
BZOJ.4515.[SDOI2016]游戏(树链剖分李超线段树)
BZOJ 洛谷每次在路径上加的数是个一次函数,容易看出是树剖+李超线段树维护函数最小值.所以其实依旧是模板题. 横坐标自然是取个确定的距离标准.取每个点到根节点的距离$dis[i]$作为\(i\ ...
洛谷P1541 乌龟棋(四维DP)
To 洛谷.1541 乌龟棋题目背景小明过生日的时候,爸爸送给他一副乌龟棋当作礼物. 题目描述乌龟棋的棋盘是一行N个格子,每个格子上一个分数(非负整数).棋盘第1格是唯一的起点,第N格是终点,游 ...
ubuntu16 64 搭建lnmp环境
//安全设置linux(ubuntu16 64) 安全设置1.修改ssh端口 vi /etc/ssh/sshd_config 如果用户想让22和60000端口同时开放,只需在/etc/ssh/sshd ...
STM32点亮闪烁LED灯
详解请看其他博客: http://www.cnblogs.com/whik/p/6672730.html http://www.51hei.com/bbs/dpj-38605-1.html /*本程序 ...
连接到docker 指定的一个容器中
1.docker run -itd ubuntu 2.sudo docker ps 3.PID=$(docker-pid containerID) 返回一个p_id 4.nsenter --targ ...

Python 爬虫实例（9）—— 搜索 爬取 淘宝

Python 爬虫实例（9）—— 搜索 爬取 淘宝的更多相关文章

随机推荐

热门专题

Python 爬虫实例（9）—— 搜索爬取淘宝

Python 爬虫实例（9）—— 搜索爬取淘宝的更多相关文章