使用scrapy+selenium爬取淘宝网

--***2019-3-27测试有效***----

第一步：

　　打开cmd，输入scrapy startproject taobao_s新建一个项目。

　　接着cd 进入我们的项目文件夹内输入scrapy genspider taobao www.taobao.com新建一个爬虫

文件内是这样的，tools是我建的一个工具模块，里面有一个处理数据的函数和selenium登录的函数。

class TaobaoSpider(scrapy.Spider):

    name = 'taobao'

    # allowed_domains = ['www.taobao.com']

    base_url = ['https://s.taobao.com/search?q=']

    pages = 100

    re_headers = {

        'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36',

        'referer': 'https://www.taobao.com/',

        'accept-encoding': 'gzip, deflate, b',

    }

    i = 1

    def start_requests(self):

        keys = self.settings.get('KEYS')#获取要搜索的关键词

        self.browser,list = register()#这里调用selenium登录的方法并返回browser和一个cookies

        self.browser.get(self.base_url[0]+keys)#使用browser登录淘宝商品搜索页面

        self.browser.execute_script("window.scrollTo(0, document.body.scrollHeight)")#使用execute_script执行js操作，这里是下拉到最底下

        url_i = self.browser.current_url#获取selenium界面当前的url用来错误处理

        html = self.browser.page_source#获取源代码

        yield scrapy.Request(url=self.base_url[0]+keys,headers=self.re_headers,cookies=list,callback=self.parse,meta={'html':html,'i':self.i,'url':url_i})

    def parse(self, response):

        time.sleep(5)#等待时间，可调

        html = response.meta.get('html')

        i = response.meta.get("i")

        url_i = response.meta.get("url")

        i +=1

        if i > 100:#因为翻一百页，到了之后就不在执行循环

            return

        try:

            soup = BeautifulSoup(html,'html.parser')

            lists = soup.select('#mainsrp-itemlist > div > div > div > div')

            for list in lists:#这一段是解析数据

                item = TaobaoSItem()

                url = list.select('a[class="pic-link J_ClickStat J_ItemPicA"]')[0].attrs.get('href','')

                name = list.select("a[class='J_ClickStat']")[0].get_text().strip()

                name = data_cleaning(name)

                price = list.select('div[class="price g_price g_price-highlight"] strong')[0].get_text()

                num = list.select('div[class="deal-cnt"]')[0].get_text()

                shop_name = list.select("a[class='shopname J_MouseEneterLeave J_ShopInfo']")[0].get_text().strip()

                shop_name = data_cleaning(shop_name)

                item['url'] = url

                item['name'] = name

                item['price'] = price

                item['num'] = num

                item['shop_name'] = shop_name

                yield item

            button = self.browser.find_elements(By.XPATH,'//a[@class="J_Ajax num icon-tag"]')[-1]#这里是获取点击下一页的，因为到第二页以后会有二个一样class的，一个是上一页，一个是下一页。

            button.click()#点击进入下一页

            time.sleep(random.random()*2)

            self.browser.execute_script("window.scrollTo(0, document.body.scrollHeight)")#下拉操作

            html = self.browser.page_source

            yield scrapy.Request(url=response.url,headers=self.re_headers,callback=self.parse,meta={'html':html,'i':i,'url':url_i},dont_filter=True)

        except Exception as e:#如果被淘宝抓到就重新登录，用保存的url在接着获取数据

            time.sleep(10)

            print(e)

            self.browser.close()

            self.browser,list = register()

            self.browser.get(url=url_i)

            time.sleep(random.random()*2)

            self.browser.execute_script("window.scrollTo(0, document.body.scrollHeight)")

            html = self.browser.page_source

            yield scrapy.Request(url=response.url,headers=self.re_headers,callback=self.parse,meta={'html':html,'i':i,'url':url_i},dont_filter=True)

    def close(spider, reason):#这是结束时执行的函数，用来关掉开启的浏览器进程

        spider.browser.close()

这是tools

def data_cleaning(data):#这是清洗数据的

    if ' ' in data:

        data = re.sub(' ', '', data)

    if "'" in data:

        data = re.sub("'", '', data)

    if r'\n' in data:

        data = re.sub(r'\\n', '', data)

    return data

def register():#这是登录的函数，主要

    while True: #因为淘宝能够识别出selenium，有时我们会登录失败，会重新登录

        browser = webdriver.FirefoxOptions()

        browser.add_argument('-headless') #无头浏览器

        browser = webdriver.Firefox(firefox_options=browser)

        # browser = webdriver.Firefox()

        browser.get('https://login.taobao.com/member/login.jhtml')#进入登录页面try:

            input = WebDriverWait(browser, 10).until(

                EC.presence_of_element_located((By.CLASS_NAME, 'forget-pwd.J_Quick2Static'))) #因为登录页面有时候是扫码登录，使用需要我们点击切换到密码登录

            input.click()

        except Exception as e: #因为页面有时是直接密码登录，使用如果直接是密码登录就不需要点击

            print(e)

        user = browser.find_element(By.ID, 'TPL_username_1')#找到账号输入框

        password = browser.find_element(By.ID, 'TPL_password_1')#密码输入框

        user.send_keys(USER) #输入账号并等待一下

        time.sleep(random.random() * 2)

        password.send_keys(PASSWORD)#输入密码并等待一下

        time.sleep(random.random() * 1)

        browser.execute_script("Object.defineProperties(navigator,{webdriver:{get:() => false}})") #淘宝对selenium的识别主要是通过navigator.webdriver,使用selenium的浏览器api显示的是True，所有我们改成fALSE就可以过淘宝的检测

        action = ActionChains(browser)

        time.sleep(random.random() * 1)

        butt = browser.find_element(By.ID, 'nc_1_n1z')

        browser.switch_to.frame(browser.find_element(By.ID, '_oid_ifr_'))

        browser.switch_to.default_content()

        action.click_and_hold(butt).perform()

        action.reset_actions()

        action.move_by_offset(285, 0).perform()#输入账号密码后会有一个滑动验证

        time.sleep(random.random() * 1)

        button = browser.find_element(By.ID, 'J_SubmitStatic')#登录按钮

        time.sleep(random.random() * 2)

        button.click()

        time.sleep(random.random() * 2)

        # browser.get('https://www.taobao.com/')

        cookie = browser.get_cookies()#获取cookies，原本想selenium实现登录，其他使用scrapy来，但是淘宝的商品搜索页的js找不到加上时间不够就没写了。

        list = {}#scrapy携带的cookies需要字典类型的

        for cookiez in cookie:

            name = cookiez['name']

            value = cookiez['value']

            list[name] = value

        if len(list) > 10:

            break

        else:

            browser.close()

    return browser,list

然后是数据保存

class TaobaoSPipeline(object):

    def open_spider(self,spider): #scrapy打开时启动，这里是打开或者新建一个txt文件，文件路径是当前路径

        self.f = open('淘宝店铺数据.txt','w')

    def process_item(self, item, spider):#数据保存以字典的形式，也可以改成数据库或者csv

        data = {}

        data['url'] = item['url']

        data['name'] = item['name']

        data['price'] = item['price']

        data['num'] = item['num']

        data['shop_name'] = item['shop_name']

        self.f.write(str(data)+'\n')

        return item

    def close_spider(self,spider):#scrapy结束时启动，用来关掉文件。

        self.f.close()

代码地址 https://github.com/18370652038/taobao.git

使用scrapy+selenium爬取淘宝网的更多相关文章

利用Selenium爬取淘宝商品信息
一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一 ...
python3编写网络爬虫16-使用selenium 爬取淘宝商品信息
一.使用selenium 模拟浏览器操作爬取淘宝商品信息之前我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过A ...
爬虫实战4：用selenium爬取淘宝美食
方案1:一次性爬取全部淘宝美食信息 1. spider.py文件如下 __author__ = 'Administrator' from selenium import webdriver from ...
使用Selenium爬取淘宝商品
import pymongo from selenium import webdriver from selenium.common.exceptions import TimeoutExceptio ...
Selenium爬取淘宝商品概要入mongodb
准备: 1.安装Selenium:终端输入 pip install selenium 2.安装下载Chromedriver:解压后放在…\Google\Chrome\Application\:如果是M ...
python selenium 爬取淘宝
# -*- coding:utf-8 -*- # author : yesehngbao # time:2018/3/29 import re import pymongo from lxml imp ...
seleniun 爬取淘宝网
import re from selenium import webdriver from selenium.common.exceptions import TimeoutException fro ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
selenium跳过webdriver检测并爬取淘宝我已购买的宝贝数据
简介上一个博文已经讲述了如何使用selenium跳过webdriver检测并爬取天猫商品数据,所以在此不再详细讲,有需要思路的可以查看另外一篇博文. 源代码 # -*- coding: utf-8 ...

随机推荐

http头部解释
If-Modified-Since,If-Node-Match,ETag,Last-Modified 1 属于 Request Headers的是:If-Modified-Since,If-Node- ...
使用Visual Studio进行单元测试-Shim类中无法找到参数包含CancellationTokenSource的方法
Shim类中无法找到参数包含CancellationTokenSource的方法,这句话有点绕口,看例子. 一.代码 public class CancellationDemo { public in ...
不重启linuxVMWare虚拟机添加虚拟磁盘
Vsphere Client找到要添加磁盘的虚机,如图所示点击虚机右键,在出现的下列列表中选择“编辑设置”如图在打开的虚拟机属性中,在”硬件对话框点击“添加"按钮,如图在添 ...
十二：JAVA I/O
输入模式输出模式 ⑴字节输入流:InputStream ⑵字节输出流:Output ...
TS学习之解构与展开
一.解构 1.解构数组 let input = [1, 2]; let [first, second] = input; console.log(first); // outputs 1 consol ...
Python模块-logging模块(一)
logging模块用来写日志文件有5个级别,debug(),info(),warning(),error()和critical(),级别最高的为critical() debug()为调试模式,inf ...
delphi 线程教学第一节：初识多线程
第一节:初识多线程 1.为什么要学习多线程编程? 多线程(多个线程同时运行)编程,亦可称之为异步编程. 有了多线程,主界面才不会因为耗时代码而造成“假死“状态. 有了多线程,才能使多个任务同时 ...
C笔试题（一）
a和b两个整数,不用if, while, switch, for,>, <, >=, <=, ?:,求出两者的较大值. 答案: int func(int a, int b) { ...
C++之vector模板类
vector 称为容器模板类,是同一种类型的对象的集合,每个对象都有一个对应的整数索引值.vector 不是一种数据类型,而只是一个类模板,可用来定义任意多种数据类型.vector 类型的每一种都指定 ...
Ubuntu 解决：当执行`sudo apt-get update`命令时出现的 “apt-get 404 Not Found Package Repository Errors” 问题
Ubuntu 解决:当执行sudo apt-get update或者sudo apt-get install命令是出现的 "apt-get 404 Not Found Package Rep ...

使用scrapy+selenium爬取淘宝网

使用scrapy+selenium爬取淘宝网的更多相关文章

随机推荐

热门专题