python大规模爬取京东

主要工具

scrapy

BeautifulSoup

requests

分析步骤

打开京东首页，输入裤子将会看到页面跳转到了这里，这就是我们要分析的起点

我们可以看到这个页面并不是完全的，当我们往下拉的时候将会看到图片在不停的加载，这就是ajax,但是当我们下拉到底的时候就会看到整个页面加载了60条裤子的信息，我们打开chrome的调试工具，查找页面元素时可以看到每条裤子的信息都在<li class='gl-item'></li>这个标签中，如下图：

接着我们打开网页源码就会发现其实网页源码只有前30条的数据，后面30条的数据找不到，因此这里就会想到ajax，一种异步加载的方式，于是我们就要开始抓包了，我们打开chrome按F12，点击上面的NetWork,然后点击XHR,这个比较容易好找,下面开始抓包，如下图：

从上面可以找到请求的url，发现有很长的一大段，我们试着去掉一些看看可不可以打开，简化之后的url='https://search.jd.com/s_new.php?keyword=裤子&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&offset=3&wq=裤子&page={0}&s=26&scrolling=y&pos=30&show_items={1}'，这里的showitems是裤子的id,page是翻页的，可以看出来我们只需要改动两处就可以打开不同的网页了，这里的page很好找，你会发现一个很好玩的事情，就是主网页的page是奇数，但是异步加载的网页中的page是偶数，因此这里只要填上偶数就可以了，但是填奇数也是可以访问的。这里的show_items就是id了，我们可以在页面的源码中找到，通过查找可以看到id在li标签的data-pid中，详情请看下图

上面我们知道怎样找参数了，现在就可以撸代码了

代码讲解

首先我们要获取网页的源码，这里我用的requests库，安装方法为pip install requests，代码如下:

    def get_html(self):

        res = requests.get(self.url, headers=self.headers)

        html = res.text

        return html    #返回的源代码

根据上面的分析可以知道，第二步就是得到异步加载的url中的参数show_items,就是li标签中的data-pid,代码如下：

    def get_pids(self):

        html = self.get_html()

        soup = BeautifulSoup(html, 'lxml')    #创建BeautifulSoup对象

        lis = soup.find_all("li", class_='gl-item')   #查找li标签

        for li in lis:

            data_pid = li.get("data-pid")      #得到li标签下的data-pid

            if (data_pid):

                self.pids.add(data_pid)    #这里的self.pids是一个集合，用于过滤重复的

下面就是获取前30张图片的url了，也就是主网页上的图片，其中一个问题是img标签的属性并不是一样的，也就是源码中的img中不都是src属性，一开始已经加载出来的图片就是src属性，但是没有加载出来的图片是data-lazy-img，因此在解析页面的时候要加上讨论。代码如下：

    def get_src_imgs_data(self):

        html = self.get_html()

        soup = BeautifulSoup(html, 'lxml')

        divs = soup.find_all("div", class_='p-img')  # 图片

        # divs_prices = soup.find_all("div", class_='p-price')   #价格

        for div in divs:

            img_1 = div.find("img").get('data-lazy-img')  # 得到没有加载出来的url

            img_2 = div.find("img").get("src")  # 得到已经加载出来的url

            if img_1:

                print img_1

                self.sql.save_img(img_1)

                self.img_urls.add(img_1)

            if img_2:

                print img_2

                self.sql.save_img(img_2)

                self.img_urls.add(img_2)

前三十张图片找到了，现在开始找后三十张图片了，当然是要请求那个异步加载的url，前面已经把需要的参数给找到了，下面就好办了，直接贴代码：

    def get_extend_imgs_data(self):

        # self.search_urls=self.search_urls+','.join(self.pids)

        self.search_urls = self.search_urls.format(str(self.search_page), ','.join(self.pids))  #拼凑url,将获得的单数拼成url,其中show_items中的id是用','隔开的，因此要对集合中的每一个id分割，page就是偶数，这里直接用主网页的page加一就可以了

        print self.search_urls

        html = requests.get(self.search_urls, headers=self.headers).text   #请求

        soup = BeautifulSoup(html, 'lxml')

        div_search = soup.find_all("div", class_='p-img')   #解析

        for div in div_search:

            img_3 = div.find("img").get('data-lazy-img')    #这里可以看到分开查找img属性了

            img_4 = div.find("img").get("src")

            if img_3:    #如果是data-lazy-img

                print img_3

                self.sql.save_img(img_3)    #存储到数据库

                self.img_urls.add(img_3)      #用集合去重

            if img_4:    #如果是src属性

                print img_4

                self.sql.save_img(img_4)

                self.img_urls.add(img_4)

通过上面就可以爬取了，但是还是要考虑速度的问题，这里我用了多线程，直接每一页面开启一个线程，速度还是可以的，感觉这个速度还是可以的，几分钟解决问题，总共爬取了100个网页,这里的存储方式是mysql数据库存储的，要用发哦MySQLdb这个库，详情自己百度，当然也可以用mogodb但是还没有学呢，想要的源码的朋友请看GitHub源码

拓展

写到这里可以看到搜索首页的网址中keyword和wq都是你输入的词，如果你想要爬取更多的信息，可以将这两个词改成你想要搜索的词即可，直接将汉字写上，在请求的时候会自动帮你编码的，我也试过了，可以抓取源码的，如果你想要不断的抓取，可以将要搜索的词写上文件里，然后从文件中读取就可以了。以上只是一个普通的爬虫，并没有用到什么框架，接下来将会写scrapy框架爬取的，请继续关注我的博客哦！！！

python大规模爬取京东的更多相关文章

python爬虫爬取京东、淘宝、苏宁上华为P20购买评论
爬虫爬取京东.淘宝.苏宁上华为P20购买评论 1.使用软件 Anaconda3 2.代码截图三个网站代码大同小异,因此只展示一个 3.结果(部分) 京东淘宝苏宁 4.分析这三个网站上的评论数据 ...
Python爬虫-爬取京东商品信息-按给定关键词
目的:按给定关键词爬取京东商品信息,并保存至mongodb. 字段:title.url.store.store_url.item_id.price.comments_count.comments 工具 ...
JS+Selenium+excel追加写入，使用python成功爬取京东任何商品~
之前一直是requests库做爬虫,这次尝试下使用selenium做爬虫,效率不高,但是却没有限制,文章是分别结合大牛的selenium爬虫以及excel追加写入操作而成,还有待优化,打算爬取更多信息 ...
Python 爬虫-爬取京东手机页面的图片
具体代码如下: __author__ = 'Fred Zhao' import requests from bs4 import BeautifulSoup import os from urllib ...
Python爬虫实战（2）：爬取京东商品列表
1,引言在上一篇<Python爬虫实战:爬取Drupal论坛帖子列表>,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容.相反 ...
python制作爬虫爬取京东商品评论教程
作者:蓝鲸类型:转载本文是继前2篇Python爬虫系列文章的后续篇,给大家介绍的是如何使用Python爬取京东商品评论信息的方法,并根据数据绘制成各种统计图表,非常的细致,有需要的小伙伴可以参考下 ...
python使用requests库爬取网页的小实例：爬取京东网页
爬取京东网页的全代码: #爬取京东页面的全代码 import requests url="https://item.jd.com/2967929.html" try: r=requ ...
使用Python 爬取京东，淘宝。商品详情页的数据。（避开了反爬虫机制）
以下是爬取京东商品详情的Python3代码,以excel存放链接的方式批量爬取.excel如下代码如下 from selenium import webdriver from lxml import ...
一个scrapy框架的爬虫(爬取京东图书)
我们的这个爬虫设计来爬取京东图书(jd.com). scrapy框架相信大家比较了解了.里面有很多复杂的机制,超出本文的范围. 1.爬虫spider tips: 1.xpath的语法比较坑,但是你可以 ...

随机推荐

浅析如何在Nancy中生成API文档
前言前后端分离,或许是现如今最为流行开发方式,包括UWP.Android和IOS这样的手机客户端都是需要调用后台的API来进行数据的交互. 但是这样对前端开发和APP开发就会面临这样一个问题:如何知 ...
开始更新webpack踩坑笔记
今天开始学习webpack,记录下踩过的坑-zxf
seajs的那些坑
seajs是what? 先看段代码: var loder = {}; var define = loder.define = function(id,deps,factory){ loader[id] ...
DIV+CSS 规范命名集合
一: 命名规范说明: 1).所有的命名最好都小写 2).属性的值一定要用双引号("")括起来,且一定要有值如class="divcss5",id="d ...
MongoDB基础教程系列--未完待续
最近对 MongoDB 产生兴趣,在网上找的大部分都是 2.X 版本,由于 2.X 与 3.X 差别还是很大的,所以自己参考官网,写了本系列.MongoDB 的知识还是很多的,本系列会持续更新,本文作 ...
【初识Python】
一.Python的简介 1.什么是python? Python(发音:[ 'paiθ(ə)n; (US) 'paiθɔn ]),是一种面向对象的解释性的计算机程序设计语言,也是一种功能强大而完善的通用 ...
6.1熟知tsung.xml配置文件（翻译）
6.1.文件结构默认的encoding是utf-8,你也可以使用以下不同的encoding:<?xml version="1.0" encoding="ISO-8 ...
composer安装及使用说明和相关原理文档
一.安装composer: 1.官方安装方法见https://getcomposer.org/download/ 2.本人安装方法: ①先配好yum源(不会配置的见博客如何制作自己的yum源),我 ...
Python数据类型之变量
变量在程序设计中,变数(英语:Variable,scalar)是指一个包含部分已知或未知数值或资讯(即一个值)之储存位址,以及相对应之符号名称(识别字).通常使用变数名称参照储存值:将名称和内容分开 ...
Python3.5 在Ubuntu16.04上无法画图的解决方案
1. 问题由来在使用下面的测试代码学习python时,用Pycharm画不出来图像,SPYDER3 可以画出来. 下面的代码来自:http://old.sebug.net/ # -*- coding ...

python大规模爬取京东

python大规模爬取京东

主要工具

分析步骤

代码讲解

拓展

python大规模爬取京东的更多相关文章

随机推荐

热门专题