python 爬取京东手机图

初学urllib，高手勿喷...

import re

import urllib.request

#函数：每一页抓取的30张图片

def craw(url,page):

    imagelist = []#这里每次都要重新定义新的空列表，第一次没有定义结果爬取的都是一样的图片

    html1 = urllib.request.urlopen(url)

    data = str(html1.read())

    patter1 = '<li class="gl-item".+?</li>'

    result1 = re.compile(patter1).findall(data)

    patter2 = '//img.+?.jpg'#用.+?代表的是中间可是是任意多个字符

    for i in range(30):

        result_temp = result1[i]

        imagelist.append(re.compile(patter2).findall(result_temp))#用compile和findall得出的是列表，再将得到的列表加入整个的一个列表

    for i in range(1,30):#一开始调试用的是笨办法一个个的点，后来发现可以在断点处设置i==4

        try:#在imagelist中有存在图片抓取失败的情况，最懒的解决办法就是用try——except，无论出现什么情况都pass掉

            imageurl = "http:"+str(imagelist[i][0])

            imagename = "D:/picture/"+str(page)+str(i)+".jpg"

            result = urllib.request.urlopen(imageurl)#得到图片的地址后，**还是用打开连接用read()得到data的方法获取图片

            if (result.getcode() != 200):#如果链接不正常，则跳过这个链接

                pass

            else:

                data = result.read()  # 否则开始下载到本地

                with open(imagename, "wb") as code:

                    code.write(data)

                    code.close()

        except:

            pass

url = 'https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=%E6%89%8B%E6%9C%BA&cid2=653&cid3=655&page='

for i in range(2,10):#先从2页爬取到9页

    url_new = url + str(2*i-1)#分析每页的地址将page后的无用的地方删去，再加上（2n-1），n为页数

    craw(url_new,i)

python 爬取京东手机图的更多相关文章

Java实现爬取京东手机数据
Java实现爬取京东手机数据最近看了某马的Java爬虫视频,看完后自己上手操作了下,基本达到了爬数据的要求,HTML页面源码也刚好复习了下,之前发布两篇关于简单爬虫的文章,也刚好用得上.项目没什么太 ...
使用Python 爬取京东，淘宝。商品详情页的数据。（避开了反爬虫机制）
以下是爬取京东商品详情的Python3代码,以excel存放链接的方式批量爬取.excel如下代码如下 from selenium import webdriver from lxml import ...
Python 爬虫-爬取京东手机页面的图片
具体代码如下: __author__ = 'Fred Zhao' import requests from bs4 import BeautifulSoup import os from urllib ...
python爬取京东评论
一.分析 1.找到京东商品评论所在位置(记得点击商品评论,否则找不到productPageComments.action) 2.解析文件打开后发现是json数据,但不是那么规范,所以需要去点前面的 ...
python爬取京东价格
昨天准备爬取一个京东商品的价格,正则写好了一直是空的后来我去页面里面看了下,价格标签里果然是空的百度了下,大家都说是js来控制显示价格的于是去抓包试试,找到了一条mgets的请求中间很多参数不 ...
毕设二:python 爬取京东的商品评论
# -*- coding: utf-8 -*- # @author: Tele # @Time : 2019/04/14 下午 3:48 # 多线程版 import time import reque ...
教你用python爬取网站美女图（附代码及教程）
我前几篇文章都是说一些python爬虫库的用法,还没有说怎样利用好这些知识玩一些好玩的东西.那我今天带大家玩好玩又刺激的,嘻嘻!对了,requests库和正则表达式很重要的,一定要学会!一定要学会!! ...
python3[爬虫实战] 使用selenium，xpath爬取京东手机
使用selenium ,可能感觉用的并不是很深刻吧,可能是用scrapy用多了的缘故吧.不过selenium确实强大,很多反爬虫的都可以用selenium来解决掉吧. 思路: 入口: 关键字搜索入口 ...
C#爬取京东手机数据+PowerBI数据可视化展示
此系列博文链接 C#爬虫基本知识 Html Agility Pack解析html TODO: EF6中基本认识. EF6操作mysql MySQL乱码问题 C#爬虫在开头贴一下github仓库地址, ...

随机推荐

centos 安装最新稳定版本docker
直接yum安装的docker版本是 : docker --versionDocker version 1.12.6, build 85d7426/1.12.6 一些新特性需要安装最新的稳定版本国内可 ...
Python3基础 __len__,__getitem__ 记录列表中元素访问的次数定制不可变序列,下标字典
Python : 3.7.0 OS : Ubuntu 18.04.1 LTS IDE : PyCharm 2018.2.4 Conda ...
深入理解JavaScript的变量作用域
在学习JavaScript的变量作用域之前,我们应当明确几点: JavaScript的变量作用域是基于其特有的作用域链的. JavaScript没有块级作用域. 函数中声明的变量在整个函数中都有定义. ...
kubernetes 命令记录
操作基本命令: 通过yaml文件创建: kubectl create -f xxx.yaml (不建议使用,无法更新,必须先delete) kubectl apply -f xxx.yaml (创 ...
dp问题 -挑战例题 2017-7-24
01 背包题意: 在N件物品取出若干件放在容量为W的背包里,每件物品的体积为W1,W2……Wn(Wi为整数),与之相对应的价值为P1,P2……Pn(Pi为整数).求背包能够容纳的最大价值. f[i] ...
jquery 之$.fn的用法示例
$.fn是指jquery的命名空间,加上fn上的方法及属性,会对jquery实例每一个有效. 若扩展$.fn.abc(),即$.fn.abc()是对jquery扩展一个abc的方法,那么每个jquer ...
C# 获取SQL Server所有的数据库名称
参考文章:http://www.cnblogs.com/Abel_cn/archive/2008/12/09/1351425.html http://blog.csdn.net/friendan/ar ...
python 获取文件的修改时间
os.path.getmtime(name) #获取文件的修改时间 os.stat(path).st_mtime#获取文件的修改时间 os.stat(path).st_ctime #获取文件修改时间 ...
Mui --- 学习笔记
1.mui 是选择器,popover 控制显示与隐藏,toggle 自动控制显示或隐藏 function showMenu(){ //mui是选择器 mui('#menu').popover('tog ...
pragma comment的使用（转）
#pragma 的使用尽管 C 和 C++ 都已经有标准,但是几乎每个编译器 (广义,包含连接器等) 扩展一些 C/C++ 关键字. 合理地应用这些关键字,有时候能使我们的工作非常方便.下面随便说说 ...

python 爬取京东手机图

python 爬取京东手机图的更多相关文章

随机推荐

热门专题