手动爬虫之京东笔记本栏（ptyhon3）

 import urllib.request as ur

 import urllib.error as ue

 import re

 # 目标网址

 url = 'https://list.jd.com/list.html?cat=670,671,672'

 # 存放路径

 save_path = 'E:/workspace/PyCharm/codeSpace/books/python_web_crawler_book/chapter6/demo1/images/'

 # 代理服务器ip

 proxy_add = '115.174.66.148:8118'

 def get_JD_pictures(url, save_path, proxy_add, page):

     # 根据页面设置url

     url = url+"&page="+str(page)

     # 添加报头

     req = ur.Request(url)

     req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0')

     # 设置代理

     proxy = ur.ProxyHandler({'http': proxy_add})

     opener = ur.build_opener(proxy, ur.HTTPHandler)

     ur.install_opener(opener)

     # 爬取页面

     info = ur.urlopen(req).read()

     # 信息存档

     info = str(info)

     pattern_1 = '<div id="plist".+? <div class="page clearfix">'

     info = re.compile(pattern=pattern_1).findall(info)

     info = info[]

     pattern_2 = '<img width="220" height="220" data-img="1" src="//(.+?\.jpg)">'

     image_list = re.compile(pattern=pattern_2).findall(info)

     x =

     for image_url in image_list:

         image_name = save_path+str(page)+"_"+str(x)+".jpg"

         image_url = "http://"+image_url

         try:

             ur.urlretrieve(image_url, filename=image_name)

         except ue.HTTPError as e:

             if hasattr(e, 'code'):

                 print(e.code)

             if hasattr(e, 'reason'):

                 print(e.reason)

         except ue.URLError as e:

             if hasattr(e, 'code'):

                 print(e.code)

             if hasattr(e, 'reason'):

                 print(e.reason)

         x += 

 get_JD_pictures(url, save_path, proxy_add, )

手动爬虫之京东笔记本栏（ptyhon3）的更多相关文章

手动爬虫之流程笔记1(python3)
一.引入拓展库由于刚刚起步学习爬虫,故从urllib库开始首先引入urllib,这里主要用到urllib中request类 import urllib.request as ur 二.设置全局参数 ...
Ubuntu下配置python完成爬虫任务（笔记一）
Ubuntu下配置python完成爬虫任务(笔记一) 目标: 作为一个.NET汪,是时候去学习一下Linux下的操作了.为此选择了python来边学习Linux,边学python,熟能生巧嘛. 前期目 ...
Scrapy爬虫大战京东商城
Scrapy爬虫大战京东商城引言上一篇已经讲过怎样获取链接,怎样获得参数了,详情请看python爬取京东商城普通篇代码详解首先应该构造请求,这里使用scrapy.Request,这个方法默认调 ...
scrapy爬虫框架学习笔记(一)
scrapy爬虫框架学习笔记(一) 1.安装scrapy pip install scrapy 2.新建工程: (1)打开命令行模式 (2)进入要新建工程的目录 (3)运行命令: scrapy sta ...
手动爬虫之淘宝笔记本栏（ptyhon3）
1.这次爬虫用到了之前封装的Url_ProxyHelper类,源代码如下 import urllib.request as ur class Url_ProxyHelper: def __init__ ...
手动爬虫之糗事百科（ptyhon3）
一.调用封装的Url_ProxyHelper类,源码如下 import urllib.request as ur class Url_ProxyHelper: def __init__(self, u ...
Python网络爬虫与信息提取笔记
直接复制粘贴笔记发现有问题文档下载地址//download.csdn.net/download/hide_on_rush/12266493 掌握定向网络数据爬取和网页解析的基本能力常用的 Pytho ...
《用Python写爬虫》学习笔记（二）编写第一个网络爬虫
1.首先,下载网页使用Python的urllib2模块,或者Python HTTP模块request来实现 urllib2会出现问题,解决方法1.重试下载(设置下载次数) 2.设置用户代理 2.其次, ...
《用Python写爬虫》学习笔记（一）
注:纯文本内容,代码独立另写,属于本人学习总结,无任何商业用途,在此分享,如有错误,还望指教. 1.为什么需要爬虫? 答:目前网络API未完全放开,所以需要网络爬虫知识. 2.爬虫的合法性? 答:爬虫 ...

随机推荐

.Net 程序员面试 C# 语言篇 (回答Scott Hanselman的问题)
过去几年都在忙着找项目,赶项目,没有时间好好整理深究自己在工作中学到的东西.现在好了,趁着找工作的这段空余时间,正好可以总结和再继续夯实自己的.Net, C#基本功.在05年的时候,Scott Han ...
wx小程序的学习
传送门: # 微信小程序案例大全 https://www.cnblogs.com/icyhoo/p/6282574.html # 微信小程序开发工具 https://mp.weixin.qq.com/ ...
web前端--移动端适配总结
转自:https://segmentfault.com/a/1190000011586301 作者:Devinnn meta标签到底做了什么事情做过移动端适配的小伙伴一定有遇到过这行代码: < ...
unity, change shader for me and all my children
public void changeShaderForMeAndAllMyChildren(){ Transform[] childrenTransformList = GetComponentsIn ...
self.navigationItem.titleView 不居中显示的问题
自定义一个AUIView, AUIView * v=[AUIView new]; self.navigationItem.titleView = v; 在AUIView类内重写 setFrame - ...
【Android界面实现】Drawable Animation 使用介绍
转载请注明出处:http://blog.csdn.net/zhaokaiqiang1992 (眼下仅仅能用在View对象上的动画效果的实现有两种,一种就是上一篇的View Animat ...
size_t详细解释
在学习sizeof运算符的时候,它的值类型为size_t,结果在使用printf函数显示的时候,凭空多了很多警告,有点不不理解,为啥搞这么复杂?直接用个int类型多省事? 经过一番搜索和阅读文档,找到 ...
PHP系统学习3 正则
正则 ^shop 标示匹配与shop开头的字符串 shop$用来匹配与shop结尾的字符串 ^shop$只匹配shop [a-z]匹配所有小写字母 [A-Z]匹配所有大写字母 [a-zA-Z]匹配所有 ...
红茶一杯话Binder （ServiceManager篇）
1.先说一个大概 Android平台的一个基本设计理念是构造一个相对平坦的功能集合,这些功能可能会身处于不同的进程中,然而却可以高效地整合到一起,实现不同的用户需求.这就必须打破过去各个孤立App所形 ...
ToStringBuilder学习（二）：两种方法用法优缺点及一个问题
研究ApacheCommon源码, 先从一个最简单的开始,即围绕Object类里的toString方法自动化实现的一系列类. 怎么来自动化地实现toString方法, 有两种:反射和手 ...

手动爬虫之京东笔记本栏（ptyhon3）

手动爬虫之京东笔记本栏（ptyhon3）的更多相关文章

随机推荐

热门专题