手动爬虫之淘宝笔记本栏（ptyhon3）

1.这次爬虫用到了之前封装的Url_ProxyHelper类，源代码如下

 import urllib.request as ur

 class Url_ProxyHelper:

     def __init__(self, url, proxy_add, savepath=None):

         self.url = url

         self.proxy_add = proxy_add

         self.req = None

         self.proxy = None

         self.opener = None

         self.info = None

         self.save_path = savepath

     # 报头代理设置

     def set_UrlAndProxy(self):

         # 添加报头

         self.req = ur.Request(self.url)

         self.req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0')

         # 设置代理服务器

         self.proxy = ur.ProxyHandler({'http': self.proxy_add})

         self.opener = ur.build_opener(self.proxy, ur.HTTPHandler)

         ur.install_opener(self.opener)

         return self.req

     # 数据存档

     def save_InFile(self):

         self.req = self.set_UrlAndProxy()

         self.info = ur.urlopen(self.req).read()

         open(self.save_path, 'wb').write(self.info)

     # 数据返回

     def feedbak_info(self):

         self.req = self.set_UrlAndProxy()

         self.info = ur.urlopen(self.req).read().decode('utf-8')  # decode()用来解码，特别是中文

         return str(self.info)

2.爬取源代码：

 import urllib.request as ur

 import urllib.error as ue

 from Url_ProxyHelper import Url_ProxyHelper

 import re

 # 设置目标网址 quote()函数能够解决url中出现的中文所导致的一些解析问题

 url = ur.quote("https://s.taobao.com/list?q=平板电脑&q=平板电脑&s=",  safe='/:?=', encoding='utf-8')

 # 设置存放路径

 save_path = "E:/workspace/PyCharm/codeSpace/books/python_web_crawler_book/chapter6/demo2/images/"

 # 设置代理服务器IP

 proxy_add = "218.73.139.196:808"

 def craw(url, save_path, proxy_add,page):

     url = url+str((page-)*)

     # 调用Url_ProxyHelper封装类

     uph = Url_ProxyHelper(url, proxy_add)

     infos = uph.feedbak_info()

     # 设置正则表达式 一般来讲先把这个实例拿出来，然后根据实例写通式

     pattern = '\"(pic_url)\":\"(.+?\.jpg)'

     infos = re.compile(pattern=pattern).findall(infos)

     x =

     for info in infos:

         image_name = save_path+str(page)+"_"+str(x)+".jpg"

         image_url = "http:"+info[]

         try:

             ur.urlretrieve(image_url, filename=image_name)

         except ue.HTTPError as e:

             if hasattr(e, 'code'):

                 print(e.code)

             if hasattr(e, 'reason'):

                 print(e.reason)

         except ue.URLError as e:

             if hasattr(e, 'code'):

                 print(e.code)

             if hasattr(e, 'reason'):

                 print(e.reason)

         x += 

 # 只爬取了第一页

 craw(url, save_path, proxy_add, )

手动爬虫之淘宝笔记本栏（ptyhon3）的更多相关文章

Python爬虫获得淘宝商品评论
自从写了第一个sina爬虫,便一发不可收拾.进入淘宝评论爬虫正题: 在做这个的时候,也没有深思到底爬取商品评论有什么用,后来,爬下来了数据.觉得这些数据可以用于帮助分析商品的评论,从而为用户选择商品提 ...
Python 爬虫知识点 - 淘宝商品检索结果抓包分析（续一）
通过前一节得出地址可能的构建规律,如下: https://s.taobao.com/search?data-key=s&data-value=44&ajax=true&_ksT ...
python：爬虫获取淘宝/天猫的商品信息
[需求]输入关键字,如书包,可以搜索出对应商品的信息,包括:商品标题.商品链接.价格范围:且最终的商品信息需要符合:包邮.价格差不会超过某数值 #coding=utf-8 ""&q ...
Python 爬虫知识点 - 淘宝商品检索结果抓包分析
一.抓包基础在淘宝上搜索“Python机器学习”之后,试图抓取书名.作者.图片.价格.地址.出版社.书店等信息,查看源码发现html-body中没有这些信息,分析脚本发现,数据存储在了g_page_ ...
[PHP] 编写爬虫获取淘宝网上所有的商品分类以及关键属性销售属性非关键属性数据
参考文章地址:https://blog.csdn.net/zhengzizhi/article/details/80716608 http://open.taobao.com/apitools/api ...
爬虫_淘宝（selenium）
总体来说代码还不是太完美实现了js渲染网页的解析的一种思路主要是这个下拉操作,不能一下拉到底,数据是在中间加载进来的, 具体过程都有写注释 from selenium import webdriv ...
Python 爬虫知识点 - 淘宝商品检索结果抓包分析（续二）
一.URL分析通过对“Python机器学习”结果抓包分析,有两个无规律的参数:_ksTS和callback.通过构建如下URL可以获得目标关键词的检索结果,如下所示: https://s.taoba ...
手动爬虫之糗事百科（ptyhon3）
一.调用封装的Url_ProxyHelper类,源码如下 import urllib.request as ur class Url_ProxyHelper: def __init__(self, u ...
PYTHON 爬虫笔记十:利用selenium+PyQuery实现淘宝美食数据搜集并保存至MongeDB（实战项目三）
利用selenium+PyQuery实现淘宝美食数据搜集并保存至MongeDB 目标站点分析淘宝页面信息很复杂的,含有各种请求参数和加密参数,如果直接请求或者分析Ajax请求的话会很繁琐.所以我们可 ...

随机推荐

python 特征缺失值填充
python数据预处理之缺失值简单处理:https://blog.csdn.net/Amy_mm/article/details/79799629 该博客总结比较详细,感谢博主. 我们在进行模型训练时 ...
SQL 2005示例库（转载）
sql2005数据库实例从网上找还得麻烦,转了过来,点击就可以下载! 在学习SQL2005中离开不了SQL2005示例数据库,AdventureWorks数据库下载安装,,northwind数据库下 ...
Html5——File、FileReader、Blob、Fromdata对象
File File 接口提供有关文件的信息,并允许网页中的JavaScript访问其内容. File对象可以用来获取某个文件的信息,还可以用来读取这个文件的内容.通常情况下,File对象是来自用户在一 ...
Hive查询表，返回数据全是NULL
情况1: hive> create table users(id int, name string); hive> load data local inpath '/usr/local/u ...
更新Bash路径的缓存
---恢复内容开始--- 1.登陆一个新的vps时候,发现git的版本是1.8的,太久了,于是就源码安装了新的版本2.4. 2.老版本在/usr/bin/git,新版本安装的/usr/local/bi ...
AutoHotKey入门
首先它要编译.ahk后缀的脚本才能执行.脚本里再写键盘触发监听之类的逻辑. 所以并非单单只是热键启动那么简单,可以组合出复杂的功能,甚至支持正则表达式理论上扩展性比按键精灵差,易用性大大优于按键精灵 ...
iOS获取当前设备方向
三种方式: self.interfaceOrientation [[UIApplication sharedApplication] statusBarOrientation] [[UIDevice ...
【转】Cocos2d-x 3.1.1 学习日志6--30分钟了解C++11新特性
[转]Cocos2d-x 3.1.1 学习日志6--30分钟了解C++11新特性 Cocos2d-x 3.1.1 学习日志6--30分钟了解C++11新特性
快速解读GC日志
本文是 Plumbr 发行的 Java垃圾收集指南的部分内容.文中将介绍GC日志的输出格式, 以及如何解读GC日志, 从中提取有用的信息.我们通过 -XX:+UseSerialGC 选项,指定JVM ...
spring security 一个能够为基于Spring的企业应用系统提供声明式的安全访问控制解决方案的安全框架
Spring Security是一个能够为基于Spring的企业应用系统提供声明式的安全访问控制解决方案的安全框架.它提供了一组可以在Spring应用上下文中配置的Bean,充分利用了Spring ...

手动爬虫之淘宝笔记本栏（ptyhon3）

手动爬虫之淘宝笔记本栏（ptyhon3）的更多相关文章

随机推荐

热门专题