最近在学Python的爬虫,顺便就练习了一下爬取淘宝上的淘女郎信息:手法简单,由于淘宝网站本上做了很多的防爬措施,应此效果不太好!

爬虫的入口:https://mm.taobao.com/json/request_top_list.htm?type=0&page=0

本人代码如下:请各位高人多指教,请留言,不胜感激!!

#_*_coding:utf-8_*_
import unicodedata
import urllib.request
import re
import os
root_url="https://mm.taobao.com/json/request_top_list.htm?type=0&page=" def HexStr2Unicode(Hex_Str):
Unicde_Str = ""
for i in range(0,len(Hex_Str)//4):
chr(int(Hex_Str[i*4:i*4+4], 16))
Unicde_Str += chr(int(Hex_Str[i*4:i*4+4], 16))
return Unicde_Str
def getSiteSet(url):
'''根据传入的roo_url获取到每个淘女郎的个人网址,以及每个淘女郎的名字'''
page=urllib.request.urlopen(url)
cont=page.read()
cont=cont.decode(encoding="gbk")#很关键,原网页淘宝的是gbk编码
# print(cont)
pattern1=r'href=".{1,35}\.htm" target='#匹配个人网址的正则表达式
pattern2=r'class="lady-name" href=".{1,100}<\/a>'#匹配个人名字的表达式
# print(cont)
SiteSet={}
i=1
try:
while len(cont)>5:
matchObj=re.search(pattern1,cont,re.M).group()
nameObj=re.search(pattern2,cont,re.M).group()
# print("------->",matchObj)
if matchObj:
site='https:'+(matchObj[6:-9])
id1=nameObj.find(">")
id2=nameObj.find("<")
# print(name)
name=nameObj[id1+1:id2]
# print("网站地址%d: "%i,site)
# print("淘女郎名字:",name)
SiteSet[name]=site
index=cont.find(nameObj)
i+=1
else:
print("没有匹配上") cont=cont[index+2:]
except:
# import traceback
# traceback.print_exc()
print("*********Match error****************")
return SiteSet # SiteSet=getSiteSet("https://mm.taobao.com/json/request_top_list.htm?type=0&page=0") def getImgSet(site_url):
'''根据某个具体的网址,获取该网址中所有图片的路径'''
page=urllib.request.urlopen(site_url)
cont=page.read().decode("gbk").encode("utf-8")
cont=str(cont,encoding="utf-8")
pattern=r'src=\"\/\/.{0,150}(.jpg|.png)\"'
ImgSet=[]
index=0
i=1
try:
while len(cont)>100: matchObj=re.search(pattern,cont,re.M).group()
# print("------->",matchObj)
if matchObj:
img='https:'+(matchObj[5:-1])
# print("图片地址%d: "%i,img)
ImgSet.append(img)
index=cont.find(matchObj)
i+=1
else:
print("没有匹配上") cont=cont[index+len(matchObj[5:-1]):]
except:
print("-----------------------") return ImgSet # ImgSet=getImgSet("https://mm.taobao.com/434479822.htm")
# ImgSet=set(list(ImgSet))#集合元素去重 def getIconSet(url):
'''根据roo_url,获取每个淘女郎的头像icon图片'''
page=urllib.request.urlopen(url)
cont=page.read()
cont=str(cont)
head="<img src="
tail=".jpg"
k=1
IconSet=[]
while k!=0:
id1=cont.find(head)
id2=cont.find(tail,id1)
if id1==-1 or id2==-1:
k=0
break
else:
icon="https:"+cont[id1+len(head)+1:id2+len(tail)]
cont=cont[id2:]
IconSet.append(icon)
print(icon)
return IconSet
#我们可以使用自己定义的auto_down()来代替python的urllib.urlretrieve()函数,实现我们自动重新下载的目标。
# tips:新下载的文件会覆盖原来下载不完全的文件。
def auto_down(url,filename):
'''使用自定义的方法进行下载文件,如果下载失败,还可以继续下载覆盖原来的文件'''
try:
# 添加头部信息,模仿浏览器,但是淘宝对于爬虫的爬取,做了很多防爬的措施,因此,及时添加了header头部信息,效果也并不好
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}
req = urllib.request.Request(url=url, headers=headers)
urllib.request.urlretrieve(url,filename)
except urllib.request.ContentTooShortError:
print('Network conditions is not good.Reloading.')
auto_down(url,filename) # urllib.request.urlopen(req).read()
base =r"C:\Users\wujian\Desktop\python学习\TaobaoGirlImg\\"
for i in range(1,6):
url=root_url+str(i)
SiteSet=getSiteSet(url)
for site in SiteSet.keys():
i=1
filename=base+site
os.mkdir(filename)# 创建文件夹
print(filename)
ImgSet=getImgSet(SiteSet[site])
ImgSet=set(list(ImgSet))
for imgurl in ImgSet:
# print(imgurl)
file_name=filename+"\\"+str(i)+".jpg"
auto_down(imgurl,file_name)
i+=1

爬虫--爬取淘宝信息

简单的python爬虫--爬取Taobao淘女郎信息的更多相关文章

  1. 一个简单的python爬虫,爬取知乎

    一个简单的python爬虫,爬取知乎 主要实现 爬取一个收藏夹 里 所有问题答案下的 图片 文字信息暂未收录,可自行实现,比图片更简单 具体代码里有详细注释,请自行阅读 项目源码: # -*- cod ...

  2. Python爬虫-爬取京东商品信息-按给定关键词

    目的:按给定关键词爬取京东商品信息,并保存至mongodb. 字段:title.url.store.store_url.item_id.price.comments_count.comments 工具 ...

  3. python爬虫爬取汽车页面信息,并附带分析(静态爬虫)

    环境: windows,python3.4 参考链接: https://blog.csdn.net/weixin_36604953/article/details/78156605 代码:(亲测可以运 ...

  4. python爬虫爬取全球机场信息

    --2013年10月10日23:54:43 今天需要获取机场信息,发现一个网站有数据,用爬虫趴下来了所有数据: 目标网址:http://www.feeyo.com/airport_code.asp?p ...

  5. python爬虫抓取哈尔滨天气信息(静态爬虫)

    python 爬虫 爬取哈尔滨天气信息 - http://www.weather.com.cn/weather/101050101.shtml 环境: windows7 python3.4(pip i ...

  6. 用Python爬虫爬取广州大学教务系统的成绩(内网访问)

    用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...

  7. 使用Python爬虫爬取网络美女图片

    代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作 安装python3.6 略 安装requests库(用于请求静态页面) pip install ...

  8. Python爬虫 - 爬取百度html代码前200行

    Python爬虫 - 爬取百度html代码前200行 - 改进版,  增加了对字符串的.strip()处理 源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...

  9. Python爬虫|爬取喜马拉雅音频

    "GOOD Python爬虫|爬取喜马拉雅音频 喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...

随机推荐

  1. ant.design初探

    第一部分: 前言 推荐网站: https://ant.design/docs/spec/introduce-cn ant.design是基于react开发的一个解放ui和前端的工具,它提供了一致的设计 ...

  2. 关于display:none;和id特性的一些需要注意的地方

    关注点一: display:none;一旦用于某个元素,那个这个元素在页面中就不再占据位置. visibility:hidden;用于某个元素时,这个元素还会占据位置. 关注点二: 即使使用了disp ...

  3. 我的Python升级打怪之路【三】:Python函数

    函数 在函数之前,我们一直遵循者:面向过程编程,即:根据业务逻辑从上到下实现功能,开发过程中最常见的就是粘贴复制.代码就没有重复利用率. 例如:有好多的重复的代码 if 条件: 发送指令 接收结果 e ...

  4. 关于myeclipse加载building workspace卡顿的解决办法

    在MyEclipse的使用中,在建立新文件或者改动代码后,经常会出现building workspace半天卡顿不动的情况,如果开的程序过多,经常会发生失去响应,电脑要是再烂点,直接死机的情况也常有发 ...

  5. nginx基本配置说明

    nginx基本配置与参数说明                         1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 2 ...

  6. [PY3]——找出一个序列中出现次数最多的元素/collections.Counter 类的用法

    问题 怎样找出一个序列中出现次数最多的元素呢? 解决方案 collections.Counter 类就是专门为这类问题而设计的, 它甚至有一个有用的 most_common() 方法直接给了你答案 c ...

  7. Java finally关键字

    关于finally语句块,有如下特点: 1.finally语句块可以直接和try语句块联用.try...finally... 2.try...catch...finally也可以 3.通常在final ...

  8. div按照屏幕尺寸(设备大小)进行缩放

    原理:利用css3 transform 属性 代码: body{ width: 810px; height: 340px; margin: 0px; padding: 0px; background- ...

  9. Java测试工具使用(1)--Junit

    在进行测试之前需要导入junit的两个包,分别是 junit:4.12;hamcrest-core:1.1 1.基本测试标签 @Test.@Before.@After 2.组测试 有时候多个测试文件, ...

  10. 运行tomcat7w.exe,提示:指定的服务未安装unable to open the service tomcat7

    这是服务没安装,到tomcat的bin目录下运行 service.bat install 即可