python 抓取美丽说店铺的宝贝图片及详细信息的实现（爬虫）

对于页面的抓取，我们使用的是requests，现在大部分的网站都支持动态加载，我们在firefox f12后查找动态的url ：http://www.meilishuo.com/aj/shop_list/goods?frame=1&page=0&shop_id=1001072849，这里的frame是变化的，因此我们只需要请求该网址即可，在请求的header中出现nt 参数，而且nt参数是变化的，我们猜测这可能是随时间变化的，而且是有有效期的；我们的工作是如何取得第一次的nt值？我们在访问http://www.meilishuo.com/shop/1001072849 返回的页面中找到了nt的值，ok 工作顺利解决

#-*- coding:utf-8 -*-

import re

import requests

import codecs

import simplejson

if __name__=="__main__":

	session=requests.Session()

	search_header={'Host':'www.meilishuo.com',

				   'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:40.0) Gecko/20100101 Firefox/40.0',

				   'Accept':'application/json, text/javascript, */*; q=0.01',

				   'Accept-Language':'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',

				   'Accept-Encoding':'gzip, deflate',

				   'X-Requested-With':'XMLHttpRequest',#异步加载ajax

				   'Referer':'http://www.meilishuo.com/shop/1001072849',

				   'Connection':'keep-alive'}

	response=requests.get('http://www.meilishuo.com/shop/1001072849?frm=rate_to_shop')

	info=re.search('\"nt\":\"(.+?)\",',response.content)

	search_header['nt']=info.group(1)#在header中增加nt选项

	info1=re.search('<script>Meilishuo.config.poster0 = (.+?);fml.vars.notFluid = true;</script>',response.content)#取得静态页面的info

	b=simplejson.loads(info1.group(1))

	totalNum = b['totalNum']#取得页数

	page = int(totalNum)/20

	for i in range(page+1):

		a=requests.get('http://www.meilishuo.com/aj/shop_list/goods?frame='+str(i)+'&page=0&shop_id=1001072849',headers=search_header)

		print a.headers

		j_a=simplejson.loads(a.content)

		print len(j_a['tInfo'])

未完待续，接下来的就是要把宝贝的url保存下来并保存为为本地图片

for key in j_a['tInfo']:
                r=requests.get(key['goods_img'])
                with open(key['goods_title']+".jpg","wb") as title:
                        title.write(r.content)

python 抓取美丽说店铺的宝贝图片及详细信息的实现（爬虫）的更多相关文章

Python抓取糗事百科成人版图片
最近开始学习爬虫,一开始看的是静觅的爬虫系列文章,今天看到糗事百科成人版,心里就邪恶了一下,把图片都爬下来吧,哈哈~ 虽然后来实现了,但还是存在一些问题,暂且不提,先切入正题吧,没什么好说的,直接上代 ...
python抓取bing主页背景图片
最初Python2写法: #!/usr/bin/env python # -*- coding:utf-8 -*- # -*- author:nancy -*- # python2抓取bing主页所有 ...
使用 Python 抓取欧洲足球联赛数据
Web Scraping在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤数据的采集和获取数据的清洗,抽取,变形和装载数据的分析,探索和预测 ...
python抓取性感尤物美女图
由于是只用标准库,装了python3运行本代码就能下载到多多的美女图... 写出代码前面部分的时候,我意识到自己的函数设计错了,强忍继续把代码写完. 测试发现速度一般,200K左右的下载速度,也没有很 ...
python抓取知乎热榜
知乎热榜讨论话题,https://www.zhihu.com/hot,本文用python抓取下来分析 #!/usr/bin/python # -*- coding: UTF-8 -*- from ur ...
Python抓取视频内容
Python抓取视频内容 Python 是一种面向对象.解释型计算机程序设计语言,由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991年.Python语法简洁而清晰,具 ...
Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...
python抓取网页例子
python抓取网页例子最近在学习python,刚刚完成了一个网页抓取的例子,通过python抓取全世界所有的学校以及学院的数据,并存为xml文件.数据源是人人网. 因为刚学习python,写的代码 ...
Python抓取页面中超链接(URL)的三中方法比较(HTMLParser、pyquery、正则表达式) <转>
Python抓取页面中超链接(URL)的3中方法比较(HTMLParser.pyquery.正则表达式) HTMLParser版: #!/usr/bin/python # -*- coding: UT ...

随机推荐

linux SPI驱动——spi core（四）
一: SPI核心,就是指/drivers/spi/目录下spi.c文件中提供给其他文件的函数,首先看下spi核心的初始化函数spi_init(void). 1: static int __init s ...
TP实例化模型的两种方式 M() D()
TP框架中实例化模型的两种方式 #如果使用自己自定义的函数,那么就用D $mode=D('model'); #如果使用是系统自带的函数,那么就是用M $model=M('model');
opensearch空查询
query子句不支持为空的查询,可以使用filter子句:filter=area="" 或者 filter=filedlen(area)=0 可以使用相关性函数实现:https ...
python 基础 9.2 mysql 事务
一. mysql 事务 MySQL 事务主要用于处理操作量大,复杂度高的数据.比如,你操作一个数据库,公司的一个员工离职了,你要在数据库中删除它的资料,也要删除该人员相关的,比如邮箱,个人资产等 ...
Richard Stallman's computer
What hardware do you use? I am using a Lemote Yeelong, a netbook with a Loongson chip and a 9-inch d ...
微信小程序原生代码转wepy 字符串处理
import globimport os cwd = os.getcwd()sep = os.septarget = cwd + sep + 'pages' + sep + '*' + sep + ' ...
VM tools安装错误The path "" is not a valid path to the xx generic kernel headers.
VMWARE TOOLS安装提示THE PATH IS NOT A VALID PATH TO THE GENERIC KERNEL HEADERSI solved this problem, I g ...
Mac下php版本不支持imagetfftext函数问题
brew rm freetype jpeg libpng gd zlib brew install freetype jpeg libpng gd zlib brew install php71 ht ...
使用appium和testng实现Android自动截图
简单介绍需求场景是:当测试安卓应用的脚本得到失败结果时,对当前手机屏幕截图,便于查找问题. 实现方式是:1)定义一个父类UITest,作为所有测试类的父类.在父类中UITest中定义一个截图的方法, ...
tensorflow：typeerror：‘noneType’ object is not callable
程序运行报错 typeerror: ‘noneType’ object is not callable 解决方法:删除缓存文件,再次运行没有错误删除__pycache__文件夹

python 抓取美丽说店铺的宝贝图片及详细信息的实现（爬虫）

python 抓取美丽说店铺的宝贝图片及详细信息的实现（爬虫）的更多相关文章

随机推荐

热门专题