S是类似产品页数  bcoffset直流偏移。

有人在将偏移量:http://www.cnblogs.com/defineconst/p/6185396.html

item.taobao.com/item.htm?参数。常见参数如下
&spm  流量来源
&id 淘宝id
&ali_trackid 阿里妈妈id
&ali_refid

--------官方解析文档-----------

淘宝开放平台 - 文档中心
http://open.taobao.com/docs/doc.htm?articleId=959&docType=1&treeId=null

-----for instance----

SPM编码:用来跟踪页面模块位置的编码,标准spm编码由4段组成,采用a.b.c.d的格式(建议全部使用数字),其中,

  • a代表站点类型,对于xTao合作伙伴(外站),a为固定值,a=2014
  • b代表外站ID(即外站所使用的TOP appkey),比如您的站点使用的TOP appkey=123456789,则b=123456789
  • c代表b站点上的频道ID,比如是外站某个团购频道,某个逛街频道,某个试用频道 等
  • d代表c频道上的页面ID,比如是某个团购详情页,某个宝贝详情页,某个试用详情页 等

-淘宝课程不错哎╮( ̄▽ ̄")╭---

开放平台学院
http://xue.open.taobao.com/video/list.htm?spm=a219a.8199539.2232181.2.nD4HG7

-------------------------------

改日再测,,,网速渣。。。

原文:淘宝网有哪些鲜为人知的使用技巧
http://www.zhifuwang.cn/news/zhaoshangzhengce/79293.html

操作链接:
http://www.alimama.com/index.htm?spm=a2320.7874452.a31ci.1.LD83zb

扫码登录账号-》营销平台-》 淘宝客

-------------------------------------------------------

目标软件:

网络信息采集大师
http://www.onlinedown.net/soft/39355.htm

NetGet
http://www.jb51.net/softs/237543.html

-----------------------------------

Q:

1去掉一些无用的参数不会影响最终到达的网页

--------------

2.

通过对象属性不明觉厉

>>> class website:
def __init__(self,name,type):
self.name,self.type = name,type
def __str__(self):
return 'Website name: {self.name}, Website type: {self.type} '.format(self=self)
>>> print (str(website('pythontab', 'python')))
Website name: pythontab.com, Website type: python
>>> print website('pythontab', 'python')
Website name: pythontab, Website type: python

全文参考python强大的字符串格式化函数 (为什么要折一下啊,为什么呢,不然不给通过啊)

http://www.pytho

ntab.com/html/2016/pythonjichu_0722/1049.html

PyFormat: Using % and .format() for great good!
https://pyformat.info/

-----------------re--

Python3 正则表达式 | 菜鸟教程:
http://www.runoob.com/python3/python3-reg-expressions.html

pythonsplit 切片规则:

http://www.runoob.com/python/att-string-split.html

实例

以下实例展示了split()函数的使用方法:

#!/usr/bin/python

str = "Line1-abcdef \nLine2-abc \nLine4-abcd";
print str.split( );
print str.split(' ', 1 );

以上实例输出结果如下:

['Line1-abcdef', 'Line2-abc', 'Line4-abcd']
['Line1-abcdef', '\nLine2-abc \nLine4-abcd'] ----找错版------------

# -*- coding: utf-8 -*-
"""
Created on Mon Apr 3 23:51:17 2017

@author: Administrator
"""

import requests
import re

def getHtmlText(url):
try:
r = requests.get(url, timeout = 30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""

def parseHtml(html):
plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"'.split(':')[1])
tlt = re.findall(r'\"raw_title\"\:\".*?\"'.split(':')[1])
for i in len(plt):
ulist.append([plt[i],tlt[i]])

def printHtml(html,list):
flt = "{:10}\t{:10}\t{:10}"
count = 0
for g in list:
count = count +1
print(flt.format("序号","价格","商品名称"))
print(count,ulist.plt[i],ulist.tlt[i])

def main():
goods="商品"
depth = 2
start_url = "http://s.taobao.com/search?q="+ goods
ulist = []
r = getHtmlText(url)
for i in depth:
url = start_url + '&s=' + str( 44 * i)
parseHtml(url)
printHtml(html,ulist)

main()

-------最后一遍显然还是有毛病----1.渣速只有晚上跑得动 2.明明是书包,却跑出了屎3.以后再解决吧,毕竟无能为力--------

# -*- coding: utf-8 -*-
"""
Created on Tue Apr 4 00:35:49 2017

@author: Administrator
"""

import re
import requests

def getHtml(url):
try:
r = requests.get(url, timeout = 30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""

def parseHtml(uinfolist,html):
try:
plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html)
tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)
for i in range(len(plt)):
price = eval(plt[i].split(':')[1])
title = eval(tlt[i].split(':')[1])
uinfolist.append([price,title])
except:
print("")

def printHtml(uinfolist):
ptlt = '{:10}\t{:10}\t{:15}'
print(ptlt.format("序号","价格","商品名称"))
count = 0
for g in uinfolist:
count = count + 1
print(ptlt.format(count,g[0],g[1]))

def main():
print('----------------------')
goods = '书包'
start_url = "http://s.taobao.com/search?="+goods
depth = 2
ulist = []
for g in range(depth):
try:
url = start_url + '&q=' + str (44 * g)
m = getHtml(url)
parseHtml(ulist,m)
except:
continue
printHtml(ulist)

main()
-----

----------------------
序号 价格 商品名称
1 99.00 【订金】斯柯达 Yeti 2016款 2年0利率 整车订金
2 99.00 【订金】斯柯达 全新晶锐车享定制版 2年0利率 整车订金
3 39.00 德国美耐特®游标卡尺0-150mm-200mm-300mm卡尺高精度非不锈钢包邮
4 27.65 春秋新男女宝宝鞋婴儿软底防滑学步鞋休闲鞋0-1岁运动鞋幼儿鞋子
5 16.80 正品秒杀塑料电子数显0-100150mm迷你小卡尺文玩珠宝测量游标卡尺
6 98.00 广陆量具0-150mm电子数显卡尺 原点不锈钢游标卡尺高精度测量工具
7 38.00 春季男女宝宝鞋子0-1岁学步鞋软底婴儿鞋新生幼儿单鞋真皮羊皮
8 55.00 锦丰五金 电子数显卡尺 游标卡尺不锈钢0-150-200-300mm
9 28.00 0-6-12个月春秋婴儿鞋子新生幼儿不掉鞋男女宝宝鞋袜软底学步鞋
10 29.90 宝宝学步鞋春夏季婴儿鞋子软底防滑男童女童0-1岁步前鞋幼儿布鞋
11 49.00 婴儿鞋子0-6-12个月男女宝宝学步鞋春秋1-3岁新生儿软底步前布鞋
12 42.00 0-6-12个月3学步鞋7女宝宝1岁5春秋冬9婴儿鞋子8软底春鞋春季棉鞋
13 69.50 卡茨格儿学步鞋女宝宝 凉鞋男婴儿凉鞋包头0-1-2岁软底防滑幼儿鞋
14 89.00 泰兰尼斯婴儿学步鞋软底宝宝叫叫鞋卡通幼儿不掉鞋子0-1-3岁春秋
15 68.00 卡特兔母婴旗舰店婴儿鞋子0-6个月软底防滑新生儿男女宝宝学前鞋
16 27.00 婴儿步前鞋春秋新款宝宝室内地板鞋0-2家居婴儿鞋防滑软底学步鞋
17 36.00 宝宝鞋子1-3岁鞋男软底婴儿鞋布鞋春秋学步鞋2岁女宝宝0-1叫叫鞋
18 22.00 运动款0-12个月婴儿鞋软底宝宝学步鞋格子0-1岁男女婴幼鞋子
19 19.90 2017学步鞋幼儿软底女宝宝鞋0-1-3岁男童鞋单鞋网面鞋子2婴儿春款
20 59.00 2016秋季新款宝宝学步鞋女0-6岁软底小白鞋时尚韩版男童婴儿单鞋
21 45.00 2017春0-1岁真皮婴儿单鞋学步鞋 2岁女宝宝幼儿公主单鞋软底鞋子
22 19.90 婴儿鞋子0-1-2岁女宝宝单鞋2017春季新款软底学步鞋女童公主皮鞋
23 39.00 春秋款女宝宝防滑公主鞋0-3岁婴儿软底学步鞋幼儿礼服鞋儿童单鞋
24 39.50 天天特价春季宝宝鞋学步鞋婴儿鞋软底0-1岁3小白鞋男女童运动单鞋
25 28.80 春秋冬季女宝宝学步布鞋单鞋0-1周岁男婴儿春鞋6软底小鞋子12个月
26 28.80 3四45-6七7八8九9-12个月男婴儿春秋装鞋子0-1岁女宝宝软底不掉鞋
27 29.00 婴儿秋冬季纯手工毛线宝宝软底鞋加绒加厚前步前鞋0-3-6-9-12个月
28 21.77 0-6-12个月学步鞋春秋新生幼儿男女1岁宝宝鞋袜单鞋婴儿鞋子软底
29 39.80 叮当小猪2017春季新款童鞋真皮儿童单鞋0-1-2-3岁男女宝宝学步鞋
30 57.82 0-1岁半女婴儿鞋子软底防掉学步鞋男宝宝9春秋款透气7九8十个月11
31 26.90 婴儿鞋子软底 学步鞋0-1岁宝宝鞋子男女宝春秋透气防脱布鞋薄
32 29.90 0-1岁新生婴幼儿软底鞋 男女宝宝魔术贴时尚运动学步鞋
33 149.00 玛乔宝宝机能鞋男童软底防滑婴儿学步鞋女童凉鞋0-1-3岁1612
34 27.09 皮鞋小童单鞋软底鞋女童学步女宝婴幼鞋子公主春季0-1-2-3岁儿
35 45.00 2017春款宝宝鞋真皮学步鞋0-1-2-3岁男女婴儿鞋子软底单鞋儿童鞋
36 91.00 0-1-2-3岁小女孩鞋单鞋春秋季 一周岁半女宝宝软底公主皮鞋学步鞋
37 4.00 stc89c52rc 40i lqfp lqfp44 89c52 lqfp44g
38 19.98 乐呵呵红米note2电池1S正品2A手机note小米2S原装BM20 44 42 45
39 239.00 【天猫超市】日本进口 花王妙而舒纸尿裤XL44片2包装通用型尿不湿
40 28.00 山地自行车44mm直管培林碗组44/56 42/52 椎管50.6小锥管轴承碗组
41 50.00 多省包邮大号麻将牌 中大号40 42 44家用麻将 手搓麻将 四川麻将
42 25.00 MEROCA 超轻轴承 培林碗组 山地自行车车头 44mm内置 直管碗组
43 99.80 家用特一级中大号高档手搓麻将牌送麻将布 无瑕疵38 40 42 44MM
44 84.98 正品38--44MM晶玉 玉石色耐磨中号大号家用手搓麻将牌送麻将桌布
45 89.00 正品38-44MM卡通竹丝双层大号加厚家用手搓麻将牌 送麻将桌布
46 35.00 华硕X44H K42D X43S A43S X42J X84H A42JC K42J笔记本键盘A83S
47 2.40 贴片 全新原装 STC89C52RC-40I-LQFP44 串口编程(程序下载)单片机
48 40.00 多省包邮大号麻将牌 中大号40 42 44家用麻将 手搓麻将 四川麻将
49 105.00 彩色玉石麻将40中 42大号 44高档家用麻将牌 手搓麻将 无瑕疵包邮
50 68.20 棋牌室全自动四口机专用40麻将机麻将牌中号42正磁38mm44大号4648
51 69.30 捷安特ATX770 777 XTC800 820小锥管转换直管44-50.6mm双培林碗组
52 40.00 景晔44mm直管内置隐藏式双培林轴承碗组山地车自行车腕组28.6前叉
53 16.00 shimano浩盟中空牙盘修补盘片22T 32T 44T牙盘修补齿片 盘片
54 95.00 包邮全自动四口麻将机专用机用麻将牌正磁正品40mm42mm44大号46mm
55 10.90 护盘 牙盘罩山地公路自行车万能大齿盘保护罩42/44齿链罩牙盘护罩
56 6.40 Risym STC12C5A60S2-35I-LQFP44G 12C5A60S2 单片机
57 125.00 全国包邮 送桌布筹码 特一级家用中大号手打麻将38-44MM正品麻将
58 3.80 Risym STC89C52 STC89C52RC-40I-LQFP44G 单片机LQFP44 工业级
59 19.80 死飞牙盘死飞自行车单车44T铁牙盘齿盘700C死飞轮盘含左右曲柄
60 60.00 四口机专用机用自动麻将牌正磁一级40mm42mm一级品46大号麻将44号
61 55.00 ATX770d培林XTC碗组750轴承44-50.6锥管758转777直管790腕组44-56
62 8.00 步进电机驱动板 A3967 EasyDriver Stepper Motor Driver V44
63 38.00 包邮 一级家用麻将牌 特大号手搓108张四川麻将 40 42 44中号
64 11.20 ATMEGA32U4-AU QFP44 全新原装担保 进口现货 单片机 可直接拍下
65 93.50 SHIMANO喜玛诺ACERA FC-M391牙盘 9速27速山地车方孔M390牙盘 44T
66 18.80 死飞牙盘死飞自行车单车44T铁牙盘齿盘700C死飞轮盘含左右曲柄
67 89.00 家用手搓仿玉石40 42 44MM彩色高档麻将牌 中号 大号麻将送桌布垫
68 65.00 全自动四口麻将机专用麻将牌 家用麻将牌中号 40 42mm44 46可手搓
69 3.78 单片机 AT89S52-24AU AT89S52 TQFP44 原装正品现货
70 80.00 原装V3正品 TL866A TL866CS通用编程器专用TSOP48-SOP44适配器座
71 8988.00 E5 2696V4正式版 22/44 2.2G满载2.8G
72 40.00 17款SWTXO直管44mm内置隐藏式培林轴承碗组死飞碗组山地自行车
>>>

 

python-淘宝信息定向爬取的更多相关文章

  1. Python淘宝商品比价定向爬虫

    1.项目基本信息 目标: 获取淘宝搜索页面的信息,提取其中的商品名称和价格理解: 淘宝的搜索接口.翻页的处理 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道 ...

  2. python 简单实现淘宝关键字商品爬取

    本文有2个文件 1:taobao_re_xpath 2:taobao_re_xpath_setting # 1:taobao_re_xpath # -*- coding:utf-8 -*- # aut ...

  3. selenium实现淘宝的商品爬取

    一.问题 本次利用selenium自动化测试,完成对淘宝的爬取,这样可以避免一些反爬的措施,也是一种爬虫常用的手段.本次实战的难点: 1.如何利用selenium绕过淘宝的登录界面 2.获取淘宝的页面 ...

  4. [python爬虫] Selenium定向爬取PubMed生物医学摘要信息

    本文主要是自己的在线代码笔记.在生物医学本体Ontology构建过程中,我使用Selenium定向爬取生物医学PubMed数据库的内容.        PubMed是一个免费的搜寻引擎,提供生物医学方 ...

  5. [python爬虫] Selenium定向爬取海量精美图片及搜索引擎杂谈

    我自认为这是自己写过博客中一篇比较优秀的文章,同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的.首先通过这篇文章,你能学到以下几点:        1.可以了解Python简单爬取图片的一些思路和方法 ...

  6. Python网络爬虫与如何爬取段子的项目实例

    一.网络爬虫 Python爬虫开发工程师,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页 ...

  7. Python_记一次网站数据定向爬取实现

    记一次网站数据定向爬取实现 by:授客 QQ:1033553122 测试环境: Python版本:Python 3.4 Win7 请勿用于商业及非法用途,仅供学习研究用,否则后果自负 数据爬取场景 如 ...

  8. Python爬虫实战二之爬取百度贴吧帖子

    大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言 亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...

  9. Python爬虫实战一之爬取糗事百科段子

    大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...

随机推荐

  1. map的put和putIfAbsent使用

    源码中传入key和value,根据key获取看是否存在value,如果value==null,然后调用put方法把传入的key和value  put进map,返回根据key获取的老value 意思就是 ...

  2. 启用Win8/10(中文版/核心版/家庭版)中被阉割的远程桌面服务端

    Windows 8/8.1/10 标准版(中文版/核心版/家庭版)中取消了远程桌面服务端,想通过远程连接到自己的电脑就很麻烦了,第三方远程桌面速度又不理想(如TeamViewer).通过以下方法可让系 ...

  3. POJ1734无向图求最小环

    题目:http://poj.org/problem?id=1734 方法有点像floyd.若与k直接相连的 i 和 j 在不经过k的情况下已经连通,则有环. 注意区分直接连接和间接连接. * 路径记录 ...

  4. POJ2584 T-Shirt Gumbo——网络最大流模板

    题目:http://poj.org/problem?id=2584 像模板一样的简单题.继续使用 & 的当前弧优化和神奇的构造函数. #include<iostream> #inc ...

  5. Vue 介绍

    1. 条件 效果图. 如果seen为false,文字将消失 2. 循环 script里定义数据 效果 3. 事件处理 效果如下图, hello world被逆转了

  6. JSP 执行流程

    一.jsp执行流程 1. 发送请求 ,请求访问jsp文件. 2. 服务器(Tomcat)提供的jsp parser 解析器解将jsp转化为java文件. jsp本质上是一个servlet. 3.ser ...

  7. hadoop框架结构介绍

    近年,随着互联网的发展特别是移动互联网的发展,数据的增长呈现出一种爆炸式的成长势头.单是谷歌的爬虫程序每天下载的网页超过1亿个(2000年数据,)数据的爆炸式增长直接推动了海量数据处理技术的发展.谷歌 ...

  8. linux $* $@ 特定位置参数

    举例说:脚本名称叫test.sh 入参三个: 1 2 3运行test.sh 1 2 3后$*为"1 2 3"(一起被引号包住)$@为"1" "2&qu ...

  9. lwip调试记录

    1. lwip在调用tcp_write后不会立即发送数据,而会等到tcp_slow_tmr中再发送.如需立即发送,可以在tcp_write后调用tcp_output.lwip的这种处理方式对连续调用t ...

  10. NB-IOT/LoRa/Zigbee无线组网方案对比

    物联网设备节点组网存在2种组网方式, 无线组网和有线组网. 无线组网我们常见到的有Zigbee,LoRa, NB-IOT等,其中Lora/NB-IOT属于LPWAN技术,LPWAN技术有覆盖广.连接多 ...