python爬虫——与不断变化的页面死磕和更新换代（3）

　　经过上一次的实战，手感有了，普罗西（雾）池也有了，再战taobao/tmall

　　试着使用phantomJS爬手机端，结果发现爬来的tmall页面全是乱码，taobao页面xpath识别错误。一顿分析了之后才发现：TMD我的python2会把编码搞乱，phantomJS不支持手机独有的tap()操作！！！

　　幸好之前还分析了下taobao的sign。sign是一串数字组合再进行md5的32bit加密。md5(c.token + "&" + new Date().getTime() + "&" + appKey + "&" + b.data)，里面的token = new Date().getTime()+":"+Math.random()（麻烦在于这玩意儿是页面代码，就是说必须先获得主页面的token才能进去，这样这个JS的解析步骤就不能少，更惨的是老夫还不会在phantomJS里抓包），这是解开taobao商品页面sign的关键；kissy的_ksTS里前面一段是unix时间戳，右边是随机数字，jsonp右边的数字就是这个随机数字+1

　　某些关键词的大多数商品是tmall，所以数据损失倒也不大。taobao先慢慢phantomjs吧。

　　然后就升级了python3，以破解乱码

　　之后经过了蛋疼的写入文件乱码，在write()加入encoding='utf-8'就解决了

　　爬电脑端淘宝咯~~结果页面的xpath老是解析错误？？

　　而且每次的出错信息还不带重样的？看情况，返回的页面class名还不一样？

　　回去研究下解决了，如果重复载入同一url太多，后面几个页面都是只留一半商品信息，下一页按钮都不加载出来的。

　　偏偏这个按钮的class是唯一的（这个在爬虫正常运作时是优势，但是爬虫爬到的网页稍有差错就直接崩）

　　后来用原url做了下实验，发现如果慢慢下拉了n次，路径点上的信息就会加载出来。

　　等待几秒再刷新，也可以完整加载（上述现象的原因可能仅仅是这个。。。）

python爬虫——与不断变化的页面死磕和更新换代（3）的更多相关文章

Python爬虫 | re正则表达式解析html页面
正则表达式(Regular Expression)是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符"). 正则表达式通常被用来匹配.检索.替换和 ...
python 爬虫之requests爬取页面图片的url，并将图片下载到本地
大家好我叫hardy 需求:爬取某个页面,并把该页面的图片下载到本地思考: img标签一个有多少种类型的src值?四种:1.以http开头的网络链接.2.以“//”开头网络地址.3.以“/”开头绝对 ...
python爬虫之路——初识基本页面构造原理
通过chrome浏览器的使用简单介绍网页构成 360浏览器使用右键审查元素,Chrome浏览器使用右键检查,都可查看网页代码. 网页代码有两部分:HTML文件和CSS样式.其中有<script& ...
Python 爬虫-爬取京东手机页面的图片
具体代码如下: __author__ = 'Fred Zhao' import requests from bs4 import BeautifulSoup import os from urllib ...
python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...
python爬虫爬取页面源码在本页面展示
python爬虫在爬取网页内容时,需要将内容连同内容格式一同爬取过来,然后在自己的web页面中显示,自己的web页面为django框架首先定义一个变量html,变量值为一段HTML代码 >&g ...
python爬虫的页面数据解析和提取/xpath/bs4/jsonpath/正则(1)
一.数据类型及解析方式一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值.内容一般分为两部分,非结构化的数据和结构化的数据. 非结构化数据:先有数据,再有结构, 结构化数 ...
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(人人网)（下）
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(下) 自动使用cookie的方法,告别手动拷贝cookie http模块包含一些关于cookie的模块,通过他们我们可以自动的使用co ...
Python爬虫教程-12-爬虫使用cookie爬取登录后的页面(人人网)（上）
Python爬虫教程-12-爬虫使用cookie(上) 爬虫关于cookie和session,由于http协议无记忆性,比如说登录淘宝网站的浏览记录,下次打开是不能直接记忆下来的,后来就有了cooki ...

随机推荐

115、如何构建Android MVVM 应用框架（转载）
转载:http://android.jobbole.com/85198/
css3 - 纯css实现一个轮播图
这是我上一次的面试题.一晃两个月过去了. 从前都是拿原理骗人,把怎么实现的思路说出来. 我今天又被人问到了,才想起来真正码出来.码出来效果说明一切: 以上gif,只用到了5张图片,一个html+css ...
【消灭代办】第4周 - Echarts在移动端的各种填坑姿势
啊呀呀呀呀...... 2018-12-03 代办一:坐标指示器相关问题: 见另一篇第二问:https://www.cnblogs.com/padding1015/p/9936533.html 20 ...
[Sublime] Sublime Text 3126 lincense
—– BEGIN LICENSE —– Michael Barnes Single User License EA7E- 8A353C41 872A0D5C DF9B2950 AFF6F667 C45 ...
git纯净提交代码（只提交自己改过的文件）
添加远程仓库,这个远程仓库是要进行发起合并请求的仓库,简单来说就是项目的主要代码库,不是自己派生的代码库 git remote add main http://xxx 从远端仓库下载新分支与数据gi ...
linux 系统全盘恢复
恢复备份一.准备 1. 从 u盘启动,进入 live-cd 系统,配置好网络和镜像源,更新一下仓库的数据库. sudo pacman -Syy 2. 安装 timeshift 这个软件. sudo ...
python学习之旅（六）
Python基础知识(5):基本数据类型之字符串(Ⅱ) 字符串方法 17.join:对字符串进行拼接 x="can" y="li" y.join(x) 结果: ...
maven学习之pom.xml或settings.xml对nexus的配置（转）
(1)在POM中配置Nexus仓库 <project> ... <repositories> <repository ...
vlan之间的通信-单臂路由与三层交换之间的互通
注:本试验基于单臂路由通信,三层交换通信,请完成以上两个实验,并保证能够通信熟练掌握单臂路由的配置熟练掌握三层交换的配置三层交换与单臂路由的互通实验原理三层交换机在原有二层交换机的基础之上增 ...
vim创建程序文件自动添加头部注释/自动文件头注释与模板定义
Vim 自动文件头注释与模板定义在vim的配置文件.vimrc添加一些配置可以实现创建新文件时自动添加文件头注释,输入特定命令可以生成模板. 使用方法插入模式输入模式输入seqlogic[Ente ...

python爬虫——与不断变化的页面死磕和更新换代（3）

python爬虫——与不断变化的页面死磕和更新换代（3）的更多相关文章

随机推荐

热门专题