AJAX,异步加载技术!!!

之前在网上看过很多朋友有一种疑问,为什么在看京东网页的源代码里面看不到价格或则折扣一类的数据,而在网页上正常显示却能看到?。。。之前我也没有想到是AJAX,因为我写写爬虫只是业余爱好吧~~,后来有一次用chrome抓包的时候发现网页加载完成但是其还在刷新数据,突然恍然大悟!!!AJAX,之前看过一篇帖子的很多朋友都在问京东网页的源代码里面看不到价格的数据,如果您是查找这个问题的读者,恭喜您,找对地方了!!!

AJAX

AJAX即“Asynchronous Javascript And XML”(异步JavaScript和XML),是一种异步加载技术,那么,怎么才能抓到AJAX异步加载可以的request叻?好吧,这里只有细心的观察了,就像一个小偷一样的~宅在电脑前,偷偷地~偷偷滴~观察
是的就是这个链接,http://p.3.cn/prices/mgets?skuIds=J_xxxxxx,,只要你在后面输入商品的id,你就能查询到商品的折扣价格和正价,这点京东做的一点儿都不好,这个请求居然还是HTTP的GET请求,如果京东内部网络层的工作人员看到这里,你们也改进改进吧,,毕竟这是你们自己的数据呀~好吧,有了这个url,看到这里的大家,估计思路也已经出来了~~


爬虫实现基本思路

本爬虫使用的是scrapy,是一个定向爬虫,当然~好像还没有爬不到的数据,在我的理念里,只要能看到的数据,都能爬取~哈~本篇文章不会讲解scrapy的用法,之后有时间会我会写一写scrapy的基本使用方法~

Itme

#排名
number = scrapy.Field()
#图书名字
bookName = scrapy.Field()
#作者
author = scrapy.Field()
#出版社
press = scrapy.Field()
#图书id
BookID = scrapy.Field()
#正价
price = scrapy.Field()
#折扣价
PreferentialPrice = scrapy.Field()

小爬虫主体

小爬虫的脑袋~

设置开始的链接start_urls和构造一个入口def parse(self, response)
我用的是xpath来寻找节点,主要抓取每一个商品的全部信息,应该其都在一个li标签里,看图~不明白,就看图~

一个li标签就代表一个商品,还是看不懂的话自己琢磨去吧~

小爬虫的身体~

现在就是根据需求,用xpath来匹配每一个需要的数据吧~这里没什么技术含量,不做过多的讲解。如果不懂xpath或则正则的小伙伴们,自己去研究吧~有一天你也会变成大神的哦~

小爬虫的触须~AJAX异步加载请求~

首先获取id构造url

json_url = 'http://p.3.cn/prices/mgets?skuIds=J_' + BookID

正则表达式匹配出来要得到的字典

r = requests.get(json_url).text
data = json.loads(r)[0]

提取价格和折扣价格

price = data['m']
PreferentialPrice = data['p']

小爬虫的消化系统~

yield item在python中yield的用法是很神奇而美妙的,在这里也不做过多讲解,以后有时间我会写更多的关于python基本语法的文章分享

小爬虫~爬来爬去爬上爬下~

获取下一页的href,然后创建一个递归函数,爬来爬去爬上爬下~

yield Request(nextLink,callback=self.parse)

小爬虫的启动装置

不好意思,MAC的小伙伴在终端是跑步起来的,WIN系统的小伙伴有福了~能执行,也就是main文件的命令,具体怎么操作,问度娘~

from scrapy import cmdline
cmdline.execute("scrapy crawl JDSpider".split())

小爬虫诞生~

Ok,看看效果吧~

小爬虫准本就绪

开始爬取~正在激烈的爬取~

爬取结束~生成一坨~一坨~一坨~那啥吧~

小爬虫使用小提示~

  • scrapy crawl JDSpider,,最后加的是爬虫name,而不是项目名字~
  • 生成的CSV文件可能是乱码,请用可以更改编码格式的工具更改编码格式并保存~
  • 需要的环境自己配置,跑不起来报错,请百度,爬虫笔者已经亲测,可以跑~
  • 本爬虫没有设置代理,因为用于学习交流吧~
  • 本爬虫已经更改请求头里的USER_AGENT,请改为自己的吧

趴一趴京东的Ajax动态价格页面的更多相关文章

  1. Jquery书写AJAX动态向页面form传数据,清空之前的数据

    三种方式: 直接代码: 1.$("#mytable tr:gt(0)").remove(); 2.$("#mytable tr:not(:first)").em ...

  2. echarts在.Net中使用实例(二) 使用ajax动态加载数据

    通过上一篇文章可以知道和echarts参考手册可知,series字段就是用来存储我们显示的数据,所以我们只需要用ajax来获取series的值就可以. option 名称 描述 {color}back ...

  3. 11月10日上午ajax基础知识、用ajax做登录页面、用ajax验证用户名是否可用、ajax动态调用数据库

    1.ajax的基础知识 ajax是结合了jquery.php等几种技术延伸出来的综合运用的技术,不是新的内容.ajax也是写在<script>标签里面的. 如果使用ajax一定是要有1个处 ...

  4. 表单验证:$tablePrefix(定义表前缀);$trueTableName = 'yonghu',找到真实表名(yonghu)表;create($attr,0)两个参数;批量验证(返回数组);ajax+动态验证表单

    *$tablePrefix是定义在Model中的,优先级大于配置文件中,如果项目中表前缀全部比如为"a_",并且在配置文件中定义了 'DB_PREFIX'=>'a_' 后期如 ...

  5. jQuery EasyUI动态添加控件或者ajax加载页面后不能自动渲染问题的解决方法

    博客分类: jquery-easyui jQueryAjax框架HTML  现象: AJAX返回的html无法做到自动渲染为EasyUI的样式.比如:class="easyui-layout ...

  6. ajax基础知识、用ajax做登录页面、用ajax验证用户名是否可用、ajax动态调用数据库

    1.ajax的基础知识 ajax是结合了jquery.php等几种技术延伸出来的综合运用的技术,不是新的内容.ajax也是写在<script>标签里面的. 如果使用ajax一定是要有1个处 ...

  7. 使用PHP中的ajax做登录页面、验证用户名是否可用、动态调用数据库

    1.ajax的基础知识 ajax是结合了jquery.php等几种技术延伸出来的综合运用的技术,不是新的内容.ajax也是写在<script>标签里面的. 如果使用ajax一定是要有1个处 ...

  8. 解决jQuery ajax动态新增节点无法触发点击事件的问题

    在写ajax加载数据的时候发现,后面添加进来的demo节点元素,失去了之前的点击事件.为什么点击事件失效,我们该怎么去解决呢? 其实最简单的方法就是直接在标签中写onclick="" ...

  9. 14.ajax基础知识、用ajax做登录页面、用ajax验证用户名是否可用、ajax动态调用数据库

    1.ajax的基础知识 ajax是结合了jquery.php等几种技术延伸出来的综合运用的技术,不是新的内容.ajax也是写在<script>标签里面的. 如果使用ajax一定是要有1个处 ...

随机推荐

  1. [洛谷P2747] [USACO5.4]周游加拿大Canada Tour

    洛谷题目链接:[USACO5.4]周游加拿大Canada Tour 题目描述 你赢得了一场航空公司举办的比赛,奖品是一张加拿大环游机票.旅行在这家航空公司开放的最西边的城市开始,然后一直自西向东旅行, ...

  2. java用于控制可见性的4个访问修饰符

    仅对本类可见——private 对所有类可见——public 对本包的所有子类可见——protected 对本包可见——默认(很遗憾)不需要修饰符

  3. Javascript判断Chrome浏览器

    今天分享一下如何通过Javascript来判断Chrome浏览器,这里是通过userAgent判断的,检测一下userAgent返回的字符串里面是否包含“Chrome”, 具体怎么检测是通过index ...

  4. kendo method:destroy 解决有些在kendo.all.js 的js 库里报错问题

    首先,不得不承认,kendo UI 是个不错的东西,特别对于一个前端开发到行不足的程序猿来说.而在我们使用过程中貌似还是会遇到各种奇怪的问题.比如我们会经常用到对一些控件进行重赋值. destroy ...

  5. 数据库与sql注入的相关知识

    数据库与sql注入的相关知识 sql语句明显是针对数据库的一种操作,既然想通过sql注入的方法来拿取数据那么就要先了解一下如何的去操作数据库,这方面并不需要对数据库有多么的精通但是如果了解掌握了其中的 ...

  6. MySQL登录问题1045 (28000)处理步骤【原创】

    MySQL登录问题1045 (28000)  俩台服务器主从复制,从的同步账号无法远程登录主服务器.报错ERROR 1045 (28000): Access denied for user 'root ...

  7. 19.Remove Nth Node From End of List---双指针

    题目链接 题目大意:删除单链表中倒数第n个节点.例子如下: 法一:双指针,fast指针先走n步,然后slow指针与fast一起走,记录slow前一个节点,当fast走到链表结尾,slow所指向的指针就 ...

  8. 微信access_token和refresh_token保存于redis

    简介 通常理解的access_token和refresh_token access_token是用来对客户端进行认证的,类似与密码,有一定的有效期.当过期后可使用refresh_token重新获取一个 ...

  9. Python——文件打开模式辨析

    版权声明:本文系原创,转载请注明出处及链接. Python中,open()函数打开文件时打开模式如r.r+ .w+.w.a.a+有何不同 r 只能读 r+ 可读可写,不会创建不存在的文件.如果直接写文 ...

  10. Codeforces 822D My pretty girl Noora(最小素因子的性质)

    题目大意:一场选美比赛有N个人,可以分成N/x,每组x人.每组的比较次数为x(x-1)/2,f[N]为最后决出冠军所需的比较次数,可以通过改变x的值使f[N]改变.题目给出t,l,r(1 ≤ t &l ...