Python爬虫实战（2）：爬取京东商品列表

1，引言

在上一篇《Python爬虫实战：爬取Drupal论坛帖子列表》，爬取了一个用Drupal做的论坛，是静态页面，抓取比较容易，即使直接解析html源文件都可以抓取到需要的内容。相反，JavaScript实现的动态网页内容，无法从html源代码抓取需要的内容，必须先执行JavaScript。

我们在《Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容》一文已经成功检验了动态网页内容的抓取方法，本文将实验程序进行改写，使用开源Python爬虫规定的标准python内容提取器，把代码变得非常简洁。

2，技术要点

我们在多个文章说过本开源爬虫的目的：节省程序员的时间。关键是省去编写提取规则的时间，尤其调试规则很花时间，节省时间问题在《1分钟快速生成用于网页内容提取的xslt》一文已经有了解决方案，本文我们用京东网站作为测试目标，而电商网站都有很多动态内容，比如，产品价格和评论数等等，往往采用后加载的方式，在html源文档加载完成以后再执行javascript代码把动态内容填写上，所以，本案例主要验证动态内容的抓取。

另外，本文案例没有使用GooSeeker爬虫API，而是把MS谋数台生成的xslt脚本程序保存在本地文件中，在程序运行的时候把文件读出来注入到gsExtractor提取器。后续会有专门的案例演示 API的使用方法。

总之，本示例两个技术要点总结如下：

从本地文件读取xlst程序
把xlst注入到提取器gsExtractor中，利用xslt从网页上一次提取性多个字段内容。

3，python源代码

源代码下载位置请看文章末尾的GitHub源。

4，抓取结果

运行上面的代码，就会爬取京东手机品类页面的所有手机型号、价格等信息，并保存到本地文件“京东手机列表_1.xml”中。我们用浏览器打开这个结果文件，会看到如下的内容。

5，相关文档
1， Python即时网络爬虫项目: 内容提取器的定义

6，集搜客GooSeeker开源代码下载源
1， GooSeeker开源Python网络爬虫GitHub源

7，文档修改历史
1，2016-06-11：V1.0

Python爬虫实战（2）：爬取京东商品列表的更多相关文章

python爬虫——用selenium爬取京东商品信息
1.先附上效果图(我偷懒只爬了4页) 2.京东的网址https://www.jd.com/ 3.我这里是不加载图片,加快爬取速度,也可以用Headless无弹窗模式 options = webdri ...
一起学爬虫——使用selenium和pyquery爬取京东商品列表
layout: article title: 一起学爬虫--使用selenium和pyquery爬取京东商品列表 mathjax: true --- 今天一起学起使用selenium和pyquery爬 ...
Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖 ...
Python爬虫实战：爬取腾讯视频的评论
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 易某某 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
Python爬虫实战之爬取糗事百科段子【华为云技术分享】
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
python爬虫实战之爬取智联职位信息和博客文章信息
1.python爬取招聘信息简单爬取智联招聘职位信息 # !/usr/bin/env python # -*-coding:utf-8-*- """ @Author ...
芝麻HTTP：Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
python 爬虫实战1 爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 本篇目标抓取糗事百科热门段子过滤带有图片的段子实现每按一次回车显示一个段子的发布时间,发布人 ...

随机推荐

UVA 11214 Guarding the Chessboard
题意: 皇后防御的范围是他所在横.竖.对角线,地图上的#为可以放旗子的地方.问最少放几个皇后能防守所有#. 分析: vis数组开4维,对应行.列.主对角线.副对角线代码: #include < ...
Linq to DataSet 和 DataSet使用方法学习
简单入门: using System; using System.Collections.Generic; using System.Linq; using System.Text; using Sy ...
jquery判断客户端的类型
针对不同客户端下载链接的页面响应样式不一样,更人性点而已 //匹配客户端类型 var isAndroid = navigator.userAgent.toLowerCase().match(/andr ...
python成长之路第三篇(3)_内置函数及生成器迭代器
打个广告欢迎加入linux,python资源分享群群号:478616847 目录: 1.lambda表达式 2.map内置函数 3.filter内置函数 4.reduce内置函数 5.yield生成器 ...
括号配对问题--nyoj-2（栈）
括号配对问题时间限制:3000 ms | 内存限制:65535 KB 难度:3 描述现在,有一行括号序列,请你检查这行括号是否配对. 输入第一行输入一个数N(0<N<=10 ...
字符串水题（hdoj1049）
Problem Description Password security is a tricky thing. Users prefer simple passwords that are easy ...
SQL Server 查看identity值的几种方法。
方法 1. ident_incr('Table_name');# 增量 identity(A,B) 中的B值 ident_seed('Table_name'); # 种子 identit ...
LogLog
https://github.com/rsyslog https://github.com/beave/sagan http://www.securitywarriorconsulting.com/l ...
perl tk说明
介绍: perl/Tk(也被称为pTK) 是一个模块和代码的收集,尝试简单的配置Tk 8 部件工具包到强大的词素文文字, 动态内存,I/O, 和面向对象,它是一种解释脚本语言来制作部件和程序使用 ...
Hadoop源码解析之: HBase Security
文不打算对这部分代码进行全面的解读,而是先对几个主要类的职能进行概述,然后再罗列一些有价值的重要细节. 第一部分:HBase Security 概述 HBase Security主要是基于User和U ...

Python爬虫实战（2）：爬取京东商品列表

Python爬虫实战（2）：爬取京东商品列表的更多相关文章

随机推荐

热门专题