自学Python七爬虫实战一

　　此文承接上文，让我们写一个简简单单的爬虫，循序而渐进不是吗？此次进行的练习是爬取前5页什么值得买网站中的白菜价包邮信息。包括名称，价格，推荐人，时间。

　　我们所需要做的工作：1.确定URL并获得页面代码。 2.用正则匹配每件商品我们所需要的内容 3.打印信息我还是直接上代码吧，具体步骤看注释就好啦！（代码会引用HttpClient.py，可以参考之前的SmartQQ协议一文）！

 # -*- coding: utf-8 -*-

 import re,time,os

 from HttpClient import HttpClient

 class Smzdm(HttpClient):

     def __init__(self):

         self.__pageIndex = 1

         self.__Url = "http://faxian.smzdm.com/9kuai9/p" 

     #正则得到每页商品信息

     def __getAllGoods(self,pageIndex):

         realurl = self.__Url + str(pageIndex)

         pageCode = self.Get(realurl)

         pattern = re.compile('<h2 .*?itemName"><a.*?<span .*?black">(.*?)</span><span .*?red">(.*?)</span></a></h2>.*?'+

                              '<div .*?itemUserInfo">.*?<a .*?<span .*?rankTitle">(.*?)</span>.*?<span .*?time">(.*?)</span>',re.S)

         items = re.findall(pattern,pageCode.decode("utf-8"))

         for item in items:

             print item[0],item[1],item[2],item[3]

     def start(self):

         print("正在读取前五页白菜价包邮，请稍等...")

         for i in range(1,6):

             print i

             self.__getAllGoods(i)

 pc = Smzdm()

 pc.start()

　　执行结果如下：

　　是不是感觉，代码怎么这么少，这就搞定了？YES!

　　稍微解释一下思路，一般类似于这种网站都是页面+页号构成url。所以定义一个基础url，根据传入的页号构造一个真实的url。通过urllib2模块访问页面得到页面代码，通过构造正则pattern，调用re.findall()函数找到当前页面所有的信息，然后打印出来。一个功能智障，代码简单的爬虫就造好了，easy的会了default的当然就水到渠成了，接下来你可以去试试糗事百科的段子，百度贴吧的帖子，网易新闻的留言等等！另外，我的环境为2.7.10，python3以下需要注意编码问题，到处都是坑！

自学Python七爬虫实战一的更多相关文章

开发记录_自学Python写爬虫程序爬取csdn个人博客信息
每天刷开csdn的博客,看到一整个页面,其实对我而言,我只想看看访问量有没有上涨而已... 于是萌生了一个想法: 想写一个爬虫程序把csdn博客上边的访问量和评论数都爬下来. 打算通过网络各种搜集资料 ...
自学Python十爬虫实战三（美女福利续）
我又来送福利啦!!!不同于上篇文章,这次我们的爬虫采用了多线程,一直以来被所谓的分布式多线程爬虫给唬的怕怕的.今天就来一发多线程爬虫吧,还能看妹子图,想想就觉得很激动!!! 依然是流程解释: ...
自学Python九爬虫实战二(美图福利)
作为一个新世纪有思想有文化有道德时刻准备着的屌丝男青年,在现在这样一个社会中,心疼我大慢播抵制大百度的前提下,没事儿上上网逛逛YY看看斗鱼翻翻美女图片那是必不可少的,可是美图虽多翻页费劲!今天我们就搞 ...
自学Python六爬虫基础必不可少的正则
要想做爬虫,不可避免的要用到正则表达式,如果是简单的字符串处理,类似于split,substring等等就足够了,可是涉及到比较复杂的匹配,当然是正则的天下,不过正则好像好烦人的样子,那么如何做呢,熟 ...
自学Python四爬虫基础知识储备
首先,推荐两个关于python爬虫不错的博客:Python爬虫入门教程专栏和 Python爬虫学习系列教程 .写的都非常不错,我学习到了很多东西!在此,我就我看到的学到的进行总结一下! 爬虫就是 ...
自学Python八爬虫大坑之网页乱码
Bug有时候破坏的你的兴致,阻挠了保持到现在的渴望.可是,自己又非常明白,它是一种激励,是注定要被你踩在脚下的垫脚石! python2.7中最头疼的可能莫过于编码问题了,尤其还是在window环境下, ...
自学Python五爬虫基础练习之SmartQQ协议
BAT站在中国互联网的顶端,引导着中国互联网的发展走向...既受到了多数程序员的关注,也在被我们所惦记着... 关于SmartQQ的协议来自HexBlog,根据他的博客我自己也一步一步的去分析,去尝试 ...
python网络爬虫实战PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书
点击获取提取码:vg1y python网络爬虫实战帮助读者学习Python并开发出符合自己要求的网络爬虫.网络爬虫,又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取互联网信息的程序或者脚 ...
孤荷凌寒自学python第七十九天开始写Python的第一个爬虫9并使用pydocx模块将结果写入word文档
孤荷凌寒自学python第七十九天开始写Python的第一个爬虫9 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 到今天终于完成了对docx模块针对 ...

随机推荐

ES6 箭头函数this指向问题
var name = "window"; var person1 = { name: "person1", show1: function() { consol ...
vue 打印页面特定部分转pdf
https://www.jb51.net/article/147040.htm https://www.jianshu.com/p/dd120b65446a //转pdf
c++ map: 当map的value是void*指针
#include <iostream> #include <map> #include <vector> using namespace std; //key is ...
scrapy——3 crawlSpider——爱问
scrapy——3 crawlSpider crawlSpider 爬取一般网站常用的爬虫类.其定义了一些规则(rule)来提供跟进link的方便的机制. 也许该spider并不是完全适合您的特定网 ...
【郑轻邀请赛 B】base64解密
[题目链接]:https://acm.zzuli.edu.cn/zzuliacm/problem.php?id=2128 [题意] [题解] 把密文; 在表中找到每个字符对应的数字; 然后转换成相应的 ...
JPA学习(基于hibernate)
参考博客:https://blog.csdn.net/baidu_37107022/article/details/76572195 常用注解: https://blog.csdn.net/eastl ...
ZOJ 3687 The Review Plan I
The Review Plan I Time Limit: 5000ms Memory Limit: 65536KB This problem will be judged on ZJU. Origi ...
HDU 5435
数位DP题,然而不会做.设dp[i][j]表示前i位异或和为j的时候的个数.先dp出所有的可能组合使得异或和为j的个数,然后按位进行枚举.对于dp[i][j],其实不止是前i位,对于后i位的情况同样适 ...
D. Multiplication Table 二分查找
刚做这道题根本没想到二分,最关键是没想出来怎样统计在这个矩阵中比一个数小的有几个怎么算.造成自己想了好久最后看了别人的提示才做出来.哎.好久不做题太弱了 #include<iostream> ...
CocoaPods建立私有仓库
项目管理:CocoaPods建立私有仓库 2015-05-08 10:22 编辑: lansekuangtu 分类:iOS开发来源:agdsdl 0 6367 CocoaPods项目管理私有仓库招 ...

自学Python七 爬虫实战一

自学Python七 爬虫实战一的更多相关文章

随机推荐

热门专题

自学Python七爬虫实战一

自学Python七爬虫实战一的更多相关文章