亲身试用python简单小爬虫

前几天基友分享了一个贴吧网页，有很多漂亮的图片，想到前段时间学习的python简单爬虫，刚好可以实践一下。

以下是网上很容易搜到的一种方法：

 #coding=utf-8

 import urllib

 import re

 def getHtml(url):

     page = urllib.urlopen(url)

     html = page.read()

     return html

 def getImg(html):

     reg = r'src="(.+?\.jpg)" pic_ext'

     imgre = re.compile(reg)

     imglist = re.findall(imgre,html)

     x = 0

     for imgurl in imglist:

         urllib.urlretrieve(imgurl,'%s.jpg' % x)

         x+=1

 html = getHtml("http://tieba.baidu.com/p/2460150866")

 print getImg(html)

我写的代码与之大同小异，但运行之居然没有反应；我甚至将代码直接copy下来运行，但还是不成功。

没办法，只好自己逐一调试。

首先我把获取到的html代码写入html.txt文件，方便我查看对照，这时，发现了第一个问题：通过urllib获得的html代码与浏览器中Ctrl+U查看到的代码并不是一回事。

接着，我用正则';src=(.*?imgsrc.*?\.jpg)'去匹配html.txt中的代码，这时，关键问题出现了：匹配到的都是诸如http%3A%2F%2Fxx.jpg 这样的地址，这样问题就很明显了，在使用urllib获取html时，':'和'/'被转码了。使用转码后的地址去下载图片当然是行不通的，需要将被转码的地址转回utf8编码。

以下是我对gethtml(url)的修改：

def gethtml(url):

    page=urllib.urlopen(url)

    html=page.read()

    html=re.sub('%3A',':',html)

    html=re.sub('%2F','/',html)

    return html

办法好像笨了一些，望大家多多指教。不过，这下程序就可以成功运行了~，分享下下载的图片，并附上地址：http://tieba.baidu.com/p/3604860421?lp=5027&mo_device=1&pn=0&

亲身试用python简单小爬虫的更多相关文章

python简单小爬虫爬取易车网图片
上代码: import requests,urllib.request from bs4 import BeautifulSoup url = 'http://photo.bitauto.com/' ...
Selenium + PhantomJS + python 简单实现爬虫的功能
Selenium 一.简介 selenium是一个用于Web应用自动化程序测试的工具,测试直接运行在浏览器中,就像真正的用户在操作一样 selenium2支持通过驱动真实浏览器(FirfoxDrive ...
Python简单网络爬虫实战—下载论文名称，作者信息（下）
在Python简单网络爬虫实战—下载论文名称,作者信息(上)中,学会了get到网页内容以及在谷歌浏览器找到了需要提取的内容的数据结构,接下来记录我是如何找到所有author和title的 1.从sou ...
python简单页面爬虫入门 BeautifulSoup实现
本文可快速搭建爬虫环境,并实现简单页面解析 1.安装 python 下载地址:https://www.python.org/downloads/ 选择对应版本,常用版本有2.7.3.4 安装后,将安装 ...
asp.net简单小爬虫
所谓爬虫简单点说,就是把别人网站上的东西爬下来,至于爬做什么用就看你自己了,比如:把别人网站上的东西爬下来放在自己网站中(感觉有点像小偷^v^). 这里随便写了一个爬虫代码(可以自己再去进行完善): ...
Python 简单网页爬虫学习
#coding=utf-8 # 参考文章: # 1. python实现简单爬虫功能 # http://www.cnblogs.com/fnng/p/3576154.html # 2. Python 2 ...
python的小爬虫的基本写法
1.最基本的抓站 import urllib2 content = urllib2.urlopen('http://XXXX').read() 2.使用代理服务器这在某些情况下比较有用,比如IP被封 ...
python简单的爬虫，网页图片
1 #!/usr/bin/python 2 #coding=utf-8 3 import urllib 4 import re 5 6 def gethtml(url): 7 page=urllib. ...
Python简单小程序练习
1.九九乘法表 #!/usr/bin/python for i in range(1,10): for j in range(i): j += 1 print ("%d * %d = %-2 ...

随机推荐

浅谈android binder机制
binder机制是谷歌优化在android上更适合终端的IPC(多进程通信方式),满足系统对通信方式,传输性能和安全性的要求. 特性: 1. 用驱动程序来推进进程间的通信.2. 通过共享内存来提高性 ...
Python unittest appium
import unittest from appium import webdriver from appium.common.exceptions import NoSuchContextExcep ...
python——django使用mysql数据库（二）
上一篇中,我们已经讲述了如何初始化一个django数据库,这一章就来讲讲在实际的项目中如何使用我们初始化的数据库呢? 如还未进行初始化数据库操作,请参考python——django使用mysql数据库 ...
linux下tomcat的shutdown命令杀不死进程
tomcat在windows下可以直接关闭,但是貌似在Linux下有时候shutdown.sh 没有关闭tomcat进程:国庆前最后一天没事,解决你~~~~ 现象: 在Linux下shutdown.s ...
1028作业：Java语法基础
//1.输入长与宽计算长方形面积与周长.(用精度类型计算) package com.lovo.J133; import java.util.Scanner; public class Homework ...
MySQL update时使用联表，聚合
原文地址 http://stackoverflow.com/questions/3022405/mysql-update-query-with-left-join-and-group-by UPDAT ...
html文件里引入文件html文件
导入通用的代码除了使用php外 iframe在很多界面使用起来比较方便比如说要写导航在好几个界面都要用这个导航可以用iframe引用实例:这个header.html是我写的一个导航界面在in ...
Web开发中管理ipad屏幕的方向变化
Web开发中,我们会遇到在手机垂直或水平视角时展示不同状态的情况.下面我来总结一下检测移动设备方向变化的一些方法. 1 使用javascript 直接看代码: <script type=&quo ...
[IOS 开发] 懒加载 (延迟加载) 的基本方式，好处，代码示例
懒加载的好处: 1> 不必将创建对象的代码全部写在viewDidLoad方法中,代码的可读性更强 2> 每个属性的getter方法中分别负责各自的实例化处理,代码彼此之间的独立性强,松耦合 ...
[转载]ASP.NET中TextBox控件设立ReadOnly="true"后台取不到值
原文地址:http://www.cnblogs.com/yxyht/archive/2013/03/02/2939883.html ASP.NET中TextBox控件设置ReadOnly=" ...

亲身试用python简单小爬虫

亲身试用python简单小爬虫的更多相关文章

随机推荐

热门专题