亲身试用python简单小爬虫

前几天基友分享了一个贴吧网页，有很多漂亮的图片，想到前段时间学习的python简单爬虫，刚好可以实践一下。

以下是网上很容易搜到的一种方法：

 #coding=utf-8

 import urllib

 import re

 def getHtml(url):

     page = urllib.urlopen(url)

     html = page.read()

     return html

 def getImg(html):

     reg = r'src="(.+?\.jpg)" pic_ext'

     imgre = re.compile(reg)

     imglist = re.findall(imgre,html)

     x = 0

     for imgurl in imglist:

         urllib.urlretrieve(imgurl,'%s.jpg' % x)

         x+=1

 html = getHtml("http://tieba.baidu.com/p/2460150866")

 print getImg(html)

我写的代码与之大同小异，但运行之居然没有反应；我甚至将代码直接copy下来运行，但还是不成功。

没办法，只好自己逐一调试。

首先我把获取到的html代码写入html.txt文件，方便我查看对照，这时，发现了第一个问题：通过urllib获得的html代码与浏览器中Ctrl+U查看到的代码并不是一回事。

接着，我用正则';src=(.*?imgsrc.*?\.jpg)'去匹配html.txt中的代码，这时，关键问题出现了：匹配到的都是诸如http%3A%2F%2Fxx.jpg 这样的地址，这样问题就很明显了，在使用urllib获取html时，':'和'/'被转码了。使用转码后的地址去下载图片当然是行不通的，需要将被转码的地址转回utf8编码。

以下是我对gethtml(url)的修改：

def gethtml(url):

    page=urllib.urlopen(url)

    html=page.read()

    html=re.sub('%3A',':',html)

    html=re.sub('%2F','/',html)

    return html

办法好像笨了一些，望大家多多指教。不过，这下程序就可以成功运行了~，分享下下载的图片，并附上地址：http://tieba.baidu.com/p/3604860421?lp=5027&mo_device=1&pn=0&

亲身试用python简单小爬虫的更多相关文章

python简单小爬虫爬取易车网图片
上代码: import requests,urllib.request from bs4 import BeautifulSoup url = 'http://photo.bitauto.com/' ...
Selenium + PhantomJS + python 简单实现爬虫的功能
Selenium 一.简介 selenium是一个用于Web应用自动化程序测试的工具,测试直接运行在浏览器中,就像真正的用户在操作一样 selenium2支持通过驱动真实浏览器(FirfoxDrive ...
Python简单网络爬虫实战—下载论文名称，作者信息（下）
在Python简单网络爬虫实战—下载论文名称,作者信息(上)中,学会了get到网页内容以及在谷歌浏览器找到了需要提取的内容的数据结构,接下来记录我是如何找到所有author和title的 1.从sou ...
python简单页面爬虫入门 BeautifulSoup实现
本文可快速搭建爬虫环境,并实现简单页面解析 1.安装 python 下载地址:https://www.python.org/downloads/ 选择对应版本,常用版本有2.7.3.4 安装后,将安装 ...
asp.net简单小爬虫
所谓爬虫简单点说,就是把别人网站上的东西爬下来,至于爬做什么用就看你自己了,比如:把别人网站上的东西爬下来放在自己网站中(感觉有点像小偷^v^). 这里随便写了一个爬虫代码(可以自己再去进行完善): ...
Python 简单网页爬虫学习
#coding=utf-8 # 参考文章: # 1. python实现简单爬虫功能 # http://www.cnblogs.com/fnng/p/3576154.html # 2. Python 2 ...
python的小爬虫的基本写法
1.最基本的抓站 import urllib2 content = urllib2.urlopen('http://XXXX').read() 2.使用代理服务器这在某些情况下比较有用,比如IP被封 ...
python简单的爬虫，网页图片
1 #!/usr/bin/python 2 #coding=utf-8 3 import urllib 4 import re 5 6 def gethtml(url): 7 page=urllib. ...
Python简单小程序练习
1.九九乘法表 #!/usr/bin/python for i in range(1,10): for j in range(i): j += 1 print ("%d * %d = %-2 ...

随机推荐

重写TextField Rect 改变显示位置
很简单很常用的一些东西,希望给需要的人帮助. 效果图如下: 自定义textField init() { super.init(frame: CGRect(x: , y: , width: yourWi ...
svn: Can't convert string from 'UTF-8' to native encoding 的解决办法（转）
http://www.cnblogs.com/xuxm2007/archive/2010/10/26/1861223.html svn 版本库中有文件是以中文字符命名的,在 Linux 下 check ...
JavaScript模块化
1.commonjs 导入: var math = require('math'); math.add(2,3); // 5 导出: module.exports={} 应用会停止并等待加载 2.AM ...
Java—Servlet技术
1 Servlet 概述 Servlet简介——开发动态web资源的技术Sun公司在API提供了一个servlet接口,如开发一个java程序向浏览器输出数据:1)编写一个java类,实现servl ...
django模板里循环变量<table>里想要两个一行如何控制
2016-8-3 周三做项目时遇到的问题: 每个div由循环变量输出: {% for key,value in formextenddetail %} <div id="div_id ...
Tomcat环境配置
1.安装java Path = 已有的值;%MYSQL%\bin;%CATALINA_HOME%\bin;%JAVA_HOME%\bin JAVA_HOME = C:\apps\Java\jdk1.8 ...
PHP redis 批量操作
参考网站 phpredis扩展 :https://github.com/phpredis/phpredis#pconnect-popen 命令参考:http://doc.redisfans.com ...
myhandle
#ifndef my_handle_h #define my_handle_h #include <stdint.h> #include "mydef.h" #incl ...
python爬取数据保存入库
import urllib2 import re import MySQLdb class LatestTest: #初始化 def __init__(self): self.url="ht ...
mongodb 使用场景和不使用场景
1.mongodb介绍 MongoDB (名称来自"humongous") 是一个可扩展的高性能,开源,模式自由,面向文档的数据库.它使用C++编写.MongoDB特点: a.面向 ...

亲身试用python简单小爬虫

亲身试用python简单小爬虫的更多相关文章

随机推荐

热门专题