Python入门-编写抓取网站图片的爬虫-正则表达式

//生命太短我用Python！

//Python真是让一直用c++的村里孩子长知识了！

这个仅仅是一个测试，成功抓取了某网站1000多张图片。

下一步要做一个大新闻大工程

 #config = utf-8

 import urllib

 import urllib2

 import re

 import os

 global CNT

 CNT = 0

 def getHtml(url):

 #! /usr/bin/env python

     # -*- coding=utf-8 -*-

     # @Author pythontab.com

     #url="http://pythontab.com"

     req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',

     'Accept':'text/html;q=0.9,*/*;q=0.8',

     'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',

     'Accept-Encoding':'gzip',

     'Connection':'close',

     'Referer':None #注意如果依然不能抓取的话，这里可以设置抓取网站的host

     }

     req_header_2 = {

     'User-Agent':'Mozilla/5.0 (Windows NT 6.1; rv:28.0) Gecko/20100101 Firefox/28.0'

     }

     req_timeout = 5

     #status = urllib.urlopen(url).code

     #print status

     #if status != 200:

     #    print 'Http Error %s' % status

     #    return False

     req = urllib2.Request(url,None,req_header_2)

     resp = urllib2.urlopen(req,None,req_timeout)

     html = resp.read()

     return html

 def getAllUrl(html):

     reg = r'<a href="(.+)" target='

     theurl = re.compile(reg)

     url = re.findall(theurl,html)

     return url

 def getNext(html):

     reg = r"<a href='.+pai/(.+).html'"

     nxtre = re.compile(reg)

     nxt = re.findall(nxtre,html)

     return nxt[0]

 def getName(html):

     reg = r'<title>(.+)</title>'

     nare = re.compile(reg)

     name = re.findall(nare,html)

     return name[0]

 def getImg(name,html):

     global CNT

     reg = r'<img src="(.{0,80}\.jpg)" border="0"'

     imgre = re.compile(reg)

     imglist = re.findall(imgre,html)

     reg = r'src="(.{0,80}\.jpeg)" border'

     imgre = re.compile(reg)

     imglist.extend(re.findall(imgre,html))

     reg = r"<img src='(.{0,80}\.jpg)'"

     imgre = re.compile(reg)

     imglist.extend(re.findall(imgre,html))

     reg = r"<img src='(.{0,80}\.jepg)'"

     imgre = re.compile(reg)

     imglist.extend(re.findall(imgre,html))

     local = '.\%s-[%sp]' % (name,len(imglist))

     if os.path.exists(unicode(local,'utf-8')):

         return unicode(local,'utf-8')+u'was existed'

     os.mkdir(unicode(local,'utf-8'))

     x = 0

     for imgurl in imglist:

         print imgurl

         urllib.urlretrieve(imgurl,unicode(local+'\%s.jpg' % x,'utf-8'))

         x+=1

         CNT+=1

     return unicode('%s: get %s pthoto(s)' % (name,x),'utf-8')

 def getAll(num):

     global CNT

     nxt = 164680

     while num > 0:

         url = '---%s.html' % nxt

         print nxt

         html = getHtml(url)

         nxt -= 1

         num -= 1

         if html == False:

             print 'Error'

             continue

         print getImg(getName(html),html)

     return 'done! %s photos!' % str(CNT)

 def getAll_update(index):

     global CNT

     num = CNT

     urls = getAllUrl(getHtml(index))

     for url in urls:

         html = getHtml('---'+url)

         print getImg(getName(html),html)

     return 'done! %s photos!' % str(CNT-num)

 #print getAll(10)

 #html = getHtml('---')

 #print getNext(html)

 x = 3

 while x < 50:

     print getAll_update('---' % x)

     x+=1

 #print getAll_update('---')

header 伪装成浏览器

正则表达式 http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html //我也是刚刚学

基本都是一路百度写出来的

Python入门-编写抓取网站图片的爬虫-正则表达式的更多相关文章

使用python来批量抓取网站图片
今天"无意"看美女无意溜达到一个网站,发现妹子多多,但是可恨一个page只显示一张或两张图片,家里WiFi也难用,于是发挥"程序猿"的本色,写个小脚本,把图片扒 ...
php远程抓取网站图片并保存
以前看到网上别人说写程序抓取网页图片的,感觉挺神奇,心想什么时候我自己也写一个抓取图片的方法! 刚好这两天没什么事,就参考了网上一个php抓取图片代码,重点借鉴了匹配img标签和其src属性正则的写 ...
Python -- 网络编程 -- 抓取网页图片 -- 豆瓣妹子
首先分析页面URL,形如http://dbmeizi.com/category/[1-14]?p=[0-476] 图片种类对应编号: 1:'性感', 2:'有沟', 3:'美腿', 4:'小露点', ...
Python -- 网络编程 -- 抓取网页图片 -- 图虫网
字符串(str)编码成字节码(bytes),字节码解码为字符串获取当前环境编码:sys.stdin.encoding url编码urllib.parse.quote() url解码urllib.pa ...
python网络爬虫抓取网站图片
本文介绍两种爬取方式: 1.正则表达式 2.bs4解析Html 以下为正则表达式爬虫,面向对象封装后的代码如下: import urllib.request # 用于下载图片 import os im ...
php 文件操作之抓取网站图片
$str= file_get_contents("http://v.qq.com/");preg_match_all("/\<img\s+src=.*\s*\> ...
【转】详解抓取网站，模拟登陆，抓取动态网页的原理和实现（Python，C#等）
转自:http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_ ...
利用wget 抓取网站网页包括css背景图片
利用wget 抓取网站网页包括css背景图片 wget是一款非常优秀的http/ftp下载工具,它功能强大,而且几乎所有的unix系统上都有.不过用它来dump比较现代的网站会有一个问题:不支持c ...
百度图片爬虫-python版-如何爬取百度图片?
上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...

随机推荐

.net core实践系列之短信服务-架构优化
前言通过前面的几篇文章,讲解了一个短信服务的架构设计与实现.然而初始方案并非100%完美的,我们仍可以对该架构做一些优化与调整. 同时我也希望通过这篇文章与大家分享一下,我的架构设计理念. 源码地址 ...
朱晔的互联网架构实践心得S1E9：架构评审一百问和设计文档五要素
朱晔的互联网架构实践心得S1E9:架构评审一百问和设计文档五要素 [下载文本PDF进行阅读] 本文我会来说说我认为架构评审中应该看的一些点,以及我写设计文档的一些心得.助你在架构评审中过五关斩六将,助 ...
【内存溢出】Maven编译时内存溢出的问题解决方式
原文地址:https://www.cnblogs.com/sunny3096/p/7524635.html 编译源码时报出java.lang.OutOfMemoryError: Java heap s ...
VMware vSphere 6 序列号
vSphere 6 Hypervisor HY0XH-D508H-081U8-JA2GH-CCUM2 4C4WK-8KH8L-H85J0-UHCNK-8CKQ8 NV09R-2W007-08D38-C ...
[loadrunner]通过检查点判定事务是否成功
//检查点设置语句 //tmp在此时为临时参数 web_reg_find("SaveCount=tmp", "Text=xxx", LAST); ...
使用matplotlib画饼图
import matplotlib.pyplot as pltx = [4, 9, 21, 55, 30, 18]labels = ['math', 'history', 'chemistry', ' ...
(poj 2253) Frogger 最短路上的最大路段
题目链接:http://poj.org/problem?id=2253 Description Freddy Frog is sitting on a stone in the middle of a ...
Solrcloud(Solr集群)
Solrcloud(Solr集群) Solrcloud介绍: SolrCloud(solr集群)是Solr提供的分布式搜索方案. 当你需要大规模,容错,分布式索引和检索能力时使用SolrCloud. ...
接口工具之postman
在我们日常开发中,经常会对功能接口进行相应的测试.那么postman是一款不错的测试工具,因为平常使用的比较多,因此在这里简单记录一下,经常使用到的一些地方简单的使用就不错介绍了, 基本流程: 新建 ...
SQL性能优化-order by语句的优化
原文:http://bbs.landingbj.com/t-0-243203-1.html 在某些情况中,MySQL可以使用一个索引来满足ORDER BY子句,而不需要额外的排序.where条件和or ...

Python入门-编写抓取网站图片的爬虫-正则表达式

Python入门-编写抓取网站图片的爬虫-正则表达式的更多相关文章

随机推荐

热门专题