python爬虫

本来觉得没什么可写的，因为网上这玩意一搜一大把，不过爬虫毕竟是python的一个大亮点，不说说感觉对不起这玩意
基础点来说，python2写爬虫重点需要两个模块，urllib和urllib2，其实还有re
先介绍下模块的一些常用功能
urllib.urlopen('http://xxx.xxx.xxx') #打开一个网址，只是打开，和open差不多
urllib2.Request(url) #解析网址，这个可以省略，具体不是很懂，一些功能，比如加head头什么的也需要使用这个
urllib.urlretrieve(url,filename) #下载用，把url提供的东西down下来，并用filename保存
举个蜂鸟爬图片的例子，下面上伪代码：

1、url解析

2、打开url

3、读取url，就是read()

4、使用re.findall找到所有和图片有关系的地址，这里只jpg

5、循环下载

看图上，图片链接格式是src="http://index_url/page_num/image_name.jpg?XXXXXXX"，那么如果需要下载的话一定是需要红圈部分，也就是http://index_url/page_num/image_name.jpg
分析之后后面的事就好办了，下面上代码

import urllib

import urllib2

import re

#处理地址，并获取页面全部的图片地址

def get_image_url(url):

  #url_format = urllib2.Request(url) #1

  url_open = urllib.urlopen(url) #

  url_read = url_open.read() #

  re_value = re.compile('(?<=src\=\").*?\.jpg')

  image_url_list = re.findall(re_value,url_read) #

  return image_url_list

#这个函数专门用来下载，前面两行是将图片连接中/前面的内容全部删除，留下后面的文件名用来保存文件的，try不说了，不清楚请翻回去看容错

def down_image(image_url):

  rev = '^.*/'

  file_name = re.sub(rev,'',image_url)

  try:

    urllib.urlretrieve(image_url,file_name)

  except:

    print 'download %s fail' %image_url

  else:

    print 'download %s successed' %image_url

if __name__ == '__main__':

  url = 'http://bbs.fengniao.com/forum/10384633.html'

  image_url_list = get_image_url(url)

  for image_url in image_url_list:

    down_image(image_url) #

困死，睡觉去。。。。。有时间再说说翻页什么的，就能爬网站了

python爬虫_入门的更多相关文章

python爬虫_入门_翻页
写出来的爬虫,肯定不能只在一个页面爬,只要要爬几个页面,甚至一个网站,这时候就需要用到翻页了其实翻页很简单,还是这个页面http://bbs.fengniao.com/forum/10384633. ...
python爬虫-基础入门-python爬虫突破封锁
python爬虫-基础入门-python爬虫突破封锁 >> 相关概念 >> request概念:是从客户端向服务器发出请求,包括用户提交的信息及客户端的一些信息.客户端可通过H ...
python爬虫-基础入门-爬取整个网站《3》
python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python ...
python爬虫-基础入门-爬取整个网站《2》
python爬虫-基础入门-爬取整个网站<2> 描述: 开场白已在<python爬虫-基础入门-爬取整个网站<1>>中描述过了,这里不在描述,只附上 python3 ...
python爬虫-基础入门-爬取整个网站《1》
python爬虫-基础入门-爬取整个网站<1> 描述: 使用环境:python2.7.15 ,开发工具:pycharm,现爬取一个网站页面(http://www.baidu.com)所有数 ...
python爬虫如何入门
学爬虫是循序渐进的过程,作为零基础小白,大体上可分为三个阶段,第一阶段是入门,掌握必备的基础知识,第二阶段是模仿,跟着别人的爬虫代码学,弄懂每一行代码,第三阶段是自己动手,这个阶段你开始有自己的解题思 ...
Python爬虫教程——入门五之URLError异常处理
大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理. 1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网连接不到特定的 ...
【Python爬虫】入门知识
爬虫基本知识这阵子需要用爬虫做点事情,于是系统的学习了一下python爬虫,觉得还挺有意思的,比我想象中的能干更多的事情,这里记录下学习的经历. 网上有关爬虫的资料特别多,写的都挺复杂的,我这里不打 ...
python爬虫从入门到放弃前奏之学习方法
首谈方法最近在整理爬虫系列的博客,但是当整理几篇之后,发现一个问题,不管学习任何内容,其实方法是最重要的,按照我之前写的博客内容,其实学起来还是很点枯燥不能解决传统学习过程中的几个问题: 这个是普通 ...

随机推荐

面试：C++输入数据
最近在做笔试题,相比与leetcode,笔试题都是要自己写输入输出的,每次在这里都浪费了不少时间,这篇文章总结了一下在C++中怎么向数组中输入数据. 1. 先输入数组大小,然后输入数据数据,中间以空格 ...
Tomcat学习总结（8）——Tomcat+Nginx集群解决均衡负载及生产环境热部署
近日,为解决生产环境热部署问题,决定在服务器中增加一个tomcat组成集群,利用集群解决热部署问题. 这样既能解决高并发瓶颈问题,又能解决热部署(不影响用户使用的情况下平滑更新生产服务器)问题. 因为 ...
Java并发编程-ReentrantLock源码分析
一.前言在分析了 AbstractQueuedSynchronier 源码后,接着分析ReentrantLock源码,其实在 AbstractQueuedSynchronizer 的分析中,已经提到 ...
【IT笔试面试题整理】链表
如何准备 Linked list questions are extremely common These can range from simple (delete a node ina linke ...
k8s集群添加node节点（使用kubeadm搭建的集群）
1.安装docker.kubelet.kubectl.kubeadm.socat # cat kubernets.repo[kubernetes]name=Kubernetesbaseurl=http ...
mysql进行时
1. 安装参考 2. 远程连不上数据库远程连接mysql时,提示“is not allowed to connect to this MySQL server” 解决(授权法): GRANT AL ...
Linux入门练习2
export命令用来设置环境变量. 使用单引号时,变量不会被扩展,将依照原样显示.示例: 如果变量未定义过,则什么都不打印: 获得变量值长度识别当前所使用得shell: 检查是否为超级用户: UID ...
浅析 JavaScript 链式调用
对$函数你已经很熟悉了.它通常返回一个html元素或一个html元素的集合,如下: function$(){ var elements = []; for(vari=0,len=arguments.l ...
浅析libuv源码-编译启动
面试的间隙回头复习了一下node,感觉node就像一个胶带,把V8和libuv粘在了一起. V8毫无疑问,负责解析执行JavaScript,相当于语言层面的桥梁:而libuv则是负责操作系统底层功能的 ...
[原] jQuery EasyUI 1.3.4 离线API、Demo (最新)
说明本文下载包为 jQuery EasyUI 1.3.4 离线API.Demo. API 按照分类整理做成了离线版本,文档保证和官网完全一致: Demo 按照分类整理为合集. 1.3.3版本中新增 ...

python爬虫_入门

python爬虫_入门的更多相关文章

随机推荐

热门专题