爬虫系列1：python简易爬虫分析

决定写一个小的爬虫系列，本文是第一篇，讲爬虫的基本原理和简易示例。

1、单个网页的简易爬虫

以下爬虫的主要功能是爬取百度贴吧中某一页面的所有图片。代码由主要有两个函数：其中getHtml()通过页面url获取其对应的html内容，getImage()则通过解析html获取图片地址，实现图片的下载。

代码如下：

import urllib

import re

def getHtml(url):

    """通过页面url获取其对应的html内容

    """

    page = urllib.urlopen(url) #打开页面

    content = page.read() #读取页面内容

    return content

def getImage(html):

    """通过解析html获取图片地址，实现图片的下载

    """

    regx =r'src="(.+?\.jpg)" pic_ext' #利用正则表达式获得图片url

    imgreg = re.compile(regx)

    imglist = re.findall(imgreg,html)

    x = 0

    for imgurl in imglist:

        filepath ='F:\\Downloads\\'+str(x)+'.jpg'

        urllib.urlretrieve(imgurl,filepath) #将图片下载到本地

        x += 1

    print 'completed!'

html = getHtml('http://tieba.baidu.com/p/2505265675')

imglist = getImage(html)

2、爬取多网页的框架

这里只讲基本思想：第一步是选择一个起始页面，可以直接选择某个网站的主页作为起始页面；第二步是分析这个起始页面的所有链接，然后爬取所有链接的内容；第三步就是无休无止的递归过程，分析爬虫所及的所有子页面内部链接，如果没有爬取过，则继续无休无止的爬取。

借用知乎上谢科兄弟的一段代码来说明。设定初始页面initial_page，爬虫就从这里开始获取页面，url_queue用来存将要爬取的页面队列，seen用来存爬取过的页面。

import Queue

initial_page ="http://www.renminribao.com"

url_queue =Queue.Queue()

seen = set()

seen.insert(initial_page)

url_queue.put(initial_page)

while True:

    if url_queue.size()>0:

        current_url = url_queue.get()    #取出队例中第一个的url

        store(current_url)             #把这个url代表的网页存储好

        for next_url inextract_urls(current_url): #提取把这个url里链向的url

            if next_url not in seen:

                seen.put(next_url)

                url_queue.put(next_url)

    else:

        break

实际写爬虫的时候我们一般还会限定爬虫运行的域（domain），限定域之外的链接不予爬取。有许多优秀的框架可以实现多网页的爬虫，用python写的话我推荐Scrapy。

爬虫系列1：python简易爬虫分析的更多相关文章

爬虫系列(二) Chrome抓包分析
在这篇文章中,我们将尝试使用直观的网页分析工具(Chrome 开发者工具)对网页进行抓包分析,更加深入的了解网络爬虫的本质与内涵 1.测试环境浏览器:Chrome 浏览器浏览器版本:67.0.33 ...
python简易爬虫来实现自动图片下载
菜鸟新人刚刚入住博客园,先发个之前写的简易爬虫的实现吧,水平有限请轻喷. 估计利用python实现爬虫的程序网上已经有太多了,不过新人用来练手学习python确实是个不错的选择.本人借鉴网上的部分实现 ...
Python爬虫系列（五）：分析HTML结构
今晚,被烦死了.9点多才下班,就想回来看书学习,结果被唠叨唠叨个小时,我不断喊不要和我聊天了,还反复说.我只想安安静静看看书,学习学习,全世界都不要打扰我接着上一个讨论,我们今晚要分析HTML结构了 ...
python简易爬虫实现
目的:爬取昵称目标网站:糗事百科依赖的库文件:request.sys.beautifulSoup4.imp.io Python使用版本:3.4 说明:参考http://cn.python-requ ...
Python简易爬虫
经常需要下载论文,每次都需要去网页上搜索,然后点击下载,实在麻烦,正好最近刚入门Python,心血来潮,想着写一个爬虫经过一天查阅资料,基本算是完成了,但是还是不足,比如对知网和万方暂时还不行,但是 ...
Python简易爬虫爬取百度贴吧图片
通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地.(Python版本为3.6.0) 一.获取整个页面数据 def getHtml(url): page=urllib.requ ...
【Python】Python简易爬虫爬取百度贴吧图片
通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地.(Python版本为3.6.0) 一.获取整个页面数据 def getHtml(url): page=urllib.requ ...
python简易爬虫，帮助理解re模块
20161203更新: 1.使用了BS4解析html 2.使用了mysql-connector插入了数据库表 pip install mysql-connector import urllib.req ...
爬虫系列(三) urllib的基本使用
一.urllib 简介 urllib 是 Python3 中自带的 HTTP 请求库,无需复杂的安装过程即可正常使用,十分适合爬虫入门 urllib 中包含四个模块,分别是 request:请求处理模 ...

随机推荐

20165309 技能学习经验与C语言
技能学习经验与C语言技能学习经验你有什么技能比大多人(超过90%以上)更好?针对这个技能的获取你有什么成功的经验?与老师博客中的学习经验有什么共通之处? 从小到大,或是出于兴趣.或是出于父母的要求 ...
日期在Linux与Windows下的区别
最近遇到了这个问题,就是相同的代码在Windows与Linux下的日期转换不一致. 原因:时区问题,主要是操作系统与JVM中的时区不同导致的在网上查了很多处理的方法:最后总结出一条简单粗暴的方法:原 ...
配置ssh免密登录
安装ssh sudo apt-get install ssh 产生密钥:ssh-keygen -t rsa -P "" -f ~/.ssh/id_rsa (rsa为ssh的加密方式 ...
ubuntu 远程登录服务器和服务器中下载代码
1.首先用远程登录:ssh 名称@地址 2.提示输入密码. 3.进入到你所要文件目录. 输入:tar cf 文件明.tar 你自己喜欢的文件/ 下载:scp erpAmazonAPI.tar 主机名称 ...
object对象转string字符串
var obj = {}; obj=new Array; obj.name='小王'; obj.sex='男'; var str=JSON.string(obj)
Mac系统安装和配置tomcat步骤详解
一:下载打开Apache Tomcat官网,选择需要的版本下载: 二:存放到本地文件夹重名民为ApacheTomcat,放到/Users/计算机名/Library/目录下三:启动Tomcat 打 ...
oracle in 函数
IN操作符 select * from scott.emp where empno=7369 or empno=7566 or empno=7788 or empno=9999: ...
Elastic-Job 介绍
Elastic-Job是一个分布式调度解决方案,它解决了什么问题呢? 如果你需要定时对数据进行处理,但由于数据量实在太大了,一台机器处理不过来,于是用两台机器处理,第一台处理 id 为奇数的数据,第二 ...
使用virustotal VT 查询情报——感觉远远没有微步、思科好用，10万条数据查出来5万条都有postives >0的记录，尼玛！！！
1399 git clone https://github.com/VirusTotal/c-vtapi.git 1400 cd c-vtapi/ 1402 sudo apt-get install ...
Dagger2不自动生成daggerXXXcomponent
在Fragment里面初始化dagger2创建对象时,不自动生成daggerXXXcomponent. 百思不得其解,后来发现是import android.app.Fragment;所以不自动生成. ...

爬虫系列1：python简易爬虫分析

爬虫系列1：python简易爬虫分析的更多相关文章

随机推荐

热门专题