我的第一个python爬虫程序

程序用来爬取糗事百科上的图片的，程序设有超时功能，具有异常处理能力

下面直接上源码：

#-*-coding:utf-8-*-

'''

Created on 2016年10月20日

@author: audi

'''

import urllib2

import re

from bs4 import BeautifulSoup

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

count = 0

path = "pic/tupian"

headers = {

           'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'

        }

for x in range(1,10):

    temp_url = "http://www.qiushibaike.com/imgrank/page/%d"%x

    req = urllib2.Request(

            url = temp_url,

            headers = headers

            )

    try:

        data = urllib2.urlopen(req,timeout=10).read()

    except:

        print "打开页面链接超时！！！！"

        continue

    else:

        print "打开页面成功，开始解析数据。。"

        soup=BeautifulSoup(data,'html.parser',from_encoding='utf-8')

#         图片链接的div标签格式

#         <div class="thumb">

#             <a href="/article/117795261" target="_blank">

#                 <img src="http://pic.qiushibaike.com/system/pictures/11779/117795261/medium/app117795261.jpg" alt="我想变成妈妈的眼睛，这样我就可以一直粘在妈妈的身上">

#             </a>

#         </div>

#         查询所有图片所在的div标签内容

        content = soup.find_all('div',class_ = 'thumb')   #(jpg|JPG|jpeg)

#         links集合存放最终的图片的链接

        links = set()

#         再次过滤以获得图片的链接

        for i in content:

            temp_link = i.find_all('a',href=re.compile(r"/article/\d"))

            temp_linnk = temp_link[0].find('img',src=re.compile(r"\.(jpg|JPG|jpeg)"))

            temp_linnk = temp_linnk['src']

            links.add(temp_linnk)

        for link in links:

            try:

                picData = urllib2.urlopen(link,timeout=3).read()

            except:

                print "当前子链接打开失败。。"

                continue

            else:

                file_name = path + str(count) + '.jpg'

                count +=1

                f = file(file_name,"wb")

                f.write(picData)

                f.close()

                print "爬取第" + str(count) + "个链接" + link

print "恭喜你，爬取图片结束！！！！！！！！！！！！"

我的第一个python爬虫程序的更多相关文章

第一个python爬虫程序
1.安装Python环境官网https://www.python.org/下载与操作系统匹配的安装程序,安装并配置环境变量 2.IntelliJ Idea安装Python插件我用的idea,在工具 ...
一个python爬虫小程序
起因深夜忽然想下载一点电子书来扩充一下kindle,就想起来python学得太浅,什么“装饰器”啊.“多线程”啊都没有学到. 想到廖雪峰大神的python教程很经典.很著名.就想找找有木有pdf版的 ...
一个简单的python爬虫程序
python|网络爬虫概述这是一个简单的python爬虫程序,仅用作技术学习与交流,主要是通过一个简单的实际案例来对网络爬虫有个基础的认识. 什么是网络爬虫简单的讲,网络爬虫就是模拟人访问web ...
python爬虫程序
http://blog.csdn.net/pleasecallmewhy/article/details/8922826 此人的博客关于python爬虫程序分析得很好!
使用PyQt来编写第一个Python GUI程序
原文:使用PyQt来编写第一个Python GUI程序本文由伯乐在线 - Lane 翻译,Daetalus 校稿.未经许可,禁止转载!英文出处:pythonforengineers.com.欢迎加 ...
Day1：第一个python小程序
Day1:第一个python小程序与开发工具Pycharm 一.Hello World C:\Users\wenxh>python Python 3.6.2 (v3.6.2:5fd33b5, J ...
记我的第一个python爬虫
捣鼓了两天,终于完成了一个小小的爬虫代码.现在才发现,曾经以为那么厉害的爬虫,在自己手里实现的时候,也不过如此.但是心里还是很高兴的. 其实一开始我是看的慕课上面的爬虫教学视屏,对着视屏的代码一行行的 ...
我的第一个Python爬虫——谈心得
2019年3月27日,继开学到现在以来,开了软件工程和信息系统设计,想来想去也没什么好的题目,干脆就想弄一个实用点的,于是产生了做“学生服务系统”想法.相信各大高校应该都有本校APP或超级课程表之类的 ...
一个Python爬虫工程师学习养成记
大数据的时代,网络爬虫已经成为了获取数据的一个重要手段. 但要学习好爬虫并没有那么简单.首先知识点和方向实在是太多了,它关系到了计算机网络.编程基础.前端开发.后端开发.App 开发与逆向.网络安全. ...

随机推荐

Part 8 AngularJS filters
Filters in angular can do 3 different things 1. Format data 2. Sort data 3. Filter data Filters can ...
DWZ (JUI) 教程 tree 控件的选中事件
DWZ (JUI) 教程 tree 控件的选中事件先简单说一下流程第一步当然是先定义好回调事件了 function checkCallback(json){ ........... ...... ...
【学习笔记】【C语言】数组
1. 什么是数组数组,从字面上看,就是一组数据的意思,没错,数组就是用来存储一组数据的 2. 数组的特点只能存放一种类型的数据,比如int类型的数组.float类型的数组里面存放的数据称为“元素 ...
3DES 加解密，对长度不限制
#region 3DES /// <summary> /// 3DES加密 /// </summary> /// <param name="strString& ...
UI6_UIAlertContrller
// // ViewController.m // UI6_UIAlertContrller // // Created by zhangxueming on 15/7/7. // Copyright ...
转载:简单介绍Python中的try和finally和with方法
用 Python 做一件很平常的事情: 打开文件, 逐行读入, 最后关掉文件; 进一步的需求是, 这也许是程序中一个可选的功能, 如果有任何问题, 比如文件无法打开, 或是读取出错, 那么在函数内需要 ...
8款耀眼的jQuery/HTML5焦点图滑块插件
1.HTML5/CSS3超酷焦点图特效带前后翻页按钮今天要分享的这款HTML5/CSS3焦点图插件切换效果比较简单,但是外观和功能却十分强大.该CSS3焦点图在切换图片时,图片以淡入淡出的方式缩小 ...
【风马一族_Android】Android 前端内容1
Android 前端内容 4.1 View 类概述 4.1.1 关于 View //类型说明 view(视图)指的是用户界面组件的基本构建基块.一个视图占据屏幕上的矩形区域,负责绘图和事件处理.视图是 ...
Turn.js 实现翻书效果的学习与总结
最近CTO给我分配了一个移动端H5开发的任务,主要功能是需要实现翻书效果,我听过主要需求后,当时是呀!!!接下来自己尝试使用fullPage.js和Swiper来实现翻书效果,结果效果都不是非常的理想 ...
PHPcms 摘要
一常量 /** * 主要定义了路径常量,项目中经常用到 **/ define('PHPCMS_PATH',dirname(__FILE__).DIRECTORY_SEPARATOR);// 项目 ...

我的第一个python爬虫程序

我的第一个python爬虫程序的更多相关文章

随机推荐

热门专题