我的第一个python爬虫程序

程序用来爬取糗事百科上的图片的，程序设有超时功能，具有异常处理能力

下面直接上源码：

#-*-coding:utf-8-*-

'''

Created on 2016年10月20日

@author: audi

'''

import urllib2

import re

from bs4 import BeautifulSoup

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

count = 0

path = "pic/tupian"

headers = {

           'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'

        }

for x in range(1,10):

    temp_url = "http://www.qiushibaike.com/imgrank/page/%d"%x

    req = urllib2.Request(

            url = temp_url,

            headers = headers

            )

    try:

        data = urllib2.urlopen(req,timeout=10).read()

    except:

        print "打开页面链接超时！！！！"

        continue

    else:

        print "打开页面成功，开始解析数据。。"

        soup=BeautifulSoup(data,'html.parser',from_encoding='utf-8')

#         图片链接的div标签格式

#         <div class="thumb">

#             <a href="/article/117795261" target="_blank">

#                 <img src="http://pic.qiushibaike.com/system/pictures/11779/117795261/medium/app117795261.jpg" alt="我想变成妈妈的眼睛，这样我就可以一直粘在妈妈的身上">

#             </a>

#         </div>

#         查询所有图片所在的div标签内容

        content = soup.find_all('div',class_ = 'thumb')   #(jpg|JPG|jpeg)

#         links集合存放最终的图片的链接

        links = set()

#         再次过滤以获得图片的链接

        for i in content:

            temp_link = i.find_all('a',href=re.compile(r"/article/\d"))

            temp_linnk = temp_link[0].find('img',src=re.compile(r"\.(jpg|JPG|jpeg)"))

            temp_linnk = temp_linnk['src']

            links.add(temp_linnk)

        for link in links:

            try:

                picData = urllib2.urlopen(link,timeout=3).read()

            except:

                print "当前子链接打开失败。。"

                continue

            else:

                file_name = path + str(count) + '.jpg'

                count +=1

                f = file(file_name,"wb")

                f.write(picData)

                f.close()

                print "爬取第" + str(count) + "个链接" + link

print "恭喜你，爬取图片结束！！！！！！！！！！！！"

我的第一个python爬虫程序的更多相关文章

第一个python爬虫程序
1.安装Python环境官网https://www.python.org/下载与操作系统匹配的安装程序,安装并配置环境变量 2.IntelliJ Idea安装Python插件我用的idea,在工具 ...
一个python爬虫小程序
起因深夜忽然想下载一点电子书来扩充一下kindle,就想起来python学得太浅,什么“装饰器”啊.“多线程”啊都没有学到. 想到廖雪峰大神的python教程很经典.很著名.就想找找有木有pdf版的 ...
一个简单的python爬虫程序
python|网络爬虫概述这是一个简单的python爬虫程序,仅用作技术学习与交流,主要是通过一个简单的实际案例来对网络爬虫有个基础的认识. 什么是网络爬虫简单的讲,网络爬虫就是模拟人访问web ...
python爬虫程序
http://blog.csdn.net/pleasecallmewhy/article/details/8922826 此人的博客关于python爬虫程序分析得很好!
使用PyQt来编写第一个Python GUI程序
原文:使用PyQt来编写第一个Python GUI程序本文由伯乐在线 - Lane 翻译,Daetalus 校稿.未经许可,禁止转载!英文出处:pythonforengineers.com.欢迎加 ...
Day1：第一个python小程序
Day1:第一个python小程序与开发工具Pycharm 一.Hello World C:\Users\wenxh>python Python 3.6.2 (v3.6.2:5fd33b5, J ...
记我的第一个python爬虫
捣鼓了两天,终于完成了一个小小的爬虫代码.现在才发现,曾经以为那么厉害的爬虫,在自己手里实现的时候,也不过如此.但是心里还是很高兴的. 其实一开始我是看的慕课上面的爬虫教学视屏,对着视屏的代码一行行的 ...
我的第一个Python爬虫——谈心得
2019年3月27日,继开学到现在以来,开了软件工程和信息系统设计,想来想去也没什么好的题目,干脆就想弄一个实用点的,于是产生了做“学生服务系统”想法.相信各大高校应该都有本校APP或超级课程表之类的 ...
一个Python爬虫工程师学习养成记
大数据的时代,网络爬虫已经成为了获取数据的一个重要手段. 但要学习好爬虫并没有那么简单.首先知识点和方向实在是太多了,它关系到了计算机网络.编程基础.前端开发.后端开发.App 开发与逆向.网络安全. ...

随机推荐

【学习笔记】【C语言】变量类型
根据变量的作用域,可以分为: 1.局部变量: 1> 定义:在函数(代码块)内部定义的变量(包括函数的形参) 2> 作用域:从定义变量的那一行开始,一直到代码块结束 3> 生命周期:从 ...
webSphere集群部署主要步骤
1.系统管理-节点,添加本机节点和另外一台机器的节点2.建立集群服务cluster,添加成员节点3.将应用部署到集群服务cluster4.将数据库源分别建立到节点作用域5.后续步骤参照安装手册注意事 ...
java mail jar冲突
开发环境:jdk1.6.0_25 MyEclipse-8.6 J2EE5 程序编译通过,J2EE5的库里面已经含有javaee.jar文件.里面的javax.mail包下面是jav ...
AngularJS中的MVC模式
MVC根据逻辑关系,把前端项目的代码分为三个层次 model:模型,就是业务数据,前端项目中就是JS变量. view:视图,就是业务数据在用户面前的展现,前端项目中就是HTML. controller ...
C语言电梯函数
#include <stdio.h> #include <time.h> #include <stdlib.h> void test(){//汉字输出 printf ...
《shell脚本if..then..elif..then.if语句的总结》
第一种: #!/bin/bash service vsftpd start &> /dev/null if [ $? -eq 0 ] then echo "ftp is sta ...
阿里云服务器 ECS Ubuntu系统安装配置
1. 登陆服务器系统开通成功后手机会收到阿里云发来的短信,包含公网IP及root登录密码. WEB管理后台方式可通过阿里云管理后台选择“连接管理终端…”进行登录提示输入VNC密码登录成功后显示 ...
yaf运行错误：Class 'Yaf_Application' not found
提示:致命错误 Yaf_Application 基类没有加载进去一检查:phpinfo() 里yaf 扩展有没有安装上扩展也安装进去了这时在分布式配置文件的重写也是正确这时百思不得其解,没办 ...
Flex-box 学习
.flex-cont{ /*定义为flexbox的“父元素”*/ display: -webkit-box; display: -webkit-flex; display: flex; /*子元素沿主 ...
验证中文、英文、电话、手机、邮箱、数字、数字和字母、Url地址和Ip地址的正则表达式
Helper类代码 public class Helper { #region 单列循环 private Helper() { } private static Helper instance = n ...

我的第一个python爬虫程序

我的第一个python爬虫程序的更多相关文章

随机推荐

热门专题