Python小爬虫，用Python3.X编写

import urllib.request  # 导入urlib.request模块
import re  # 导入re模块

# 获得每一页的网址并返回
def get_url(pageNumber):
    new_url = "http://jandan.net/ooxx/" + 'page-' + \
              str(pageNumber) + '#comments'
    return new_url

# 打开网址并返回
def url_open(url):
    # 添加文件头，看上去像是浏览器的访问
    f = urllib.request.Request(url)
    f.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64) \
      AppleWebKit/537.36 (KHTML, like Gecko)\
       Chrome/56.0.2924.87 Safari/537.36')
    # 打开网页并保存在变量中
    response = urllib.request.urlopen(url)
    html = response.read()
    return html

# 获取页码并返回
def get_page(url):
    htmlCode = url_open(url).decode('utf-8')
    pageA = htmlCode.find('current-comment-page') + 23
    pageB = htmlCode.find(']', pageA)
    pageNumber = htmlCode[pageA:pageB]
    return pageNumber

# 煎蛋网主页
main_url = "http://jandan.net/ooxx"

# *通过循环对每一页进行访问
pageNumber = int(get_page(main_url))
while pageNumber > 0:
    print(pageNumber)
    new_url = get_url(pageNumber)
    print(new_url)
    html = url_open(new_url)
    new_html = html.decode('utf-8')
    # 用正则表达式寻找图片的地址
    imageList = re.findall('src=".*\.(?:jpg|gif)', new_html)

    # *对一页中的每一张图片进行遍历，抓取每一张图片
    n = 1
    for i in imageList:
        # 获取图片的地址
        j = i.split('=')[-1]
        imgUrl = 'http:' + j.split('"')[1]
        # 保存图片到文件夹（D://pythonprogram/ooxx），文件夹可自行指定

        if '.jpg' in imgUrl:
            urllib.request.urlretrieve(imgUrl, \
                                   'D://pythonprogram/ooxx/%d-%d.jpg' % (pageNumber, n))
        else:
            urllib.request.urlretrieve(imgUrl, \
                                       'D://pythonprogram/ooxx/%d-%d.gif' % (pageNumber, n))
        n += 1

    pageNumber -= 1

Python小爬虫，用Python3.X编写的更多相关文章

python小爬虫练手
一个人无聊,写了个小爬虫爬取不可描述图片.... 代码太短,就暂时先往这里贴一下做备份吧. 注:这是很严肃的技术研究,当然爬下来的图片我会带着批判性的眼光审查一遍的.... :) #! /usr/ ...
【现学现卖】python小爬虫
1.给小表弟汇总一个院校列表,想来想去可以写一个小爬虫爬下来方便些,所以就看了看怎么用python写,到了基本能用的程度,没有什么特别的技巧,大多都是百度搜的,遇事不决问百度啦 2.基本流程就是: 用 ...
Python 小爬虫流程总结
接触Python3一个月了,在此分享一下知识点,也算是温故而知新了. 接触python之前是做前端的.一直希望接触面能深一点.因工作需求开始学python,几乎做的都是爬虫..第一个demo就是爬取X ...
Python 网络爬虫 005 (编程) 如何编写一个可以下载（或叫：爬取）一个网页的网络爬虫
如何编写一个可以下载(或叫:爬取)一个网页的网络爬虫使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:P ...
Python 网络爬虫 004 (编程) 如何编写一个网络爬虫，来下载（或叫：爬取）一个站点里的所有网页
爬取目标站点里所有的网页使用的系统:Windows 10 64位 Python语言版本:Python 3.5.0 V 使用的编程Python的集成开发环境:PyCharm 2016 04 一 . 首 ...
Python小爬虫-自动下载三亿文库文档
新手学python,写了一个抓取网页后自动下载文档的脚本,和大家分享. 首先我们打开三亿文库下载栏目的网址,比如专业资料(IT/计算机/互联网)http://3y.uu456.com/bl-197?o ...
整理python小爬虫
编码使我快乐!!! 我也不知道为什么,遇到自己喜欢的事情,就越想做下去,可以一个月不出门,但是不能一天没有电脑掌握程度:对python有了一个更清晰的认识,自动化运维,也许可以用python实现呢, ...
第一个Python小爬虫
这个爬虫是参考http://python.jobbole.com/81353/这篇文章写的这篇文章可能年代过于久远,所以有些代码会报错,然后我自己稍微修改了一下,增加了一个getContentAll ...
python 小爬虫爬取博客文章初体验
最近学习 python 走火入魔,趁着热情继续初级体验一下下爬虫,以前用 java也写过,这里还是最初级的爬取html,都没有用html解析器,正则等...而且一直在循环效率肯定### 很低下 imp ...

随机推荐

零基础学python-4.5 标准类型分类
1.按存储分:原子类型和容器类型原子类型:仅仅能包括一个对象容器类型:能够包括多个对象分类 python类型原子类型数值和字符串容器类型列表.元组和字典 2.按能否够变化分:可变和不可变 ...
NVIDIA GPU架构与原理分析（一）——GPU简介与主流Fermi、Kepler架构GPU概述
1 GPU简介图形处理单元GPU英文全称Graphic Processing Unit,GPU是相对于CPU的一个概念,NVIDIA公司在1999年发布GeForce256图形处理芯片时首先提出GP ...
Android 调用QQ登录
调用QQ登录在如今的项目开发.调用第三方登录.差点儿是必须的,而调用QQ登录也是不可缺少的,这里把相关代码分享出来,希望能拿去就能够用,降低项目开发的时间.希望对大家实用. 1,去QQ ...
Presenting view controllers on detached view controllers is discouraged
本文转载至 http://www.xuebuyuan.com/2117943.html Presenting view controllers on detached view controllers ...
【BZOJ4407】于神之怒加强版莫比乌斯反演
[BZOJ4407]于神之怒加强版 Description 给下N,M,K.求 Input 输入有多组数据,输入数据的第一行两个正整数T,K,代表有T组数据,K的意义如上所示,下面第二行到第T+1行, ...
Java基础知识查漏一
Java基础知识查漏一 Jdk和jre Jdk是java程序设计师的开发工具,只要包含编译程序,jvm和java函数库 Jre中只有jvm和java函数库,没有编译程序的相关工具,适合只运行不撰写j ...
c# winform窗体间的传值
说明:本文讲解两个窗体之间的传值,主要用到两个窗体,form1,form2 1.在form1窗体单击按钮,打开窗体form2,然后把form2中文本框的值传递给form1 form1中的代码: usi ...
file descriptor 0 1 2 一切皆文件 stdout stderr stdin /dev/null 沉默是金 pipes
$>emtry_or_create_a_file.f $ll>>append_a_file.f standard output input error $ls -l /usr/bin ...
Spring 配置JNDI数据源
1.Spring 提供的JNDI调用类. 2.使用weblogic进行部署项目,所以使用WebLogicNativeJdbcExtrator类进行配置. 3.配置完数据源后配置sessionFacto ...
原来 Set 集合也可以排序
Java 集合类主要由两个接口派生而出: Collection 和 Map.在 Collection 集合中,我们经常用到的是 List 集合和 Map 集合,而 Set 集合出场的机会就相对比较的少 ...

Python小爬虫，用Python3.X编写

Python小爬虫，用Python3.X编写的更多相关文章

随机推荐

热门专题