python 简单的爬虫

import urllib.request

import re

import ssl  # 处理https请求

import time

import os  # 创建目录用

def get_html(url):

    page = urllib.request.urlopen(url)

    html = page.read()  # 返回的是 <class 'bytes'> 需要转码为字符串类型

    html = html.decode('utf-8')  # 返回的是 <class 'str'>

    return html

reg = 'src="(.+?\.jpg)" width'  # 正则表达式

reg_img = re.compile(reg)  # 编译一下，运行更快

ssl._create_default_https_context = ssl._create_unverified_context  # 因为爬虫对象是https链接，导入一个ssl模块就可以解决问题

imglist = reg_img.findall(get_html('http://tieba.baidu.com/p/1753935195'))  # 进行匹配

def mkdir(path):

    # 去除首位空格

    path = path.strip()

    # 去除尾部 \ 符号

    path = path.rstrip("\\")

    # 判断路径是否存在

    # 存在     True

    # 不存在   False

    isExists = os.path.exists(path)

    # 判断结果

    if not isExists:

        # 如果不存在则创建目录

        # 创建目录操作函数

        os.makedirs(path)

        print(path + ' 创建成功')

        return True

    else:

        # 如果目录存在则不创建，并提示目录已存在

        print(path + ' 目录已存在')

        return False

# 定义要创建的目录

mkpath = "picture"

# 调用函数

picture = mkdir(mkpath)

x = 0

for img in imglist:

    urllib.request.urlretrieve(img, mkpath+'/%s.jpg' % time.time())

    x += 1

print("图片下载完成")

python 简单的爬虫的更多相关文章

Selenium + PhantomJS + python 简单实现爬虫的功能
Selenium 一.简介 selenium是一个用于Web应用自动化程序测试的工具,测试直接运行在浏览器中,就像真正的用户在操作一样 selenium2支持通过驱动真实浏览器(FirfoxDrive ...
Python简单网络爬虫实战—下载论文名称，作者信息（下）
在Python简单网络爬虫实战—下载论文名称,作者信息(上)中,学会了get到网页内容以及在谷歌浏览器找到了需要提取的内容的数据结构,接下来记录我是如何找到所有author和title的 1.从sou ...
亲身试用python简单小爬虫
前几天基友分享了一个贴吧网页,有很多漂亮的图片,想到前段时间学习的python简单爬虫,刚好可以实践一下. 以下是网上很容易搜到的一种方法: #coding=utf-8 import urllib i ...
python简单页面爬虫入门 BeautifulSoup实现
本文可快速搭建爬虫环境,并实现简单页面解析 1.安装 python 下载地址:https://www.python.org/downloads/ 选择对应版本,常用版本有2.7.3.4 安装后,将安装 ...
Python 简单网页爬虫学习
#coding=utf-8 # 参考文章: # 1. python实现简单爬虫功能 # http://www.cnblogs.com/fnng/p/3576154.html # 2. Python 2 ...
python简单的爬虫，网页图片
1 #!/usr/bin/python 2 #coding=utf-8 3 import urllib 4 import re 5 6 def gethtml(url): 7 page=urllib. ...
Python简单分布式爬虫
分布式爬虫采用主从模式.主从模式是指由一台主机作为控制节点,负责管理所有运行网络爬虫的主机(url管理器,数据存储器,控制调度器),爬虫只需要从控制节点哪里接收任务,并把新生成任务提交给控制节点.此次 ...
python简单小爬虫爬取易车网图片
上代码: import requests,urllib.request from bs4 import BeautifulSoup url = 'http://photo.bitauto.com/' ...
Python简单网页爬虫——极客学院视频自动下载
http://blog.csdn.net/supercooly/article/details/51003921

随机推荐

dhroid - NetJSONAdapter 网络化的adapter
关于adapter 我想对于大家来说已经不陌生了,基本应用都会用的很多,不知道现在你是不是还是按一定的套路写很多代码去实现adapter我想大多数人还是写个adapter继承自baseadapter ...
Python2.7设置在shell脚本中自动补全功能的方法
1.新建tab.py文件 #!/usr/bin/env python # python startup file import sys import readline import rlcomplet ...
js模拟点击打开超链接
js模拟点击打开超链接,页面上有一些锚文本,如果用 JS 批量在新窗口打开. jquery示例: <div class="link"> <a href=" ...
django之admin设置
Django自带的后台管理是Django明显特色之一,可以让我们快速便捷管理数据.后台管理可以在各个app的admin.py文件中进行控制.以下是我最近摸索总结出比较实用的配置.若你有什么比较好的配置 ...
Ubuntu下更改Vim配置文件打造C/C++风格
转载:Ubuntu下更改Vim配置文件打造C/C++风格 Vim默认的配置使用起来还不能让人满意,还需要自己配置默认配置文件是:/etc/vim/vimrc我们可以在家目录下建立自己的配置文件切换到 ...
SQL Fundamentals：Restricting and Sorting Data限制和排序数据（FROM-WHERE-SELECT-ORDER BY）
SQL Fundamentals || Oracle SQL语言控制操作的显示列:基本的SELECT语句控制行:限定查询和排序显示分组统计查询限定查询:WHERE字句排序显示:ORDER B ...
python面向对象高级：Mixin多重继承
继上一篇学习笔记:python面向对象的继承与多态,本篇就Mixin扩展类的方法写下学习笔记 Mixin Mixin编程是一种开发模式,是一种将多个类中的功能单元的进行组合的利用的方式,这听起来就像是 ...
PHPExcel exception: “Could not close zip file … ”报错
Q: PHPExcel exception: “Could not close zip file … ” A:目录没有写权限,chmod 对$phpExcel->save($dir)中报错路径设 ...
php iconv() : Detected an illegal character in input string
php iconv() : Detected an illegal character in input string_php技巧_脚本之家 https://www.jb51.net/article/ ...
2018/03/09 每日一学PHP 之 require_once require include include_once 包含文件的区别
require_once require include include_once 方法的区别对于包含文件来说,如果只是使用框架来说的话,应该会很少碰到,因为框架底层对于文件的引用等做了很好的封装, ...

python 简单的爬虫

python 简单的爬虫的更多相关文章

随机推荐

热门专题