宅男福利--利用Python简单爬图

Ver beta..代码粗陋。

使用说明以Windows为例, Python版本为2.7.6

确认你电脑已经安装了Python， Windows默认安装路径为C:\Python27。如果没有安装，先下载安装 https://www.python.org/download/releases/2.7.6
下载mechanize （mechanize-0.2.5.zip）和BeautifulSoup （beautifulsoup4-4.3.2.tar.gz）
解压缩mechanize-0.2.5.zip 到C:\mechanize-0.2.5，打开命令行（Windows键＋R键，输入cmd，回车），分别执行以下两条命令
```
cd C:\mechanize-0.2.5

C:\Python27\python setup.py install
```
解压缩beautifulsoup4-4.3.2.tar.gz 到C:\beautifulsoup4-4.3.2，打开命令行，执行命令
```
cd C:\beautifulsoup4-4.3.2

C:\Python27\python setup.py install
```
拷贝下面代码，保存到任意目录（如：C:\picture\meizitu_spider.py）

打开命令行，执行命令

cd C:\picture

C:\Python27\python meizitu_spider.py

查看文件夹 C:\picture\MeiziTu
Enjoy :-)

代码：

#!/usr/local/bin/python

# -*-coding=utf-8-*-

# Filename: meizitu_spider.py

import os

import mechanize

from bs4 import BeautifulSoup

br = mechanize.Browser()

br.set_handle_robots(False)

br.addheaders = [("User-Agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1")]

#br.set_proxies({"http": "proxy.host.com:port"})

def parse_url(url):

    br.open(url)

    response = br.response()

    soup = BeautifulSoup(response.read(), from_encoding='gb18030')

    return soup

def find_next_page(soup):

    page_nums = soup.find('div', id='wp_page_numbers').find_all('li');

    next_page_wrapper = page_nums[-2]

    return next_page_wrapper.find('a')

host = "http://www.meizitu.com/"

next_page_uri = ''

page_count = 1

parent_folder = 'MeiZiTu'

if(not(os.path.exists(parent_folder))):

    os.mkdir(parent_folder)

while True:

    print 'Start to parse PAGE %d' %page_count

    soup = parse_url(host + 'a/' + next_page_uri)

    next_page = find_next_page(soup)

    if next_page == None:

        break

    next_page_uri = next_page.get('href')

    for pic_link_wrapper in soup.find_all('div', attrs={'class':'metaRight'}):

        pic_link = pic_link_wrapper.find('a')

        album_soup = parse_url(pic_link.get('href'))

        album_name = os.path.join(parent_folder, pic_link.get_text())

        if(os.path.exists(album_name)):

            continue

        os.mkdir(album_name)

        for img in album_soup.find('div', id='picture').find_all('img'):

            img_src = img.get('src')

            img_name = img_src[img_src.rindex('/')+1:]

            picture_data = mechanize.urlopen(img_src)

            with open(os.path.join(album_name, img_name), 'wb') as picture:

                picture.write(picture_data.read())

    page_count += 1

宅男福利--利用Python简单爬图的更多相关文章

Python多线程爬图&Scrapy框架爬图
一.背景对于日常Python爬虫由于效率问题,本次测试使用多线程和Scrapy框架来实现抓取斗图啦表情.由于IO操作不使用CPU,对于IO密集(磁盘IO/网络IO/人机交互IO)型适合用多线程,对于 ...
python 简单爬取今日头条热点新闻(一)
今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...
Python简单爬取Amazon图片-其他网站相应修改链接和正则
简单爬取Amazon图片信息这是一个简单的模板,如果需要爬取其他网站图片信息,更改URL和正则表达式即可 1 import requests 2 import re 3 import os 4 de ...
爬虫实战【5】送福利！Python获取妹子图上的内容
[插入图片,妹子图首页] 哈,只敢放到这个地步了. 今天给直男们送点福利,通过今天的代码,可以把你的硬盘装的满满的~ 下面就开始咯! 第一步:如何获取一张图片假如我们知道某张图片的url,如何获取到 ...
利用python进行折线图，直方图和饼图的绘制
我用10个国家某年的GDP来绘图,数据如下: labels = ['USA', 'China', 'India', 'Japan', 'Germany', 'Russia', 'Brazil', ...
一、python简单爬取静态网页
一.简单爬虫框架简单爬虫框架由四个部分组成:URL管理器.网页下载器.网页解析器.调度器,还有应用这一部分,应用主要是NLP配合相关业务. 它的基本逻辑是这样的:给定一个要访问的URL,获取这个ht ...
如何利用python爬虫爬取爱奇艺VIP电影？
环境:windows python3.7 思路: 1.先选取你要爬取的电影 2.用vip解析工具解析,获取地址 3.写好脚本,下载片断 4.将片断利用电脑合成需要的python模块: ##第一 ...
Python简单爬取图书信息及入库
课堂上老师布置了一个作业,如下图所示: 就是简单写一个借书系统. 大概想了一下流程,登录-->验证登录信息-->登录成功跳转借书界面-->可查看自己的借阅书籍以及数量... 登录可以 ...
利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇，超详细教程
项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析词云可视化 2. ...

随机推荐

五、Socket之UDP异步传输文件-实现传输中取消传送
上一篇文章四.Socket之UDP异步传输文件中,只实现了传输开始前拒绝接收文件,没有实现文件传输进行的时候取消传送,这篇文章中我们就来介绍怎样实现这个功能. 在传输过程中取消文件的传送,有很多地方要 ...
centos6.5 安装jdk7和tomcat7
JDK安装: 安装说明系统环境:centos-6.5安装方式:rpm安装软件:jdk-7-linux-x64.rpm下载地址:http://www.oracle.com/technetwork/ja ...
Android_ViewPager
view1源代码及xml资源文件: <?xml version="1.0" encoding="utf-8"?> <LinearLayout ...
Swift基础学习01
相关网站:http://www.cnblogs.com/tt_mc/p/3871295.html 相关辅助操作: 可以在右边直接查看输出值可能出现的常见问题: 1.凡是=注意左右间距一样 2 ...
mfc简易加法
利用vs2013只做一个只有加法的计算器: 一.新建项目,然后如下图所示,进行选择,并创建. 二.下一步. 三.选择基于对话框,之后直接点完成四.在整个编译器的最左边找到工具箱,并点击. /** 为 ...
Mac Mysql5.7.11安装和卸载
初学者,被mysql的安装弄晕了,所以在此记录一下. 安装去http://www.mysql.com/downloads/, 选择最下方的MySQL Community Edition,点击MySQ ...
[Doc ID 433386.1]JSP Pages Hanging in R12 After Removing Cached Class Files in _pages
In this Document Symptoms Changes Cause Solution References Applies to: Oracle Application ...
CentOS7 发布 ASP.NET MVC 4 --- mono 4.6.0 + jexus 5.8.1
yum -y install gcc gcc-c++ yum -y install bison pkgconfig glib2-devel gettext make libpng-devel libj ...
gvim设置字体和隐藏菜单栏工具栏
liunx下面设置字体 set guifont=Monaco\ 注意空格的位置,其他写法不认哦! Windows下面设置 set guifont=Monaco:h 隐藏菜单栏 set guioptio ...
[MSDN] 使用 SharePoint 2013 中的 JavaScript 库代码完成基本操作
MSDN:http://msdn.microsoft.com/zh-cn/library/jj163201.aspx 了解如何编写代码以在 SharePoint 2013 中使用 JavaScript ...

宅男福利--利用Python简单爬图

宅男福利--利用Python简单爬图的更多相关文章

随机推荐

热门专题