用python写一个爬虫——爬取性感小姐姐

忍着鼻血写代码

今天写一个简单的网上爬虫，爬取一个叫妹子图的网站里面所有妹子的图片。

然后试着先爬取了三页，大概有七百多张图片吧！各个诱人的很，有兴趣的同学可以一起来爬一下，大佬级程序员勿喷，简单爬虫。

废话不多说直接上代码

网站地址：http://www.meizitu.com/a/more_1.html

from bs4 import BeautifulSoup

import random,os,requests

headers = {

    'User-Agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.13; rv:58.0) Gecko/20100101",

    'Referer': "http://i.meizitu.net"

}

def home_page(num,num2,headers):

    list_url = []

    for num in range(num,num2+1):

        url = "http://www.meizitu.com/a/more_%d.html"%num

        req = requests.get(url,headers=headers)

        req.encoding = req.apparent_encoding

        html = req.text

        bf = BeautifulSoup(html,'lxml')

        targets_url = bf.find_all(class_="pic")

        for each in targets_url:

            list_url.append(each.a.get('href'))

    return list_url

def deal_page(headers,list_url):

    list_url2 = []

    for targets_url2 in list_url:

        req = requests.get(targets_url2,headers=headers)

        req.encoding = "utf-8"

        html2 = req.text

        bf2 =  BeautifulSoup(html2,'lxml')

        targets_url3 = bf2.find_all(id="picture")

        # print(targets_url3)

        list_url2.append(targets_url3)

    return list_url2

def download(headers,list_url2):

    list_url3 = []

    # ================================

    print(list_url2)

    import re

    urls = re.findall(r'http.*?jpg',str(list_url2))

    print(urls,len(urls))

    for endurl in urls:

        filename = (endurl.split('/')[-3]) + (endurl.split('/')[-2]) +(endurl.split('/')[-1])

        print(endurl)

        print(filename)

        req3 = requests.get(endurl, headers=headers)

        root = "//Users//apple//Desktop//meizitu//"

        path = root + str(random.randrange(10000)) + filename

        if not os.path.exists(path):

            with open(path, 'wb') as f:

                f.write(req3.content)

            f.close()

            print("下载完成")

if __name__ == '__main__':

    num = int(input("请输入要爬取的起始页："))

    num2 = int(input("请输入终止页："))

    a = home_page(num,num2,headers)

    b = deal_page(headers, a)

    download(headers, b)

用python写一个爬虫——爬取性感小姐姐的更多相关文章

Python写网络爬虫爬取腾讯新闻内容
最近学了一段时间的Python,想写个爬虫,去网上找了找,然后参考了一下自己写了一个爬取给定页面的爬虫. Python的第三方库特别强大,提供了两个比较强大的库,一个requests, 另外一个Bea ...
Python编写网页爬虫爬取oj上的代码信息
OJ升级,代码可能会丢失. 所以要事先备份. 一開始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启示和聪神的原始代码, 网页爬虫走起! 已经有段时间没看Python, 这次网页爬虫的原始代码是 p ...
Python爬虫：爬取美拍小姐姐视频
最近在写一个应用,需要收集微博上一些热门的视频,像这些小视频一般都来自秒拍,微拍,美拍和新浪视频,而且没有下载的选项,所以只能动脑想想办法了. 第一步分析网页源码. 例如:http://video. ...
python爬取快手小姐姐视频
流程分析一.导入需要的三方库 import re #正则表表达式文字匹配 import requests #指定url,获取网页数据 import json #转化json格式 import os ...
如何手动写一个Python脚本自动爬取Bilibili小视频
如何手动写一个Python脚本自动爬取Bilibili小视频国庆结束之余,某个不务正业的码农不好好干活,在B站瞎逛着,毕竟国庆嘛,还让不让人休息了诶-- 我身边的很多小伙伴们在朋友圈里面晒着出去游玩 ...
Hello Python!用 Python 写一个抓取 CSDN 博客文章的简单爬虫
网络上一提到 Python,总会有一些不知道是黑还是粉的人大喊着:Python 是世界上最好的语言.最近利用业余时间体验了下 Python 语言,并写了个爬虫爬取我 csdn 上关注的几个大神的博客, ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
Python爬虫爬取数据的步骤
爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...

随机推荐

bolg迁移
博客已迁移至:http://www.s0nnet.com 欢迎大家继续关注!!! 2015-7-4
nodejs 上传文件 upload
只是现在主要用nodejs做后端了,所以记录一些上传文件的使用方法. 上传文件的主要方式: 1.form上传,优点是方便,缺点是没法回调,上传后返回的数据没法处理 2.ajax上传,优点是可控制,有回 ...
iOS应用开发最佳实践
<iOS应用开发最佳实践> 基本信息作者: 王浩出版社:电子工业出版社 ISBN:9787121207679 上架时间:2013-7-22 出版日期:2013 年8月开本:16 ...
AndroidPn源码分析（二）
接上篇: (一)客户端与服务器建立连接上一篇写到ClientSession createClientSession这里,创建一个客户端的session.在SessionManager类中创建了ses ...
3D空间中射线与三角形的交叉检测算法【转】
引言射线Ray,在3D图形学中有很多重要的应用.比如,pick操作就是使用射线Ray来实现的,还有诸如子弹射线的碰撞检测等等都可以使用射线Ray来完成.所以,在本次博客中,将会简单的像大家介绍下,如 ...
dotNet core 应用部署centos
---恢复内容开始--- 阅读目录需要安装的插件以及支撑架构安装dotnetSDK 安装jexus 安装supervisord 遇到问题汇总注意事项.扩展延伸需要安装的插件以及支撑架构 1.d ...
JAVA 从头开始<五>
一.反编译 java代码 javac编译后的class文件,想要看得懂,需要使用反编译工具使用bin目录下的java开发工具(javap.exe) 二.构造函数三.构造代码块 1.类中可能有多个构 ...
C# OleDbConnection对特定部分Excel的数据读取
最近在写winform程序,先来一个简单的. 读取特定部分Excel的数据读取,读取Excel第30行开始到H列的数据 using System;using System.Collections.Ge ...
Docker容器的自动化监控实现
本文由网易云发布. 近年来容器技术不断成熟并得到应用.Docker作为容器技术的一个代表,目前也在快速发展中,基于 Docker的各种应用也正在普及,与此同时 Docker对传统的运维体系也带来 ...
rabbitMQ的简单实例——amqp协议带数据回写机制
rabbitMQ是一种高性能的消息队列,支持或者说它实现了AMQP协议(advanced message queue protocol高级消息队列协议). 下面简单讲一讲一个小例子.我们首先要部署好r ...

用python写一个爬虫——爬取性感小姐姐

用python写一个爬虫——爬取性感小姐姐的更多相关文章

随机推荐

热门专题