python 爬虫煎蛋网

import urllib.request

import os

from urllib import error

import re

import base64

def url_open(url):

    req = urllib.request.Request(url)

    req.add_header('User-Agent','Mozilla/5.0')

    try:

        response = urllib.request.urlopen(req)

    except error.HTTPError:

        print("有异常的url为：" + url)

        return ""

    else:

        html = response.read()

    return html

def get_page(url):

    if url != "":

        html = url_open(url).decode('utf-8')

        a = html.find('current-comment-page') + 23

        b = html.find(']',a)

    return html[a:b]

def find_image(url):

    image_addrs = []

    html = url_open(url).decode('utf-8')

    reg = r'class="img-hash">(.+)</span>'  # 正则表达式

    src_img = re.compile(reg)

    image_addrs_base64 = src_img.findall(html)

    for s in image_addrs_base64:

        image_addrs.append("http:"+ str(base64.b64decode(s).decode('utf-8')))#图片地址是用base64加密

    return image_addrs

def save_image(image_addrs):

    for each in image_addrs:

        filename = each.split('/')[-1]

        with open("picture/"+filename,'wb') as f:

            img = url_open(each)

            f.write(img)

def download_girls(pages = 20):

    url = 'http://jandan.net/ooxx/'

    page_num = int(get_page(url))

    for i in range(pages):

        page_num -= 1

        page_url = url + 'page-' + str(page_num) + '#comments'

        image_addrs = find_image(page_url)

        save_image(image_addrs)

if __name__ == '__main__':

    download_girls()

print("执行结束")

python 爬虫煎蛋网的更多相关文章

[Python爬虫]煎蛋网OOXX妹子图爬虫（1）——解密图片地址
之前在鱼C论坛的时候,看到很多人都在用Python写爬虫爬煎蛋网的妹子图,当时我也写过,爬了很多的妹子图片.后来煎蛋网把妹子图的网页改进了,对图片的地址进行了加密,所以论坛里面的人经常有人问怎么请求的 ...
手把手教你用Python爬虫煎蛋妹纸海量图片
我们的目标是用爬虫来干一件略污事情最近听说煎蛋上有好多可爱的妹子,而且爬虫从妹子图抓起练手最好,毕竟动力大嘛.而且现在网络上的妹子很黄很暴力,一下接受太多容易营养不量,但是本着有人身体就比较好的套路 ...
Python爬虫入门教程 18-100 煎蛋网XXOO图片抓取
写在前面很高兴我这系列的文章写道第18篇了,今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都 ...
python学习笔记（12）--爬虫下载煎蛋网图片
说明: 1. 这个其实是在下载漫画之前写的,比那个稍微简单点,之前忘放到博客备份了. 2. 不想说啥了,总结放到漫画那个里面吧! import urllib.request import re imp ...
Python 爬虫爬取煎蛋网图片
今天, 试着爬取了煎蛋网的图片. 用到的包: urllib.request os 分别使用几个函数,来控制下载的图片的页数,获取图片的网页,获取网页页数以及保存图片到本地.过程简单清晰明了直接上源代 ...
用python来抓取“煎蛋网”上面的美女图片，尺度很大哦！哈哈
所用Python环境为:python 3.3.2 用到的库为:urllib.request re 废话不多说,先上代码: import urllib.request import re #获 ...
Python Scrapy 爬取煎蛋网妹子图实例（一）
前面介绍了爬虫框架的一个实例,那个比较简单,这里在介绍一个实例爬取煎蛋网妹子图,遗憾的是上周煎蛋网还有妹子图了,但是这周妹子图变成了随手拍, 不过没关系,我们爬图的目的是为了加强实战应用,管 ...
python3爬虫.4.下载煎蛋网妹子图
开始我学习爬虫的目标 ----> 煎蛋网通过设置User-Agent获取网页,发现本该是图片链接的地方被一个js函数代替了于是全局搜索到该函数 function jandan_load_im ...
爬虫实例——爬取煎蛋网OOXX频道（反反爬虫——伪装成浏览器）
煎蛋网在反爬虫方面做了不少工作,无法通过正常的方式爬取,比如用下面这段代码爬取无法得到我们想要的源代码. import requests url = 'http://jandan.net/ooxx' ...

随机推荐

smarty模板的配置
smarty下载: http://www.smarty.net/download 建议使用一个兼容性好的smary版本. 太新的版本往往对php的版本支持不好. php推荐使用的模板是:sma ...
html如何让label在div中的垂直方向居中显示？
设置label的行高 line-height 和div的高度一致即可.
vue---设置缩进为4个空格
在使用vue-cli的时候,我们发现,默认编辑的时候,使用的缩进都是2个空格,即使是是编辑器设置了4个空格,在编译的时候,还是以2个空格进行缩进,那么如果将vue设置为4个空格呢? 具体方法在根目录找 ...
7.20 python线程3
2018-7-20 18:46:49 去俺弟家玩去后天回来 1.复习 # !/usr/bin/env python # !--*--coding:utf-8 --*-- # !@Time :2018 ...
Java -- 给定一个int数组，拼接出最大数值
public class ZhiJieTiaoDong { /* 给定一个数组:组合成最大数值 */ public String szpj(int[] args){ if(null == args | ...
POJ3660 Cow Contest【最短路-floyd】
N (1 ≤ N ≤ 100) cows, conveniently numbered 1..N, are participating in a programming contest. As we ...
codeforces 792D - Paths in a Complete Binary Tree
#include<cstdio> #include<iostream> #define lowbit(x) x&(-x) typedef long long ll; u ...
android call and audio
mount -o remount,rw -t yaffs2 /dev/block/mtdblock3 /system ConnCtl *:s android audio (http://blog.cs ...
数据库bcp导入导出批处理工具
应公司策划要求,需要一个数据库按表导入导出的工具配合svn来进行差异匹配,方便策划每天对数据库修改的记录工具,我使用bcp命令实现如下批处理工具,中间踩了不少坑,现保存在这边希望可以帮到需要此工具的同 ...
Frame报文
链路层帧常用的帧格式有两种:Ethernet II 与 IEEE802.3 Ethernet II 格式多用于终端设备的通信 IEEE802.3 格式多用于网络设备的通信如何区分这两种报文 ...

python 爬虫煎蛋网

python 爬虫煎蛋网的更多相关文章

随机推荐

热门专题