python爬虫学习(1)__抓取煎蛋图片

#coding=utf-8

#python_demo 爬取煎蛋妹子图在本地文件夹

import requests

import threading

import time

import os

from bs4 import BeautifulSoup

#伪造头文件

headers = {

    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36',

    'Accept-Encoding': 'gzip',

    'Cookie': '1024679722=aada4mZxRMxqvInd7D6PSgq%2FIkpGFeGlZWAH1gqP8Q; __auc=57bffd35154a91de3cd5d3b1ddb; 1024679722=ebeaLZUFikSR1OE6lm5MJYJSV0V1DbcooxQr0CHu; jdna=596e6fb28c1bb47f949e65e1ae03f7f5#1467948344088; Hm_lvt_fd93b7fb546adcfbcf80c4fc2b54da2c=1467001661,1467189261,1467685014,1467857178; Hm_lpvt_fd93b7fb546adcfbcf80c4fc2b54da2c=1467948345; _ga=GA1.2.1739476572.1438849462; _gat=1'}

def saveImgs(*allUrl):

    if not os.path.exists('/home/zhanyunwu/jiandanpic'):

        os.mkdir('/home/zhanyunwu/jiandanpic') #在本地新建文件夹

    print allUrl

    if len(allUrl)!=0:

        print '当前页面有', len(allUrl), '张图片即将下载'

        for l in allUrl:

            filename='/home/zhanyunwu/jiandanpic/'+parseName(l)

            saveImg(l,filename)

            time.sleep(1)

    else:

        print '当前页面无图片下载'

def saveImg(url,filename):

    print '当前图片url：',str(url),'当前图片名称',filename

    # u=urllib2.urlopen(url)

    # data=u.read()

    reponse=requests.get(str(url),headers=headers)

    image=reponse.content

    # f=open(filename,'wb')

    with open(filename,'wb') as f:

        f.write(image)

def parseName(url):

    u=str(url).split('.')

    filename=str(url)[30:55]+'.'+u[-1]

    return filename

#getallImgUrl

def getAllImgUrl(url):

    allurl = []

    req=requests.get(url,headers=headers)

    # print req.status_code

    if req.status_code !=200:

        return allurl

    soup=BeautifulSoup(req.content,"lxml")

    links=soup.select('ol.commentlist img')

    print links

    for l in links:

        allurl.append(l.attrs.get('src'))

    return allurl

#多线程爬取

def crawler(n,m):

    for l in range(n,m):

        url = 'http://jandan.net/ooxx/page-' + str(l) + '#comments'

        u=getAllImgUrl(url)

        saveImgs(*u)

c1=threading.Thread(target=crawler,args=(1850,1900))

c2=threading.Thread(target=crawler,args=(1950,2000))

c3=threading.Thread(target=crawler,args=(2001,2064))

c1.start()

c2.start()

c3.start()

c1.join()

c2.join()

c3.join()

print 'success'

python爬虫学习(1)__抓取煎蛋图片的更多相关文章

python爬虫学习(2)__抓取糗百段子，与存入mysql数据库
import pymysql import requests from bs4 import BeautifulSoup#pymysql链接数据库 conn=pymysql.connect(host= ...
python爬虫学习：分布式抓取
前面的文章都是基于在单机操作,正常情况下,一台机器无论配置多么高,线程开得再多,也总会有一个上限,或者说成本过于巨大.因此,本文将提及分布式的爬虫,让爬虫的效率提高得更快. 构建分布式爬虫首先需要有多 ...
Python爬虫学习笔记之抓取猫眼的排行榜
代码: import json import requests from requests.exceptions import RequestException import re import ti ...
Golang分布式爬虫：抓取煎蛋文章|Redis/Mysql|56,961 篇文章
--- layout: post title: "Golang分布式爬虫:抓取煎蛋文章" date: 2017-04-15 author: hunterhug categories ...
Python爬虫实战四之抓取淘宝MM照片
原文:Python爬虫实战四之抓取淘宝MM照片其实还有好多,大家可以看 Python爬虫学习系列教程福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 本篇目标 1. ...
Python爬虫实战六之抓取爱问知识人问题并保存至数据库
大家好,本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括: Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法正则表 ...
一次Python爬虫的修改，抓取淘宝MM照片
这篇文章是2016-3-2写的,时隔一年了,淘宝的验证机制也有了改变.代码不一定有效,保留着作为一种代码学习. 崔大哥这有篇>>小白爬虫第一弹之抓取妹子图不失为学python爬虫的绝佳教 ...
[Java]使用HttpClient实现一个简单爬虫，抓取煎蛋妹子图
第一篇文章,就从一个简单爬虫开始吧. 这只虫子的功能很简单,抓取到”煎蛋网xxoo”网页(http://jandan.net/ooxx/page-1537),解析出其中的妹子图,保存至本地. 先放结果 ...
python爬虫学习01--电子书爬取
python爬虫学习01--电子书爬取 1.获取网页信息 import requests #导入requests库 ''' 获取网页信息 ''' if __name__ == '__main__': ...

随机推荐

ubuntu tengine 安装
参考文章:http://wangyan.org/blog/install-openssl-from-source.html http://www1.site90.com/Linux/405.html ...
mysql 主从一致性检查
我上一次遇到MySQL主从服务器数据一致性问题,想想是几年前的事情了,还依稀记得当时惊慌失措的情景,好在最后借助Maatkit解决了问题.几年后,当我再次面对同样的问题时,Maatkit已经不复存在, ...
Docker命令使用详解
其中<>括起来的参数为必选, []括起来为可选 docker -exec -i -t 3f407013d8c0 /bin/bash 进入容器 docker version查看dock ...
nginx 中出现nginx: [emerg] bind() to 0.0.0.0:80 failed (98: Address already in use)
有其他的程序占用的80端口.只需把相关程序关闭,fuser -k 80/tcp 然后再次 /usr/local/nginx/sbin/nginx,就能开启nginx服务了
ASP.net+MVC--2
1.ASP.NET MVC控制器 1)在Controllers文件夹下新建控制类 public class HelloWorld2Controller : Controller { public st ...
$(window)和$(document)
注意:本次测试采用的jquery1.9.1的版本 1. $(window).scrollTop() 和$(document).scrollTop()得出的结果是一样的 2. $(window).h ...
批量执行sql语句
基本使用 $sqls="sql语句1;sql语句2;sql语句n"; 或 $sqls="insert into xx;"; $sqls.="inse ...
Yii 权限分级式访问控制实现(非RBAC法)
以下由我们在信易网络公司开发项目的时候终结出的一些经验主要参考资料:yii官网http://www.yiiframework.com/wiki/60/yii framework 提供了2套权限访问系 ...
在ADO.NET中使用参数化SQL语句访问不同数据库时的差异
在ADO.NET中经常需要跟各种数据库打交道,在不实用存储过程的情况下,使用参数化SQL语句一定程度上可以防止SQL注入,同时对一些较难赋值的字段(如在SQL Server中Image字段,在Orac ...
block的用法和循环引用
一.block在OC中的用法可以分为大概一下几种. 1>用于成员属性,保存一段代码,可以替代代理传值. 比如说,创建一个ViewController控制器,点击屏幕就跳转到ModalViewCo ...

python爬虫学习(1)__抓取煎蛋图片

python爬虫学习(1)__抓取煎蛋图片的更多相关文章

随机推荐

热门专题