RosimmImage

爬取Rosimm写真网站图片

有图有真相

def main_start(url):

    """

    爬虫入口，主要爬取操作

    """

    try:

        r = requests.get(url+'.html', headers=HEADERS, timeout=10).text

        print(url+'.html')

        name_index = 0

        # 套图名，也作为文件夹名

        folder_name = BeautifulSoup(r, 'lxml').find(

            'h1',class_='article-title').find('a').text.encode('ISO-8859-1').decode('utf-8')

        with lock:

            if make_dir(folder_name):

                # 套图张数

                max_count = BeautifulSoup(r, 'lxml').find(

                    'div',class_='pagination2').find_all('li')[-2].find('a').get_text()

                print('-------max_count-----'+max_count)

                # 套图页面

                page_urls=[]

                for i in range(1,(int(max_count)+1)):

                    if i==1:

                        page_urls.append(url + '.html')

                    else:

                        page_urls.append(url + '_' + str(i)+'.html')

                # 图片地址

                for index, page_url in enumerate(page_urls):

                    print('-----page_url-----'+page_url)

                    result = requests.get(

                        page_url, headers=HEADERS, timeout=10).text

                    img_url=BeautifulSoup(result,'lxml').find('article',class_='article-content').find_all('img')

                    for s_img_url in img_url:

                        real_img='http://www.rosimm8.com'+s_img_url.get('src')

                        print('-----real_img-----'+real_img)

                        name_index=name_index+1

                        save_pic(real_img,name_index)

    except Exception as e:

        print(e)

全部代码传送门：https://github.com/SiberiaDante/RosimmImage

仅供学习参考使用

Python轻松爬取Rosimm写真网站全部图片的更多相关文章

python连续爬取多个网页的图片分别保存到不同的文件夹
python连续爬取多个网页的图片分别保存到不同的文件夹作者:vpoet mail:vpoet_sir@163.com #coding:utf-8 import urllib import ur ...
python爬虫---爬取王者荣耀全部皮肤图片
代码: import requests json_headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win ...
python 3 爬取某小说网站小说，注释详细
目标:每一个小说保存成一个txt文件思路:获取每个小说地址(图一),进入后获取每章节地址(图二),然后进入获取该章节内容(图三)保存文件中.循环效果图: 每一行都有注释,不多解释了 import ...
Python爬虫爬取美剧网站
一直有爱看美剧的习惯,一方面锻炼一下英语听力,一方面打发一下时间.之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前一样同步更新了.但是,作为一个宅diao ...
Python——Scrapy爬取链家网站所有房源信息
用scrapy爬取链家全国以上房源分类的信息: 路径: items.py # -*- coding: utf-8 -*- # Define here the models for your scrap ...
python爬虫–爬取煎蛋网妹子图片
前几天刚学了python网络编程,书里没什么实践项目,只好到网上找点东西做. 一直对爬虫很好奇,所以不妨从爬虫先入手吧. Python版本:3.6 这是我看的教程:Python - Jack -Cui ...
Python爬虫爬取百度贴吧的图片
根据输入的贴吧地址,爬取想要该贴吧的图片,保存到本地文件夹,仅供参考: #!/usr/bin/python#_*_coding:utf-8_*_import urllibimport urllib2i ...
Python 爬虫-爬取京东手机页面的图片
具体代码如下: __author__ = 'Fred Zhao' import requests from bs4 import BeautifulSoup import os from urllib ...
python爬虫爬取ip记录网站信息并存入数据库
import requests import re import pymysql #10页仔细观察路由 db = pymysql.connect("localhost",&quo ...

随机推荐

web自动化--如何在不同页面间游刃有余
大家都知道,selenium中对页面元素的操作都是基于当前页面进行操作的,有时会有这种情况,在这个页面操作完一个步骤后,要去另一个页面查看,这就涉及到页面间的操作 # -*- coding:utf-8 ...
web自动化-窗口句柄及位置变化
在进行web自动化时,很容易会遇到多窗口进行切换测试,下面就对多窗口的一些句柄和切换及窗口句柄顺序简单总结一下 from selenium import webdriver driver = webd ...
jQuery EasyUI combobox多选及赋值
1.多选属性multiple multiple:true多选 multiple:false单选 <input class="easyui-combobox" id=&qu ...
理解OSI参考模型
在一个视频网站上不小心搜到网络知识的视频,突然以前大学的没有真正接受的知识点,一下子豁然开朗,赶紧整理了下笔记. 一.OSI参考模型自下而上:物理层(物理介质,比特流).数据链路层(网卡.交换机). ...
yii2 修改验证码小部件样式
<?= $form->field($model, 'verifyCode',['labelOptions' => ['class' => 'yanzhengma','style ...
docker swarm英文文档学习-11-上锁你的集群来保护你的加密密钥
Lock your swarm to protect its encryption key上锁你的集群来保护你的加密密钥在Docker 1.13及更高版本中,默认情况下,群管理器使用的Raft日志在 ...
sw-stream
https://github.com/kumavis/sw-stream ServiceWorkerStream and ServiceWorkerGlobalListener This a util ...
HashMap的扩容机制---resize()
虽然在hashmap的原理里面有这段,但是这个单独拿出来讲rehash或者resize()也是极好的. 什么时候扩容:当向容器添加元素的时候,会判断当前容器的元素个数,如果大于等于阈值---即当前数组 ...
Python2.7-内置类型
1.布尔型:True.False 2.数值型:int.float.long.complex 3.迭代器型:有 __iter__() 方法和 next() 方法,生成器也是其中一种 4.序列型(sequ ...
DRF跨域,简单请求和复杂请求
跨域就是跨域名,跨端口 - 为什么会有跨域? 浏览器有同源限制策略 - 绕过浏览器同源策略就可以跨域 - 方式一: jsonp(利用浏览器特性) 在html动态创建script标签同源策略会阻止a ...

Python轻松爬取Rosimm写真网站全部图片

RosimmImage

爬取Rosimm写真网站图片

有图有真相

Python轻松爬取Rosimm写真网站全部图片的更多相关文章

随机推荐

热门专题