33行代码爬取妹子图片（bs4+urllib）

from bs4 import BeautifulSoup
import urllib2
import urllib
import lxml
import os

def get_imgs():
    image_couter = 1
    for i in range(1,20):
        url='http://www.tu11.com/xingganmeinvxiezhen/list_1_'+str(i)+".html"
        req=urllib2.Request(url)
        res=urllib2.urlopen(req)

        html_soup = BeautifulSoup(res, 'lxml')
        all_img_links=html_soup.find_all("img")
        print(all_img_links)
        #指定文件路径
        path = os.getcwd()
        new_path = os.path.join(path,"pictures")
        if not os.path.isdir(new_path):
            os.mkdir(new_path)
        new_path += "/"
        #下载图片

        for img_link in  all_img_links:
            file_name='%s.jpg'%image_couter
            img_url= img_link["src"]
            urllib.urlretrieve(img_url,new_path+file_name)
            image_couter +=1

#思路：用lxml解析域名，用urllib2的urlopen函数和find_all()获取图片的地址
urllib.urlretrieve()函数的传入url和文件名称加文件位置
用os定义设置一个文件再通过urlretrieve()导入

利用for循环实现翻页

成果展示：

33行代码爬取妹子图片（bs4+urllib）的更多相关文章

10行代码爬取全国所有A股/港股/新三板上市公司信息
摘要: 我们平常在浏览网页中会遇到一些表格型的数据信息,除了表格本身体现的内容以外,可能还想透过表格背后再挖掘些有意思或者有价值的信息.这时,可用python爬虫来实现.本文采用pandas库中的re ...
scrapy框架爬取妹子图片
首先,建立一个项目#可在github账户下载完整代码:https://github.com/connordb/scrapy-jiandan2 scrapy startproject jiandan2 ...
40行代码爬取猫眼电影TOP100榜所有信息
主要内容: 一.基础爬虫框架的三大模块二.完整代码解析及效果展示 1️⃣ 基础爬虫框架的三大模块 1.HTML下载器:利用requests模块下载HTML网页. 2.HTML解析器:利用re正则表 ...
Python的scrapy之爬取妹子图片
闲来无事,做的一个小爬虫项目爬虫主程序: import scrapy from ..items import MeiziItem class MztSpider(scrapy.Spider): na ...
python-python爬取妹子图片
# -*- conding=utf-8 -*- import requests from bs4 import BeautifulSoup import io url = "https:// ...
80 行代码爬取豆瓣 Top250 电影信息并导出到 CSV 及数据库
一.下载页面并处理二.提取数据观察该网站 html 结构可知该页面下所有电影包含在 ol 标签下.每个 li 标签包含单个电影的内容. 使用 XPath 语句获取该 ol 标签在 ol 标签中 ...
Python学习--两种方法爬取网页图片(requests/urllib)
实际上,简单的图片爬虫就三个步骤: 获取网页代码使用正则表达式,寻找图片链接下载图片链接资源到电脑下面以博客园为例子,不同的网站可能需要更改正则表达式形式. requests版本: import ...
python 爬取妹子
爬取妹子图片网址:https://www.mzitu.com/jiepai/ 2019-06-13 环境WIN10 1903 python 3.7.3 个人习惯先在IDLE中进行调试 import ...
Python协程爬取妹子图(内有福利，你懂得~)
项目说明: 1.项目介绍本项目使用Python提供的协程+scrapy中的选择器的使用(相当好用)实现爬取妹子图的(福利图)图片,这个学会了,某榴什么的.pow(2, 10)是吧! 2.用到的知 ...

随机推荐

python爬取拉勾网数据并进行数据可视化
爬取拉勾网关于python职位相关的数据信息,并将爬取的数据已csv各式存入文件,然后对csv文件相关字段的数据进行清洗,并对数据可视化展示,包括柱状图展示.直方图展示.词云展示等并根据可视化的数据做 ...
DRF 视图
目录一.DRF中的Request 二.前戏: 关于面向对象的继承三.初级版本 1. settings.py文件 -- 注册app 2. models.py文件 -- 创建表 3. admin.py ...
Visual Studio中Es6的开发环境搭建
1.打开终端,输入初始化代码.输入代码之后会在目录中出现package.json,可以在红色下划线上写上作者名和描述(不写也可以) npm init -y 2.安装Babel转换器 npm in ...
linux服务器无telnet等测试工具，测试http+json服务连通性
1. 问题描述: 1.公司内部服务器需要通过http接口方式访问另一公司内部接口服务器. 2.申请信息安全开通访问权限,但是只能开通到服务器+端口号,例如:192.168.1:8080,无ping权限 ...
mplayer+ffmpeg 组合截图
mplayer截图的优点:对于一个时长很长的视频,可以任意指定一个时间点截图,mplayer会直接跳到这个时间点开始解码截图: 缺点:由于是直接跳到指定的时间点,也就是直接跳过了之前的帧,这样解码出来 ...
Linux 提升逼格之命令别名分享
1, 使用场景 Linux下开发肯定是日常要用命令行的,命令行里包含了众多的命令和工具,例如: git.shell.以及一众系统命令等. 举个例子,码农最常用的 git add ,如果加上别名可设 ...
Spark on YARN资源申请
1.spark submit参数 $ ./bin/spark-submit --class path.to.your.Class --master yarn --deploy-mode cluster ...
request 中url拼接排序参数与签名算法
一.参数要求: { appId:应用在后台创建应用时分配的应用编号,与应用密钥一一对应 sign:按照当前请求参数名的字母序进行升序排列(排序时区分大小写,除sign外,其它值不为空的参数都参与签名) ...
洛谷P2285 【[HNOI2004]打鼹鼠】
每次打鼹鼠的机器人总是从某一次打鼹鼠的地方走过来的对鼹鼠出现时间从小到大排序 f[i]表示到第i个鼹鼠(打第i个)最多能打多少个鼹鼠 f[i]=max(f[j]+1)f[i]=max(f[j]+1) ...
个人永久性免费-Excel催化剂功能第48波-拆分工作薄内工作表，堪称Excel界的单反
一个工作薄有多个相同类型的工作表,然后想通过批量操作,把每个工作表都另存为一个工作薄文件,这个批量拆分工作薄,绝大多数插件都有此功能,就如懂点VBA的高级用户也常常有点不屑于用插件来完成,自己写向行V ...

33行代码爬取妹子图片（bs4+urllib）

33行代码爬取妹子图片（bs4+urllib）的更多相关文章

随机推荐

热门专题