爬取图虫网示例网址 https://wangxu.tuchong.com/23892889/

#coding=gbk

import requests

from fake_useragent import UserAgent

from lxml import etree

import urllib

import re

import os

pattern = 'https://(.+?)\.(.*).com'

# url = 'https://wangxu.tuchong.com/23892889/'

url = input("请输入图虫网图片地址:")

headers = {

    'User-Agent':UserAgent().chrome

}

response = requests.get(url,headers = headers)

e = etree.HTML(response.text)

img_path = '//article//img/@src'

img_urls = e.xpath(img_path)

# print(img_urls)

num = 1

for img_url in img_urls:

    response = requests.get(img_url,headers = headers)

    name = re.search(pattern,url).group(1)

    if os.path.exists("图虫_{}".format(name)):

        pass

    else:

        os.mkdir('图虫_{}'.format(name))

    urllib.request.urlretrieve(img_url, './图虫_{0}/图{1}.png'.format(name,num))

    print("第{}张图片下载完毕".format(num))

    num += 1

2020-07-15

爬取图虫网示例网址 https://wangxu.tuchong.com/23892889/的更多相关文章

python3爬虫-通过requests爬取图虫网
import requests from fake_useragent import UserAgent from requests.exceptions import Timeout from ur ...
python根据关键字以及id值爬取图虫网上高质量大图
import requests import re import os import time print("ready....") def downPic(dirs, keywo ...
爬虫 Scrapy框架爬取图虫图片并下载
items.py,根据需求确定自己的数据要求 # -*- coding: utf-8 -*- # Define here the models for your scraped items # # S ...
Python爬虫入门教程 10-100 图虫网多线程爬取
图虫网-写在前面经历了一顿噼里啪啦的操作之后,终于我把博客写到了第10篇,后面,慢慢的会涉及到更多的爬虫模块,有人问scrapy 啥时候开始用,这个我预计要在30篇以后了吧,后面的套路依旧慢节奏的, ...
Python爬虫训练：爬取酷燃网视频数据
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理项目目标爬取酷燃网视频数据 https://krcom.cn/ 环境 Py ...
Python Scrapy 爬取煎蛋网妹子图实例（一）
前面介绍了爬虫框架的一个实例,那个比较简单,这里在介绍一个实例爬取煎蛋网妹子图,遗憾的是上周煎蛋网还有妹子图了,但是这周妹子图变成了随手拍, 不过没关系,我们爬图的目的是为了加强实战应用,管 ...
Python -- 网络编程 -- 抓取网页图片 -- 图虫网
字符串(str)编码成字节码(bytes),字节码解码为字符串获取当前环境编码:sys.stdin.encoding url编码urllib.parse.quote() url解码urllib.pa ...
使用 Scrapy 爬取去哪儿网景区信息
Scrapy 是一个使用 Python 语言开发,为了爬取网站数据,提取结构性数据而编写的应用框架,它用途广泛,比如:数据挖掘.监测和自动化测试.安装使用终端命令 pip install Scrapy ...
Scrapy实战篇（一）之爬取链家网成交房源数据（上）
今天,我们就以链家网南京地区为例,来学习爬取链家网的成交房源数据. 这里推荐使用火狐浏览器,并且安装firebug和firepath两款插件,你会发现,这两款插件会给我们后续的数据提取带来很大的方便. ...

随机推荐

日期类&&包装类&&System类&&Math类&&Arrays数组类&&大数据类
day 07 日期类 Date 构造函数 Date():返还当前日期. Date(long date):返还指定日期 date:时间戳--->距离1970年1月1日零时的毫秒数常用方法日期 ...
[SCOI2016]背单词题解
背单词 https://www.luogu.com.cn/problem/P3294 前言: Trie树的省选题(瑟瑟发抖QAQ) 问题汇总:(请忽略) (1)对Trie字典树的运用不熟练 (2)没想 ...
错误记录-MySql.Data.MySqlClient.MySqlException (0x80004005): Timeout expired.
-- ::25.026 +: [ERR] Connection id "0HLQH64H76UL5", Request id "0HLQH64H76UL5:0000000 ...
每日一题 - 剑指 Offer 41. 数据流中的中位数
题目信息时间: 2019-06-30 题目链接:Leetcode tag: 大根堆小根堆难易程度:中等题目描述: 如何得到一个数据流中的中位数?如果从数据流中读出奇数个数值,那么中位数就是所有 ...
理解ASCII，Unicode和UTF-8关系
前言:之前一直就好奇这个问题,但是一直没解决,今天我总算明白了,感谢大佬们的科普转自:https://blog.csdn.net/Deft_MKJing/article/details/794604 ...
MySQL 快速删除大量数据（千万级别）的几种实践方案
笔者最近工作中遇见一个性能瓶颈问题,MySQL表,每天大概新增776万条记录,存储周期为7天,超过7天的数据需要在新增记录前老化.连续运行9天以后,删除一天的数据大概需要3个半小时(环境:128G, ...
day14总结
装饰器 """1.什么是装饰器器指的是工具/功能装饰指的是为被装饰对象添加额外的功能大白话:定义装饰器就是定义了一个函数,该函数就是用来为其他函数添加额外的功能的 ...
Centos 6.4最小化安装后的优化(2)
1.关闭不必要的服务众所周知,服务越少,系统占用的资源就会越少,所以应当关闭不需要的服务器.首先可以先看下系统中存在哪些已经开启了的服务.查看命令如下: ntsysv 下面列出的是需要启动的服务器, ...
Django2.0.6-Xadmin后台源码安装流程（python 3.8+django 2.0）
1. 命令行执行 pip install git+git://github.com/sshwsfc/xadmin.git@django2 2.修改url.py 3.修改setting.py 4.卸载x ...
数据可视化之powerBI基础（十一）Power BI中的数据如何导出到Excel中？
https://zhuanlan.zhihu.com/p/64415543 把Excel中数据加载到PowerBI中我们都已经熟悉了,但是怎么把在PowerBI中处理好的数据导出到Excel中呢?毕竟 ...

爬取图虫网 示例网址 https://wangxu.tuchong.com/23892889/

爬取图虫网 示例网址 https://wangxu.tuchong.com/23892889/的更多相关文章

随机推荐

热门专题

爬取图虫网示例网址 https://wangxu.tuchong.com/23892889/

爬取图虫网示例网址 https://wangxu.tuchong.com/23892889/的更多相关文章