package main

import (
"fmt"
"github.com/antchfx/htmlquery"
"golang.org/x/net/html"
"io/ioutil"
"net/http"
"strconv"
"strings"
"sync"
"time"
) var (
url = "https://www.woyaogexing.com/shouji/"
referUrl = "https://www.woyaogexing.com/shouji/"
referImg = "img2.woyaogexing.com"
) func downloadUrl(url string, refer string) []byte { client := &http.Client{}
req, e := http.NewRequest("GET", url, nil)
handError(e) req.Header.Add("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36")
req.Header.Add("Referer", refer)
response, err := client.Do(req)
handError(err) defer response.Body.Close() byteContent, e := ioutil.ReadAll(response.Body)
handError(e)
return byteContent
} func parseContent(content []byte) []string {
reader := strings.NewReader(string(content))
html_node, i := html.Parse(reader)
handError(i) nodes, e := htmlquery.QueryAll(html_node, "//img/@src") handError(e)
var urls []string
for _, n := range nodes {
src := htmlquery.SelectAttr(n, "src")
urls = append(urls, src)
}
return urls
} func downloadImgs(url string, refer string,wg *sync.WaitGroup) {
prefix := strings.HasPrefix(url, "//img2")
if prefix != true {
return
}
defer wg.Done()
url = url[2:]
url = "http://"+url
fmt.Println("下载图片", url)
content := downloadUrl(url, referUrl)
str1 := strings.Split(url, "/")
file_name := str1[len(str1)-1]
file := ioutil.WriteFile("./imgs/"+file_name, content, 0777)
if file != nil {
fmt.Printf("下载图片%s 成功", file_name)
}
} func handError(err error) {
if err != nil {
fmt.Println(err)
}
} func main() { var wg sync.WaitGroup var totalPage = 10
for j:=0;j<=totalPage;j++{
wg.Add(1)
pageUrl := url+"index_"+strconv.Itoa(j) +".html"
go crawl(pageUrl)
wg.Done()
}
wg.Wait() time.Sleep(time.Second * 100)
} func crawl(url string ) {
var wg sync.WaitGroup byteContent := downloadUrl(url,referUrl)
urls := parseContent(byteContent)
fmt.Println(urls)
if len(urls) > 0 {
wg.Add(len(urls))
for _, v := range urls {
go downloadImgs(v, referImg,&wg)
}
wg.Wait()
}
}

  

go 多协程爬取图片的更多相关文章

  1. python协程爬取某网站的老赖数据

    import re import json import aiohttp import asyncio import time import pymysql from asyncio.locks im ...

  2. Python协程爬取妹子图(内有福利,你懂得~)

    项目说明: 1.项目介绍   本项目使用Python提供的协程+scrapy中的选择器的使用(相当好用)实现爬取妹子图的(福利图)图片,这个学会了,某榴什么的.pow(2, 10)是吧! 2.用到的知 ...

  3. 利用协程爬网页,自动切换io 精典案例:

    首先Python提供的协程库gevent好像并不能知道那些程序使用了io  所以要加一个补丁,mondey,以下同步和异步各爬一次的案例 : , from urllib import requesti ...

  4. python采用 多进程/多线程/协程 写爬虫以及性能对比,牛逼的分分钟就将一个网站爬下来!

    首先我们来了解下python中的进程,线程以及协程! 从计算机硬件角度: 计算机的核心是CPU,承担了所有的计算任务.一个CPU,在一个时间切片里只能运行一个程序. 从操作系统的角度: 进程和线程,都 ...

  5. 线程池、进程池(concurrent.futures模块)和协程

    一.线程池 1.concurrent.futures模块 介绍 concurrent.futures模块提供了高度封装的异步调用接口 ThreadPoolExecutor:线程池,提供异步调用 Pro ...

  6. Python进阶----异步同步,阻塞非阻塞,线程池(进程池)的异步+回调机制实行并发, 线程队列(Queue, LifoQueue,PriorityQueue), 事件Event,线程的三个状态(就绪,挂起,运行) ,***协程概念,yield模拟并发(有缺陷),Greenlet模块(手动切换),Gevent(协程并发)

    Python进阶----异步同步,阻塞非阻塞,线程池(进程池)的异步+回调机制实行并发, 线程队列(Queue, LifoQueue,PriorityQueue), 事件Event,线程的三个状态(就 ...

  7. 多线程 多进程 协程 Queue(爬虫代码)

    快速理解多进程与多线程以及协程的使用场合和特点 首先我们来了解下python中的进程,线程以及协程! 从计算机硬件角度: 计算机的核心是CPU,承担了所有的计算任务.一个CPU,在一个时间切片里只能运 ...

  8. Python3学习之路~10.2 协程、Greenlet、Gevent

    一 协程 协程,又称微线程,纤程.英文名Coroutine.一句话说明什么是线程:协程是一种用户态的轻量级线程. 协程拥有自己的寄存器上下文和栈.协程调度切换时,将寄存器上下文和栈保存到其他地方,在切 ...

  9. day35:线程队列&进程池和线程池&回调函数&协程

    目录 1.线程队列 2.进程池和线程池 3.回调函数 4.协程:线程的具体实现 5.利用协程爬取数据 线程队列 1.线程队列的基本方法 put 存 get 取 put_nowait 存,超出了队列长度 ...

随机推荐

  1. hexo博客front-matter格式

    通用格式 Front-matter 是文件最上方以 --- 分隔的区域,用于指定个别文件的变量,举例来说: --- title: Hello World date: 2013/7/13 20:46:2 ...

  2. [程序员代码面试指南]二叉树问题-找到二叉树中的最大搜索二叉树(树形dp)

    题意 给定一颗二叉树的头节点,已知所有节点的值都不一样,找到含有节点最多的搜索二叉子树,并返回这个树的头节点. 题解 在后序遍历过程中实现. 求解步骤按树形dp中所列步骤.可能性三种:左子树最大.右子 ...

  3. SpringBoot-03-配置之yaml语法学习

    3. SpringBoot配置 3.1 yaml语法学习 配置文件 Springboot使用一个全局的配置文件,配置文件名称固定 spplication.properties 语法结构:key=val ...

  4. Java Web学习(十二)Tomcat核心

    一.引言 其实按道理来说,学习Java web应该在前面的篇幅就写有关tomcat相关的知识点,不过近期看了一些资料,觉得以前仅仅只是知道用tomcat去发布我的项目,一些细节的东西也没有好好总结,这 ...

  5. spring cloud微服务快速教程之(十四)spring cloud feign使用okhttp3--以及feign调用参数丢失的说明

    0-前言 spring cloud feign 默认使用httpclient,需要okhttp3的可以进行切换 当然,其实两者性能目前差别不大,差别较大的是很早之前的版本,所以,喜欢哪个自己选择: 1 ...

  6. Spring Boot 第一弹,问候一下世界!!!

    持续原创输出,点击上方蓝字关注我吧 目录 前言 什么是Spring Boot? 如何搭建一个Spring Boot项目? 第一个程序 Hello World 依赖解读 什么是配置文件? 什么是启动类? ...

  7. 数据类型-字符串(str)

    1.只要是被单引号,双引号,三引号括起来的,都是字符串类型    2.字符串里面元素:单个字母,单个符号,都称之为一个元素 例如:s='hello!' (6个元素) len(数据)统计数据的长度pri ...

  8. synchronized 锁的升级

    synchronized 的基本认识 在多线程并发编程中 synchronized 一直是元老级角色,很 多人都会称呼它为重量级锁.但是,随着 Java SE 1.6 对 synchronized 进 ...

  9. Centos-进程运行状态-ps

    ps 显示系统进程在瞬间的运行状态 相关选项 -a 显示所有用户的进程,包含每个程序的完整路径 -x 显示所有系统程序,包括那些没有终端的程序 -u 显示使用者的名称和起始时间 -f  详细显示程序执 ...

  10. Java知识系统回顾整理01基础02面向对象03方法

    一.根据实例给出"方法"的定义 在LOL中,一个英雄可以做很多事情,比如超神,超鬼,坑队友 能做什么在类里面就叫做方法 比如队友残血正在逃跑,你过去把路给别人挡住了,导致他被杀掉. ...