Go语言实战-爬取校花网图片

一、目标网站分析

　　爬取校花网http://www.xiaohuar.com/大学校花所有图片。

经过分析，所有图片分为四个页面，http://www.xiaohuar.com/list-1-0.html，到 http://www.xiaohuar.com/list-1-3.html。

二、go代码实现

// 知识点

// 1. http 的用法，返回数据的格式、编码

// 2. 正则表达式

// 3. 文件读写

package main

import (

	"bytes"

	"fmt"

	"io/ioutil"

	"net/http"

	"os"

	"path/filepath"

	"regexp"

	"strings"

	"sync"

	"time"

	"github.com/axgle/mahonia"

)

var workResultLock sync.WaitGroup

func check(e error) {

	if e != nil {

		panic(e)

	}

}

func ConvertToString(src string, srcCode string, tagCode string) string {

	srcCoder := mahonia.NewDecoder(srcCode)

	srcResult := srcCoder.ConvertString(src)

	tagCoder := mahonia.NewDecoder(tagCode)

	_, cdata, _ := tagCoder.Translate([]byte(srcResult), true)

	result := string(cdata)

	return result

}

func download_img(request_url string, name string, dir_path string) {

	image, err := http.Get(request_url)

	check(err)

	image_byte, err := ioutil.ReadAll(image.Body)

	defer image.Body.Close()

	file_path := filepath.Join(dir_path, name+".jpg")

	err = ioutil.WriteFile(file_path, image_byte, 0644)

	check(err)

	fmt.Println(request_url + "\t下载成功")

}

func spider(i int, dir_path string) {

	defer workResultLock.Done()

	url := fmt.Sprintf("http://www.xiaohuar.com/list-1-%d.html", i)

	response, err2 := http.Get(url)

	check(err2)

	content, err3 := ioutil.ReadAll(response.Body)

	check(err3)

	defer response.Body.Close()

	html := string(content)

	html = ConvertToString(html, "gbk", "utf-8")

	// fmt.Println(html)

	match := regexp.MustCompile(`<img width="210".*alt="(.*?)".*src="(.*?)" />`)

	matched_str := match.FindAllString(html, -1)

	for _, match_str := range matched_str {

		var img_url string

		name := match.FindStringSubmatch(match_str)[1]

		src := match.FindStringSubmatch(match_str)[2]

		if strings.HasPrefix(src, "http") != true {

			var buffer bytes.Buffer

			buffer.WriteString("http://www.xiaohuar.com")

			buffer.WriteString(src)

			img_url = buffer.String()

		} else {

			img_url = src

		}

		download_img(img_url, name, dir_path)

	}

}

func main() {

	start := time.Now()

	dir := filepath.Dir(os.Args[0])

	dir_path := filepath.Join(dir, "images")

	err1 := os.MkdirAll(dir_path, os.ModePerm)

	check(err1)

	for i := 0; i < 4; i++ {

		workResultLock.Add(1)

		go spider(i, dir_path)

	}

	workResultLock.Wait()

	fmt.Println(time.Now().Sub(start))

}

编译

 go build -o go_spider/xiaohua/xiaohua_spider.exe .\go_spider\xiaohua\main.go

运行go文件

下载的图片

短短14秒钟下载了全部98张图片。看来go的速度就是这么快。

go第一次项目实战，成功！

Go语言实战-爬取校花网图片的更多相关文章

python实战项目 — 爬取校花网图片
重点: 1. 指定路径创建文件夹,判断是否存在 2. 保存图片文件 # 获得校花网的地址,图片的链接 import re import requests import time import os ...
Scrapy爬虫框架之爬取校花网图片
Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设 ...
python爬虫基础应用----爬取校花网视频
一.爬虫简单介绍爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...
scrapy爬取校花网男神图片保存到本地
爬虫四部曲,本人按自己的步骤来写,可能有很多漏洞,望各位大神指点指点 1.创建项目 scrapy startproject xiaohuawang scrapy.cfg: 项目的配置文件xiaohua ...
第六篇 - bs4爬取校花网
环境:python3 pycharm 模块:requests bs4 urlretrieve os time 第一步:获取网页源代码 import requests from bs4 imp ...
Python-爬取校花网视频(单线程和多线程版本)
一.参考文章 python爬虫爬取校花网视频,单线程爬取爬虫----爬取校花网视频,包含多线程版本上述两篇文章都是对校花网视频的爬取,由于时间相隔很久了,校花网上的一些视频已经不存在了,因此上述文 ...
爬取斗图网图片,使用xpath格式来匹配内容,对请求伪装成浏览器, Referer 防跨域请求
6.21自我总结一.爬取斗图网 1.摘要使用xpath匹配规则查找对应信息文件将请求伪装成浏览器 Referer 防跨域请求 2.爬取代码 #导入模块 import requests #爬取网址 ...
Requests 校花网图片爬取
纪念我们闹过的矛盾,只想平淡如水 import requestsimport reurl = 'http://www.xiaohuar.com/list-1-%s.html'for i in rang ...
二、Item Pipeline和Spider-----基于scrapy取校花网的信息
Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item. 每个Item Pipeline ...

随机推荐

Redis集群断电恢复
再集群整体断点或关闭后,默认启动集群后,会成为孤立的单点,需要删除每个节点的pid文件,node.conf.并将RDB和AOF文件移动出来,再挨个启动每个节点,并用create创建集群脚本,重新创建集 ...
gitlab 集成openldap
Setting up LDAP sign-in If you have an LDAP directory service such as Active Directory, you can conf ...
Tableau如何绘制凹凸图
一.把订单日期拖拽至列,把销售额拖拽至行,类别拖拽至标记,并把订单日期拖拽至筛选器选择2017年二.创建计算字段销售排名三.将刚刚创建的销售排名拖拽至行,计算依据-类别四.销量排名拖拽成两个,图 ...
解决用creact-react-app新建React项目不支持 mobx装饰器模式导致报错问题。
创建react项目 create-react-app mobx-demo cd my-app npm run start 使用react-app-rewired npm install customi ...
[BUUCTF]PWN3——warmup_csaw_2016
[BUUCTF]PWN3--warmup_csaw_2016 题目网址:https://buuoj.cn/challenges#warmup_csaw_2016 步骤: 例行检查,64位,没有开启任何 ...
替DateDif哭诉一把（Excel函数集团）
Excel中有个工作表函数DateDif,专门用来计算两日期之间的日差.月差.年差,传说十分好用. 具体用法在此就省略了,好奇的童鞋请自行*度~ 可是,在Excel里,他却是个"没户口&qu ...
CF1455A Strange Functions 题解
Content 定义一个函数 \(f(x)\) 为 \(x\) 翻转并去掉前导零之后的数,现在有 \(t\) 组询问,每组询问给定一个整数 \(n\),请求出对于所有的 \(1\leqslant x\ ...
JSR310-LocalDateTime序列化 & 反序列化
问题 springboot 版本:spring-boot 2.3.12 今天在开发一个redis 热key服务端的过程中,碰到2个问题: jdk8的LocalDateTime,LocalDate,Lo ...
VMware 打开虚拟机出现另一个程序已锁定文件的一部分，进程无法访问
打开虚拟机出现另一个程序已锁定文件的一部分,进程无法访问打不开磁盘"D:\Virtual Machines\CentOS 7 64 位\CentOS 7 64 位.vmdk"或 ...
【LeetCode】590. N-ary Tree Postorder Traversal 解题报告 (C++&Python)
作者: 负雪明烛 id: fuxuemingzhu 个人博客:http://fuxuemingzhu.cn/ 目录题目描述题目大意解题方法递归迭代相似题目参考资料日期题目地址:htt ...

Go语言实战-爬取校花网图片

一、目标网站分析

二、go代码实现

Go语言实战-爬取校花网图片的更多相关文章

随机推荐

热门专题