Go语言实战-爬取校花网图片

一、目标网站分析

　　爬取校花网http://www.xiaohuar.com/大学校花所有图片。

经过分析，所有图片分为四个页面，http://www.xiaohuar.com/list-1-0.html，到 http://www.xiaohuar.com/list-1-3.html。

二、go代码实现

// 知识点

// 1. http 的用法，返回数据的格式、编码

// 2. 正则表达式

// 3. 文件读写

package main

import (

	"bytes"

	"fmt"

	"io/ioutil"

	"net/http"

	"os"

	"path/filepath"

	"regexp"

	"strings"

	"sync"

	"time"

	"github.com/axgle/mahonia"

)

var workResultLock sync.WaitGroup

func check(e error) {

	if e != nil {

		panic(e)

	}

}

func ConvertToString(src string, srcCode string, tagCode string) string {

	srcCoder := mahonia.NewDecoder(srcCode)

	srcResult := srcCoder.ConvertString(src)

	tagCoder := mahonia.NewDecoder(tagCode)

	_, cdata, _ := tagCoder.Translate([]byte(srcResult), true)

	result := string(cdata)

	return result

}

func download_img(request_url string, name string, dir_path string) {

	image, err := http.Get(request_url)

	check(err)

	image_byte, err := ioutil.ReadAll(image.Body)

	defer image.Body.Close()

	file_path := filepath.Join(dir_path, name+".jpg")

	err = ioutil.WriteFile(file_path, image_byte, 0644)

	check(err)

	fmt.Println(request_url + "\t下载成功")

}

func spider(i int, dir_path string) {

	defer workResultLock.Done()

	url := fmt.Sprintf("http://www.xiaohuar.com/list-1-%d.html", i)

	response, err2 := http.Get(url)

	check(err2)

	content, err3 := ioutil.ReadAll(response.Body)

	check(err3)

	defer response.Body.Close()

	html := string(content)

	html = ConvertToString(html, "gbk", "utf-8")

	// fmt.Println(html)

	match := regexp.MustCompile(`<img width="210".*alt="(.*?)".*src="(.*?)" />`)

	matched_str := match.FindAllString(html, -1)

	for _, match_str := range matched_str {

		var img_url string

		name := match.FindStringSubmatch(match_str)[1]

		src := match.FindStringSubmatch(match_str)[2]

		if strings.HasPrefix(src, "http") != true {

			var buffer bytes.Buffer

			buffer.WriteString("http://www.xiaohuar.com")

			buffer.WriteString(src)

			img_url = buffer.String()

		} else {

			img_url = src

		}

		download_img(img_url, name, dir_path)

	}

}

func main() {

	start := time.Now()

	dir := filepath.Dir(os.Args[0])

	dir_path := filepath.Join(dir, "images")

	err1 := os.MkdirAll(dir_path, os.ModePerm)

	check(err1)

	for i := 0; i < 4; i++ {

		workResultLock.Add(1)

		go spider(i, dir_path)

	}

	workResultLock.Wait()

	fmt.Println(time.Now().Sub(start))

}

编译

 go build -o go_spider/xiaohua/xiaohua_spider.exe .\go_spider\xiaohua\main.go

运行go文件

下载的图片

短短14秒钟下载了全部98张图片。看来go的速度就是这么快。

go第一次项目实战，成功！

Go语言实战-爬取校花网图片的更多相关文章

python实战项目 — 爬取校花网图片
重点: 1. 指定路径创建文件夹,判断是否存在 2. 保存图片文件 # 获得校花网的地址,图片的链接 import re import requests import time import os ...
Scrapy爬虫框架之爬取校花网图片
Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设 ...
python爬虫基础应用----爬取校花网视频
一.爬虫简单介绍爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...
scrapy爬取校花网男神图片保存到本地
爬虫四部曲,本人按自己的步骤来写,可能有很多漏洞,望各位大神指点指点 1.创建项目 scrapy startproject xiaohuawang scrapy.cfg: 项目的配置文件xiaohua ...
第六篇 - bs4爬取校花网
环境:python3 pycharm 模块:requests bs4 urlretrieve os time 第一步:获取网页源代码 import requests from bs4 imp ...
Python-爬取校花网视频(单线程和多线程版本)
一.参考文章 python爬虫爬取校花网视频,单线程爬取爬虫----爬取校花网视频,包含多线程版本上述两篇文章都是对校花网视频的爬取,由于时间相隔很久了,校花网上的一些视频已经不存在了,因此上述文 ...
爬取斗图网图片,使用xpath格式来匹配内容,对请求伪装成浏览器, Referer 防跨域请求
6.21自我总结一.爬取斗图网 1.摘要使用xpath匹配规则查找对应信息文件将请求伪装成浏览器 Referer 防跨域请求 2.爬取代码 #导入模块 import requests #爬取网址 ...
Requests 校花网图片爬取
纪念我们闹过的矛盾,只想平淡如水 import requestsimport reurl = 'http://www.xiaohuar.com/list-1-%s.html'for i in rang ...
二、Item Pipeline和Spider-----基于scrapy取校花网的信息
Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item. 每个Item Pipeline ...

随机推荐

剖析虚幻渲染体系（13）- RHI补充篇：现代图形API之奥义与指南
目录 13.1 本篇概述 13.1.1 本篇内容 13.1.2 概念总览 13.1.3 现代图形API特点 13.2 设备上下文 13.2.1 启动流程 13.2.2 Device 13.2.3 Sw ...
IPv6 DDNS 阿里云动态解析程序推荐： AliyunDdnsCSharp
IPV6 DDNS 设置概述中国移动宽带提供了公网IPv6地址,为了物尽其用,于是折腾了域名到IPv6 的解析服务. 平台使用的阿里云解析DNS,平台提供了接口可以方便的添加与修改解析地址. 本打 ...
任务信息的高级选项（Project）
<Project2016 企业项目管理实践>张会斌董方好编著张同学说,[高级]选项卡很重要,嗯,本妖深以为然! 这里的[高级]选项卡,是指[任务信息]里的,在默认视图下,只要双击某任 ...
JeeSite Spring Cloud安装搭建
引言 JeeSite Cloud 具备 JeeSite 4.x 的所有功能,是在 JeeSite 4.x 基础之上,完成的 Spring Cloud 分布式系统套件的整合.它利用 JeeSite 4. ...
Stun协议实现
在现实Internet网络环境中,大多数计算机主机都位于防火墙或NAT之后,只有少部分主机能够直接接入Internet.很多时候,我们希望网络中的两台主机能够直接进行通信(即所谓的P2P通信),而不需 ...
Spring Boot应用程序启动器
官网地址:https://docs.spring.io/spring-boot/docs/2.1.12.RELEASE/reference/html/using-boot-build-systems. ...
NLTK 3.2.5 documentation Installing NLTK
Installing NLTK NLTK requires Python versions 2.7, 3.4, or 3.5 Mac/Unix Install NLTK: run sudo pip i ...
c++基础之虚函数表指针和虚函数表创建时机
虚函数表指针虚函数表指针随对象走,它发生在对象运行期,当对象创建的时候,虚函数表表指针位于该对象所在内存的最前面. 使用虚函数时,虚函数表指针指向虚函数表中的函数地址即可实现多态. 虚函数表虚函数 ...
【LeetCode】1030. Matrix Cells in Distance Order 解题报告（Python）
作者: 负雪明烛 id: fuxuemingzhu 个人博客: http://fuxuemingzhu.cn/ 目录题目描述题目大意解题方法排序日期题目地址:https://leetcod ...
【LeetCode】304. Range Sum Query 2D - Immutable 解题报告（Python）
作者: 负雪明烛 id: fuxuemingzhu 个人博客: http://fuxuemingzhu.cn/ 目录题目描述题目大意解题方法预先求和相似题目参考资料日期题目地址:htt ...

Go语言实战-爬取校花网图片

一、目标网站分析

二、go代码实现

Go语言实战-爬取校花网图片的更多相关文章

随机推荐

热门专题