一、写在前面

  其实早就该写这一篇博客了,为什么一直没有写呢?还不是因为忙不过来(实际上只是因为太懒了)。不过好了,现在终于要开始写这一篇博客了。在看这篇博客之前,可能需要你对 Go 这门语言有些基本的了解,比如基础语法之类的。话不多说,进入正题。

二、Go 环境配置

1.安装配置

  在学习一门语言时,第一步就是环境配置了,Go 也不例外,下面就是 Windows 下 Go 开发环境的配置过程了。

  首先你需要下载 Go 的安装包,可以打开 Go 语言中文网下载,地址为:https://studygolang.com/dl

  下载完成后打开安装(例如安装到 E:\Go 目录),然后配置环境变量,将安装目录下的 bin 目录路径加入环境变量中。这一步完成后打开命令行,输入 go version,若出现版本信息则表明配置成功。

2.配置 GOPATH 和 GOROOT

  除了要将 bin 目录加入到环境变量中,还要配置 GOPATH 和 GOROOT,步骤如下:

  在用户变量中新建变量 GOPATH:

  

  在系统变量中新建变量 GOROOT:

  

3. 选择 IDE

  在 IDE 的选择上,我比较推荐使用 jetbrains 家的 GoLand,功能强大,使用起来也很方便。

三、下载网页

  下载网页使用的是 Go 中原生的 http 库,在使用前需要导包,和 Python 一样用 import 导入即可。如果要发送 GET 请求,可以直接使用 http 中的 Get() 方法,例如:

 package main

 import (
"fmt"
"net/http"
) func main () {
html, err := http.Get("https://www.baidu.com/")
if err != nil {
fmt.Println(err)
}
fmt.Println(html)
}

  Get() 方法有两个返回值,html 表示请求的结果,err 表示错误,这里必须对 err 做判断,Go 语言的错误机制就是这样,这里不多做解释。

  这么用起来确实很简单,但是不能自己设置请求头,如果要构造请求头的话可以参考下面的例子:

 req, _ := http.NewRequest("GET", url, nil)
// Set User-Agent
req.Header.Add("UserAgent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36")
client := &http.Client{}
resp, err := client.Do(req)

四、解析网页

1.解析库选择

  Go 语言中可以用来解析网页的库也是很齐全的,XPath、CSS 选择器和正则表达式都能用。这里我用的是 htmlquery,这个库使用的是 Xpath 选择器。htmlquery 是用于 HTML 的 XPath 数据提取库,可通过 XPath 表达式从 HTML 文档中提取数据。Xpath 语法就不提了,毕竟用 Python 写爬虫的时候没少用。

  先说下 htmlquery 的安装吧,一般会推荐你使用如下命令安装:

go get github.com/antchfx/htmlquery

  但是你懂的,出于某些原因就下载不下来,怎么办呢?对于这种能在 GitHub 上找到的库直接 clone 到本地就行了,记得要复制到你的 GOAPTH 下

2.使用 htmlquery

  在使用 htmlquery 这个库的时候,可能会报错说缺少 golang.org\x\text,和上面的解决办法一样,去 GitHub 上找,然后 clone 下来。

  下面是 htmlquery 中经常使用的方法及相应含义:

func Parse(r io.Reader) (*html.Node, error):  返回给定 Reader 的 HTML 的解析树。

func Find(top *html.Node, expr string) []*html.Node: 搜索与指定 XPath 表达式匹配的 html.Node。

func FindOne(top *html.Node, expr string) *html.Node: 搜索与指定 XPath 表达式匹配的 html.Node,并返回匹配的第一个元素,可简单理解为 FindOne = Find[0]

func InnerText(n *html.Node) string: 返回对象的开始和结束标记之间的文本。
 
func SelectAttr(n *html.Node, name string) (val string): 返回指定名称的属性值。

func OutputHTML(n *html.Node, self bool) string: 返回包含标签名称的文本。

  下面是使用 htmlquery 解析网页的代码:

 // Used to parse html
func parse(html string) {
// Parse html
root, _ := htmlquery.Parse(strings.NewReader(html))
titleList := htmlquery.Find(root, `//*[@id="post_list"]/div/div[2]/h3/a/text()`)
hrefList := htmlquery.Find(root, `//*[@id="post_list"]/div/div[2]/h3/a/@href`)
authorList := htmlquery.Find(root, `//*[@id="post_list"]/div/div[2]/div/a/text()`) // Traverse the result
for i := range titleList {
blog := BlogInfo{}
blog.title = htmlquery.InnerText(titleList[i])
blog.href = htmlquery.InnerText(hrefList[i])
blog.author = htmlquery.InnerText(authorList[i])
fmt.Println(blog)
}
}

  需要注意的是由于在 Go 语言中不支持使用单引号来表示字符串,而要使用反引号“`”和双引号来表示字符串。然后因为 Find() 方法返回的是一个数组,因而需要遍历其中每一个元素,使用 for 循环遍历即可。在 for 循环中使用到的 BlogInfo 是一个结构体,表示一个博客的基本信息,定义如下:

 // Used to record blog information
type BlogInfo struct {
title string
href string
author string
}

五、Go 并发

    在 Go 语言中使用 go 关键字开启一个新的 go 程,也叫 goroutine,开启成功之后,go 关键字后的函数就将在开启的 goroutine 中运行,并不会阻塞当前进程的执行,所以要用 Go 来写并发还是很容易的。例如:

 baseUrl := "https://www.cnblogs.com/"
for i := 2; i < 4; i ++ {
url := baseUrl + "#p" + strconv.Itoa(i)
// fmt.Println(url)
go request(url)
} // Wait for goroutine
time.Sleep(2 * time.Second)
request(baseUrl)

  这里除了在主进程中有一个 request(),还开启了两个 go 程来执行 request()。不过要注意的是,一旦主进程结束,其余 Go 程也会结束,所以我这里加了一个两秒钟的等待时间,用于让 Go 程先结束。

六、体验总结

  由于我本身才刚开始学习 Go,就还有很多东西没有学到,所以这个初体验其实还有很多没写到的地方,比如数据保存,去重问题等等,后面会去多看看 Go 的官方文档。当然了,对我来说,要写爬虫的话还是会用 Python 来写的,不过还是得花时间学习新知识,比如使用 Go 做开发,熟悉掌握 Go 语言就是我的下一目标了。

  完整代码已上传到 GitHub

【Go 入门学习】第一篇关于 Go 的博客--Go 爬虫初体验的更多相关文章

  1. VHDL语法入门学习第一篇

    1. 现在先遇到一个VHDL的语法问题,以前没用过VHDL,现在要去研究下,进程(PROCESS) 进程内部经常使用IF,WAIT,CASE或LOOP语句.PROCESS具有敏感信号列表(sensit ...

  2. LAUNCHXL-28379D入门学习-第一篇

    1. 首先安装controlSUITE或者C2000ware软件,TI官网下载,安装后包括C2000的函数库和例程之类的,还可以和CCS搭配使用.controlSUITE安装完之后大约4个G,所以我安 ...

  3. Python入门学习笔记4:他人的博客及他人的学习思路

    看其他人的学习笔记,可以保证自己不走弯路.并且一举两得,即学知识又学方法! 廖雪峰:https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958 ...

  4. Entity Framework 6.0 入门系列 第一篇

    Entity Framework 6.0 入门系列 第一篇 好几年前接触过一些ef感觉不是很好用,废弃.但是 Entity Framework 6.0是经过几个版本优化过的产物,性能和功能不断完善,开 ...

  5. LINQ to XML LINQ学习第一篇

    LINQ to XML LINQ学习第一篇 1.LINQ to XML类 以下的代码演示了如何使用LINQ to XML来快速创建一个xml: public static void CreateDoc ...

  6. 从.Net到Java学习第一篇——开篇

    以前我常说,公司用什么技术我就学什么.可是对于java,我曾经一度以为“学java是不可能的,这辈子不可能学java的.”结果,一遇到公司转java,我就不得不跑路了,于是乎,回头一看N家公司交过社保 ...

  7. Elasticsearch7.X 入门学习第一课笔记----基本概念

    原文:Elasticsearch7.X 入门学习第一课笔记----基本概念 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https: ...

  8. Java并发包下锁学习第一篇:介绍及学习安排

    Java并发包下锁学习第一篇:介绍及学习安排 在Java并发编程中,实现锁的方式有两种,分别是:可以使用同步锁(synchronized关键字的锁),还有lock接口下的锁.从今天起,凯哥将带领大家一 ...

  9. JVM学习第一篇思考:一个Java代码是怎么运行起来的-上篇

    JVM学习第一篇思考:一个Java代码是怎么运行起来的-上篇 作为一个使用Java语言开发的程序员,我们都知道,要想运行Java程序至少需要安装JRE(安装JDK也没问题).我们也知道我们Java程序 ...

随机推荐

  1. DataStructure之线性表以及其实现

    线性表 应用:多项式的表示 什么是线性表 多项式表示问题给出的启示: 同一个问题可以有不同的表示(存储)方法 有一类共性问题 : 有序线性序列的租住和管理 “线性表(Linear List)” : 由 ...

  2. 用阿里官网提供的plupload oss的web直传,视频上传进行前端验证它的时长,尺寸,大小等。替换上一个不需要的单个视频

    accessid = '' accesskey = '' host = '' policyBase64 = '' signature = '' callbackbody = '' filename = ...

  3. 弄明白CMS和G1,就靠这一篇了

    目录 1 CMS收集器 安全点(Safepoint) 安全区域 2 G1收集器 卡表(Card Table) 3 总结 4 参考 在开始介绍CMS和G1前,我们可以剧透几点: 根据不同分代的特点,收集 ...

  4. Sublime Text3工具的安装、破解、VIM功能vintage插件教程(已经实践、绝对可用)

          工欲善其事,必先利其器.Sublime Text是一款很好的开发工具,开发php项目很好用,尤其是Sublime Text的一些插件功能,可以享用VIM的快捷编辑和html.js等自动补全 ...

  5. 不吹不黑也不撕,我们就简简单单谈谈Vue

    Vue在近两年中得到了快速的发展,17年初开始,市场上对Vue开发者的需求量越来越大,北京在招的前端职位中40%的岗位对Vue技能有要求,在杭州,虽然React仍然是主力框架,但是Vue使用的比例也在 ...

  6. 实用---生命游戏 Java

    本程序由四个类组成: 其中Init_data,用于初始化各个活细胞的状态judge_state,用于判断下一代的细胞状态,并进行更新.set_color,用于给GUI界面中各个细胞涂色set_fram ...

  7. Maven安装和在IDEA配置Maven

    一.Windows安装Maven 1.下载Maven 这里需要注意:不要去官网下载最新的版本,因为会出现与IDEA不兼容的现象. 这里提供下载地址:https://archive.apache.org ...

  8. 两分钟让你明白Go中如何继承

    最近在重构代码的时候,抽象了大量的接口.也使用这些抽象的接口做了很多伪继承的操作,极大的减少了代码冗余,同时也增加了代码的可读性. 然后随便搜了一下关于Go继承的文章,发现有的文章的代码量过多,并且代 ...

  9. Mybaits 源码解析 (一)----- 搭建一个mybatis框架(MyBatis HelloWorld)

    源码分析之前先搭一个mybatis的demo,这个在看源码的时候能起到了很大的作用,因为在看源码的时候,会恍然大悟,为什么要这么配置,为什么要这么写.(老鸟可以跳过这篇) 开发环境的准备 创建mave ...

  10. 实现Button的动态响应

    按下不同的Button实现不同的逻辑 但用同样的代码: using System.Reflection; namespace valuableBook { /// <summary> // ...