Colly是Go下功能比较完整的一个HTTP客户端工具.

安装

Win10

下载zip包, 直接解压至c:根目录. 如果不打算直接命令行使用, 可以不配置环境变量

Ubuntu

下载tar.gz, 解压至/opt, 可以不配置环境变量

Golang里的协程同步(等价于Java中的锁)

Mutex

在Go程序中为解决Race Condition和Data Race问题, 使用Mutex来锁定资源只能同时被一个协程调用, 通过 &sync.Mutex() 创建一个全局变量, 在子方法里面通过Lock()和Unlock()锁定和释放资源. 注意defer关键字的使用.

import (
"strconv"
"sync"
) var myBalance = &balance{amount: 50.00, currency: "GBP"} type balance struct {
amount float64
currency string
mu sync.Mutex
} func (b *balance) Add(i float64) {
b.mu.Lock()
b.amount += i
b.mu.Unlock()
} func (b *balance) Display() string {
b.mu.Lock()
defer b.mu.Unlock()
return strconv.FormatFloat(b.amount, 'f', 2, 64) + " " + b.currency
}

读写锁使用RWMutex, 在Mutex的基础上, 增加了RLock()和RUnlock()方法. 在Lock()时依然是互斥的, 但是RLock()与RLock()之间不互斥

import (
"strconv"
"sync"
) var myBalance = &balance{amount: 50.00, currency: "GBP"} type balance struct {
amount float64
currency string
mu sync.RWMutex
} func (b *balance) Add(i float64) {
b.mu.Lock()
b.amount += i
b.mu.Unlock()
} func (b *balance) Display() string {
b.mu.RLock()
defer b.mu.RUnlock()
return strconv.FormatFloat(b.amount, 'f', 2, 64) + " " + b.currency
}

Channel

Channel类似于Java中的Semaphore, 通过设置channel容量限制同时工作的协程数, channel满了之后协程会被阻塞

package main                                                                                                                                                           

import (
"fmt"
"time"
"strconv"
) func makeCakeAndSend(cs chan string) {
for i := 1; i<=3; i++ {
cakeName := "Strawberry Cake " + strconv.Itoa(i)
fmt.Println("Making a cake and sending ...", cakeName)
cs <- cakeName //send a strawberry cake
}
} func receiveCakeAndPack(cs chan string) {
for i := 1; i<=3; i++ {
s := <-cs //get whatever cake is on the channel
fmt.Println("Packing received cake: ", s)
}
} func main() {
cs := make(chan string)
go makeCakeAndSend(cs)
go receiveCakeAndPack(cs) //sleep for a while so that the program doesn’t exit immediately
time.Sleep(4 * 1e9)
}

可以设置channel的容量

c := make(chan Type, n)

Go的语法

Go的语法简介, 这一篇写得很好 https://zhuanlan.zhihu.com/p/98556883

Go语言的点括号语法

对于下面的语句

mpl := playlist.(*m3u8.MediaPlaylist)

表示将前面的对象转为 *m3u8.MediaPlaylist 类型,

这种类型转换用于在前面的表达式返回的结果存在多种可能时, 需要在使用前对类型进行固定. 也可以用于类型查询.

# 查询接口指向的对象实例是否是*MyStruct类型
if v1.(*MyStruct) # 查询接口指向的对象实例是否实现了MyInterface接口,要在运行期确定
if v2.(MyInterface)

又如

func DecodeWith(input interface{}, strict bool, customDecoders []CustomDecoder) (Playlist, ListType, error) {
switch v := input.(type) {
case bytes.Buffer:
return decode(&v, strict, customDecoders)
case io.Reader:
buf := new(bytes.Buffer)
_, err := buf.ReadFrom(v)
if err != nil {
return nil, 0, err
}
return decode(buf, strict, customDecoders)
default:
return nil, 0, errors.New("input must be bytes.Buffer or io.Reader type")
}
}

调用

f, err := os.Open(testCase.src)
if err != nil {
t.Fatal(err)
}
p, listType, err := DecodeWith(bufio.NewReader(f), true, testCase.customDecoders)

强制类型转换语法检测是否实现接口

_ Error = (*_Error)(nil)

这个一个强制类型转换语法检测是否实现接口的功能,nil就是空指针地址就是0,一个变量是具有类型和地址两个属性,强制类型转换只修改了类型,但是地址是原来那个(例如是nil),这样的转换的变量不用分配地址。例如下列代码:

var _ Context = (*ContextBase)(nil)

nil的类型是nil, 地址值为0,利用强制类型转换成了*ContextBase,返回的变量就是类型为*ContextBase地址值为0,然后Context=xx赋值, 如果xx实现了Context接口就没事,如果没有实现在编译时期就会报错,实现编译期间检测接口是否实现。

参考: golang中的四种类型转换总结   https://segmentfault.com/a/1190000022255009

Go的接口和实现类

Go代码中使用interface关键字标识一个接口定义,例如

type Device interface {
Flush() error // flush all previous writes to the device
MTU() (int, error) // returns the MTU of the device
Name() (string, error) // fetches and returns the current name
Events() chan Event // returns a constant channel of events related to the device
Close() error // stops the device and closes the event channel
}

但是对于这个接口的实现类,并不显式地声明与这个接口的关系,只要是实现了这些方法的结构体,都可以看作是这个接口的实现类

type NativeTun struct {
name string
tunFile *os.File
events chan Event
errors chan error
routeSocket int
} func (tun *NativeTun) Name() (string, error) {
var name string
...
return name, nil
} func (tun *NativeTun) File() *os.File {
return tun.tunFile
} func (tun *NativeTun) Events() chan Event {
return tun.events
} func (tun *NativeTun) Read(buff []byte, offset int) (int, error) {
select {
case err := <-tun.errors:
...
}
}

Go函数的不定参数

Go中可以使用不定参数, 如果有多个参数, 不定参数必须是参数列表中的最后一个

func showName(a ...string)  {
name := strings.Join(a," ")
fmt.Println(name)
}

使用不定参数时, 可以传入该类型切片的展开形式, 但是如果传入的是展开形式, 则其前后都不能再添加同类型参数, 例如

func main() {
name := []string{"11","22","33"}
showName(name...)
} func showName(a ...string) {
fmt.Println(strings.Join(a," "))
}

如果对showName(a ...string) 使用showName("test", name...) 或 showName(name..., "test")都会报语法错误.

但是对于func New(ctx context.Context, opts ...Option) (host.Host, error) , 可以使用 New(context.Background(), opts...)

如果在函数内修改了切片内的元素, 会影响到原切片.

Go 教程

网络编程 https://tumregels.github.io/Network-Programming-with-Go/

Go常用Package

time

用法详解 https://juejin.im/post/5ae32a8651882567105f7dd3

使用GoLand作为开发环境

GOROOT: go目录放到了/opt/go, 所以GOROOT默认指向的也是/opt/go

GOPATH: 在Settings->Go->GOPATH里Global GOPATH留空,设置项目的GOPATH, 指向 /home/milton/WorkGo

GOPROXY: 在Settings->Go->Go Modules下, 设置 Environments, GOPROXY=https://goproxy.cn

在GoLand内部的Terminal里查看环境变量, 命令 go env, 确认路径无误, 然后执行以下命令安装

# v1
go get -u github.com/gocolly/colly # v2
go get -u github.com/gocolly/colly/v2

下载项目依赖

# 在项目目录下运行
go mod download

基础使用

增加import

import "github.com/gocolly/colly/v2"

调用

func main() {
// Instantiate default collector
c := colly.NewCollector(
// Visit only domains: hackerspaces.org, wiki.hackerspaces.org
colly.AllowedDomains("hackerspaces.org", "wiki.hackerspaces.org"),
) // On every a element which has href attribute call callback
c.OnHTML("a[href]", func(e *colly.HTMLElement) {
link := e.Attr("href")
// Print link
fmt.Printf("Link found: %q -> %s\n", e.Text, link)
// Visit link found on page
// Only those links are visited which are in AllowedDomains
c.Visit(e.Request.AbsoluteURL(link))
}) // Before making a request print "Visiting ..."
c.OnRequest(func(r *colly.Request) {
fmt.Println("Visiting", r.URL.String())
}) // Start scraping on https://hackerspaces.org
c.Visit("https://hackerspaces.org/")
}

  

使用代理池

参考文档中的例子 http://go-colly.org/docs/examples/proxy_switcher/  这里的例子要注意两个问题

1. 初始化时, 需要设置AllowURLRevisit, 否则在访问同一URL时会直接跳过返回之前的结果

c := colly.NewCollector(colly.AllowURLRevisit())

2. 还需要设置禁用KeepAlive, 否则在多次访问同一网址时, 只会调用一次GetProxy, 这样达不到轮询代理池的效果, 相关信息 #392#366 , #339

c := colly.NewCollector(colly.AllowURLRevisit())

c.WithTransport(&http.Transport{
DisableKeepAlives: true,
})

Go 和 Colly笔记的更多相关文章

  1. golang学习笔记17 爬虫技术路线图,python,java,nodejs,go语言,scrapy主流框架介绍

    golang学习笔记17 爬虫技术路线图,python,java,nodejs,go语言,scrapy主流框架介绍 go语言爬虫框架:gocolly/colly,goquery,colly,chrom ...

  2. git-简单流程(学习笔记)

    这是阅读廖雪峰的官方网站的笔记,用于自己以后回看 1.进入项目文件夹 初始化一个Git仓库,使用git init命令. 添加文件到Git仓库,分两步: 第一步,使用命令git add <file ...

  3. js学习笔记:webpack基础入门(一)

    之前听说过webpack,今天想正式的接触一下,先跟着webpack的官方用户指南走: 在这里有: 如何安装webpack 如何使用webpack 如何使用loader 如何使用webpack的开发者 ...

  4. SQL Server技术内幕笔记合集

    SQL Server技术内幕笔记合集 发这一篇文章主要是方便大家找到我的笔记入口,方便大家o(∩_∩)o Microsoft SQL Server 6.5 技术内幕 笔记http://www.cnbl ...

  5. PHP-自定义模板-学习笔记

    1.  开始 这几天,看了李炎恢老师的<PHP第二季度视频>中的“章节7:创建TPL自定义模板”,做一个学习笔记,通过绘制架构图.UML类图和思维导图,来对加深理解. 2.  整体架构图 ...

  6. PHP-会员登录与注册例子解析-学习笔记

    1.开始 最近开始学习李炎恢老师的<PHP第二季度视频>中的“章节5:使用OOP注册会员”,做一个学习笔记,通过绘制基本页面流程和UML类图,来对加深理解. 2.基本页面流程 3.通过UM ...

  7. NET Core-学习笔记(三)

    这里将要和大家分享的是学习总结第三篇:首先感慨一下这周跟随netcore官网学习是遇到的一些问题: a.官网的英文版教程使用的部分nuget包和我当时安装的最新包版本不一致,所以没法按照教材上给出的列 ...

  8. springMVC学习笔记--知识点总结1

    以下是学习springmvc框架时的笔记整理: 结果跳转方式 1.设置ModelAndView,根据view的名称,和视图渲染器跳转到指定的页面. 比如jsp的视图渲染器是如下配置的: <!-- ...

  9. 读书笔记汇总 - SQL必知必会(第4版)

    本系列记录并分享学习SQL的过程,主要内容为SQL的基础概念及练习过程. 书目信息 中文名:<SQL必知必会(第4版)> 英文名:<Sams Teach Yourself SQL i ...

  10. 2014年暑假c#学习笔记目录

    2014年暑假c#学习笔记 一.C#编程基础 1. c#编程基础之枚举 2. c#编程基础之函数可变参数 3. c#编程基础之字符串基础 4. c#编程基础之字符串函数 5.c#编程基础之ref.ou ...

随机推荐

  1. CSS - 使图片自适应

    img {         height: 100%;         object-fit: cover; }

  2. [转帖]oracle导出千万级数据为csv格式

    当数据量小时(20万行内),plsqldev.sqlplus的spool都能比较方便进行csv导出,但是当数据量到百万千万级,这两个方法非常慢而且可能中途客户端就崩溃,需要使用其他方法. 一. sql ...

  3. [转帖]看看 Jmeter 是如何玩转 redis 数据库的

    柠檬小欧 2021-08-31 20:06420 Jmeter 作为当前非常受欢迎的接口测试和性能测试的工具,在企业中得到非常广泛的使用,而 Redis 作为缓存数据库,也在企业中得到普遍使用,那如何 ...

  4. [转帖]-O1,-O2,-O3编译优化知多少

    1.从.c文件到可执行文件,其间经历了几步? 高级语言是偏向人,按照人的思维方式设计的,机器对这些可是莫名奇妙,不知所谓.那从高级语言是如何过渡到机器语言的呢?这可是一个漫长的旅途呀! 其中,得经历这 ...

  5. [转帖]linux 调优各项监控指标小记

    https://z.itpub.net/article/detail/8A4E4E96522BD59D45AB5A4CA442EDB3 自开始负责生产环境部署,中间遇到了若干线上环境内存以及CPU的问 ...

  6. Win10 查看无线局域网的密码

    1. 打开命令行 输入 control 打开控制面板 2. 进入网络和共享中心 3. 打开连接 4. 使用如下进行查看.

  7. IIS 实现autoindex的简单方法 能够下载文件等.

    之前使用nginx 的autoindex on 的参数 能够实现了 nginx的 目录浏览查看文件 但是那是linux上面的 windows 上面很多 使用的 其实是 iis的居多 然后看了下 其实也 ...

  8. 数组查询includes

    let arr1 = ['kk', 'jo', 'll']; if (arr1.includes("kk")) {//[ɪnˈkluːz] console.log("找到 ...

  9. 【VictoriaMetrics】一个小优化:循环改查表,性能提升56.48 倍

    作者:张富春(ahfuzhang),转载时请注明作者和引用链接,谢谢! cnblogs博客 zhihu Github 公众号:一本正经的瞎扯 做了一个 vm-storage 数据文件 merge 的工 ...

  10. (数据科学学习手札122)Python+Dash快速web应用开发——内网穿透篇

    由我开源的先进Dash组件库feffery-antd-components正处于早期测试版本阶段,欢迎前往官网http://fac.feffery.tech/了解更多 1 简介 这是我的系列教程Pyt ...