golang使用chrome headless获取网页内容

如今动态渲染的页面越来越多，爬虫们或多或少都需要用到headless browser来渲染待爬取的页面。

而最近广泛使用的headless browser解决方案PhantomJS已经宣布不再继续维护，转而推荐使用headless chrome。

那么headless chrome究竟是什么呢，Headless Chrome 是 Chrome 浏览器的无界面形态，可以在不打开浏览器的前提下，使用所有 Chrome 支持的特性运行你的程序。

简而言之，除了没有图形界面，headless chrome具有所有现代浏览器的特性，可以像在其他现代浏览器里一样渲染目标网页，并能进行网页截图，获取cookie，获取html等操作。

详细信息可以在这获取：https://developers.google.cn/web/updates/2017/04/headless-chrome

有关headless chrome如何使用网上有许多不错的文章，这里就不重复了。

想要在golang程序里使用headless chrome，需要借助一些开源库，实现和headless chrome交互的库有很多，这里选择chromedp，接口和Selenium类似，易上手。

安装：

go get -u github.com/chromedp/chromedp

引入：

import (

	"github.com/chromedp/chromedp"

        // runner用于配置headless chrome

	"github.com/chromedp/chromedp/runner" // 新版本中不需要再导入这个包了

)

创建headless chrome实例，每一个实例就相当于一个浏览器，可以用它浏览、调试网页内容，默认情况下chromedp会直接启动带GUI的chrome，所以需要使用runner启动headless chrome。默认端口为9222，可以自定义。

需要注意，chromedp在0.1.4版本中对api进行了较大的改动，因此接下来的示例中我会给出新api的用法，同时保留0.1.3及以前版本适用的例子。

// NewHeadless 创建headless chrome实例

// chromedp内部有自己的超时设置，你也可以通过ctx来设置更短的超时

func NewHeadless(ctx context.Context, starturl string) (*chromedp.CDP, error) {

	// runner.Flag设置启动headless chrome时的命令行参数

        // runner.URL设置启动时打开的URL

        // Windows用户需要设置runner.Flag("disable-gpu", true)，具体信息参见文档的FAQ

        run, err := runner.New(runner.Flag("headless", true),

		runner.URL(starturl))

	if err != nil {

		return nil, err

	}

        // run.Start启动实例

	err = run.Start(ctx)

	if err != nil {

		return nil, err

	}

        // 默认情况chromedp会输出大量log，因为是示例所以选择屏蔽，dropChromeLogs为自定义函数，形式为func(string, ...interface{}){}

        // 使用runner初始化chromedp实例

        // 实例在使用完毕后需要调用c.Shutdown()来释放资源

	c, err := chromedp.New(ctx, chromedp.WithRunner(run), chromedp.WithErrorf(dropChromeLogs))

	if err != nil {

		return nil, err

	}

	return c, nil

}

ctx, cancel := context.WithCancel(context.Background())

defer cancel()

cdp := NewHeadless(ctx, "www.cnblogs.com")

下面是0.1.4版本的api：

// 新版本中取消了cdp，将broeser对象和context合并在一起，方便了我们的操作

func NewHeadless() (context.Context, context.CancelFunc) {

    opts := make([]chromedp.ExecAllocatorOption, )

    opts = append(opts, chromedp.ProxyServer("http://127.0.0.1:8118"))

    opts = append(opts, chromedp.Flag("headless", true))

    allocator, cancel := chromedp.NewAllocator(context.Background(), chromedp.WithExecAllocator(opts...))

    return allocator, cancel

}

ctxt, cancel1 := NewHeadless()

defer cance1l()

c, cancel2 := chromedp.NewContext(ctxt)

defer cancel2()

新版本中不会输出多余的log，同时也会默认启用headless模式。

如果你需要在新版本的chromedp启动实例时指定一个url，你可以这样做：

broswer := chromedp.NewBroswer(c, startURL)

chromedp.FromContext(c).Browser = browser

实例启动后我们就能通过这个实例来访问你想爬取的URL了。

chromedp的实例类型为*chromedp.CDP，它拥有一个func (c *CDP) Run(ctxt context.Context, a Action) error 方法来执行所有的操作。

在新版本中chromedp通过Run方法执行所有操作，chromedp.CDP对象被chrome.Context取代，其原型为func Run(ctx context.Context, actions ...Action) error

Action是chromedp的api返回的对象，代表对headless chrome的一个操作，多个操作可以放入chromedp.Tasks里，它是一个元素为Action的slice，也可以作为Run的参数调用。

下面是部分常用的api：

// chromedp.Sleep使headless chrome睡眠d表示的时间长度

func Sleep(d time.Duration) Action

// chromedp.Navigate使浏览器访问参数给出的URL

func Navigate(urlstr string) Action

// chromedp.SendKeys向指定的html元素内输入内容

// sel是选择器字符串或是选择器要求的数据类型

// opts指定使用何种选择器

// 常用的选择器有:

// chromedp.ByID：根据id来选择元素

// chromedp.ByQuery：根据DOM.querySelector的规则选择元素

func SendKeys(sel interface{}, v string, opts ...QueryOption) Action

// chromedp.Submit将指定的元素（通常是form）提交

func Submit(sel interface{}, opts ...QueryOption) Action

// chromedp.WaitReady等待指定元素加载完毕

func WaitReady(sel interface{}, opts ...QueryOption) Action

// chromedp.Click在指定元素上触发鼠标点击事件

func Click(sel interface{}, opts ...QueryOption) Action

// chromedp.OuterHTML获取指定元素的HTML代码（包括其子元素）

// html参数用于存放返回的HTML

func OuterHTML(sel interface{}, html *string, opts ...QueryOption) Action

一个获取页面内容的小例子，更多例子在 https://github.com/chromedp/examples

// 获取服务列表

func GetServiceList(res *string) chromedp.Tasks {

	return chromedp.Tasks{

		// 访问服务列表

		chromedp.Navigate(ServiceListURL),

		// 等待直到body加载完毕

		chromedp.WaitReady("servicesList", chromedp.ByID),

		// 选择显示可用服务

		chromedp.Click("statusActive", chromedp.ByID),

                // 等待列表渲染

		chromedp.Sleep(2 * time.Second),

		// 获取获取服务列表HTML

		chromedp.OuterHTML("#servicesList table", res, chromedp.ByQuery),

	}

}

var html string

// cdp是chromedp实例

// ctx是创建cdp时使用的context.Context

err := cdp.Run(ctx, GetServiceList(&html) )

if err != nil {

    // 错误处理

}

// 成功取得HTML内容进行后续处理

fmt.Println(html)

新版本的示例：

var html string

// ctxt是chromedp的实例，用于执行网页操作

err := chromedp,Run(ctxt, GetServiceList(&html))

if err != nil {

    // error handle

}

// 成功取得数据

fmt.Println(html)

另外新版本中关闭chrome实例的方式也有所不同：

// 释放所有资源，并等待释放结束

cancel2()

// 官方给的是chromedp,FromContext(ctxt).Wait()，但是目前没有实现Wait方法

// 因此你可以像这样

chromedp.FromContext(ctxt).Broswer.Shutdown()

chromedp.FromContext(ctxt).Allocator,Wait()

因为目前新版本还很不稳定，所以推荐使用0.1.3版本。

至此golang通过chromedp(https://github.com/chromedp/chromedp)使用headless chrome进行动态网页的渲染和操作就介绍完了。

希望这篇文章能给你带来帮助，如有错误之处，欢迎交流指正。

golang使用chrome headless获取网页内容的更多相关文章

搭建golang学习环境，并用chrome headless获取网页内容
想用go练练手(我是win7系统,已从https://studygolang.com/dl 下载了go安装包并安装,比较简单,不详述. 但作为边民,没法go get ,又不敢用梯子,幸亏有爱心大牛们的 ...
反爬虫——使用chrome headless时一些需要注意的细节
以前我们介绍过chrome headless的用法(https://www.cnblogs.com/apocelipes/p/9264673.html). 今天我们要稍微提一下其中一个细节. 反爬和w ...
C#获取网页内容的三种方式(转)
搜索网络,发现C#通常有三种方法获取网页内容,使用WebClient.WebBrowser或者HttpWebRequest/HttpWebResponse... 方法一:使用WebClient (引用 ...
【C#】获取网页内容及HTML解析器HtmlAgilityPack的使用
最近经常需要下载一些东西,而这个下载地址又会经过层层跳转,每个页面上都有很多广告,烦不胜烦,所以做了一个一键获得最终下载地址的小工具.使用C#,来获取网页内容,然后通过HtmlAgilityPack获 ...
C#获取网页内容的三种方式
C#通常有三种方法获取网页内容,使用WebClient.WebBrowser或者HttpWebRequest/HttpWebResponse... 方法一:使用WebClient (引用自:http: ...
C#获取网页内容 (WebClient、WebBrowser和HttpWebRequest/HttpWebResponse)
获取网页数据有很多种方式.在这里主要讲述通过WebClient.WebBrowser和HttpWebRequest/HttpWebResponse三种方式获取网页内容. 这里获取的是包括网页的所有信息 ...
go golang 判断base64数据获取随机字符串截取字符串
go golang 判断base64数据获取随机字符串截取字符串先少写点,占个坑,以后接着加. 1,获取指定长度随机字符串 func RandomDigits(length int) strin ...
定义一个方法get_page(url),url参数是需要获取网页内容的网址，返回网页的内容。提示（可以了解python的urllib模块）
定义一个方法get_page(url),url参数是需要获取网页内容的网址,返回网页的内容.提示(可以了解python的urllib模块) import urllib.request def get_ ...
chrome headless 无头浏览器应用
1. 根据html生成pdf chrome.exe --headless --disable-gpu --print-to-pdf ...../index.html 2. puppeteer --- ...

随机推荐

代码图片转文本--阿里VS度娘
最近看vue的书,居然没有提供源代码,一堆的CSS真不想手工录入,于是用手机找APP去转.发现广告普遍,于是找找网上相关的API,结果百度和阿里都有在线的API提供,于是好奇其能力如何.如于用以下两图 ...
CentOS MariaDB 安装和配置
sudo vi /etc/yum.repos.d/mariadb.repo # MariaDB 10.1 CentOS repository list - created 2017-03-23 13: ...
第2周个人作业：WordCount
Github地址: https://github.com/hddddd/Wordcount 1.PSP表格 PSP2.1 PSP阶段预估耗时(分钟) 实际耗时(分钟) Planning 计划 30 ...
用JavaScript制作简单的计算器
<html > <head> <title>简单计算器</title> <style type="text/css"> ...
转Centos7.0进入单用户模式修改root密码
Centos7.0进入单用户模式修改root密码启动Centos7 ,按空格让其停留在如下界面. 按e进行编辑在UTF-8后面输入init=/bin/sh 根据提示按ctrl+x 得如下图输 ...
react整理一二（初入React世界）
react重要思想:组件化(按钮组件.对话框组件.日期组件等等).JSX语法 react把代码和正式渲染目标隔离开来,除了可以在浏览器渲染到DOM来开发网页,还能用于开发原生移动运用 1.专注视图层: ...
cvpr2018(转发一篇头条)
CVPR 2018:腾讯图像去模糊.自动人像操纵最新研究新智元 2018-05-29 14:13:04 新智元报道来源:腾讯优图编辑:江磊.克雷格 [新智元导读]即将在6月美国盐湖城举行的计算机 ...
1405ST软件测试课的要求补充说明
期末成绩由考勤.测试小结报告.实验报告.课堂问答.测试总结报告.(暂不安排笔试) 分数分配:考勤10%,测试小结(双周结)报告10%,实验报告30%,课堂问答20%,测试报告30% 考勤:任选10次 ...
ansible中include_tasks和import_tasks
简介本文主要总结下ansible里task调用的方法有哪些和它们的主要区别随着要管理的服务不断增多,我们又没将task放到roles里,会发现playbook文件越来越大,内容也越来越多,管理起 ...
转：Python: 什么是*args和**kwargs
今天看源码的时候发现一个是*args和**kwargs,一看就能知道args是神马,就是所有参数的数组,kwargs就不知道了,google一下,一个人的blog写的比较简单明了,秒懂了~~kwarg ...

golang使用chrome headless获取网页内容

golang使用chrome headless获取网页内容的更多相关文章

随机推荐

热门专题