如今动态渲染的页面越来越多,爬虫们或多或少都需要用到headless browser来渲染待爬取的页面。

而最近广泛使用的headless browser解决方案PhantomJS已经宣布不再继续维护,转而推荐使用headless chrome。

那么headless chrome究竟是什么呢,Headless Chrome 是 Chrome 浏览器的无界面形态,可以在不打开浏览器的前提下,使用所有 Chrome 支持的特性运行你的程序。

简而言之,除了没有图形界面,headless chrome具有所有现代浏览器的特性,可以像在其他现代浏览器里一样渲染目标网页,并能进行网页截图,获取cookie,获取html等操作。

详细信息可以在这获取:https://developers.google.cn/web/updates/2017/04/headless-chrome

有关headless chrome如何使用网上有许多不错的文章,这里就不重复了。

想要在golang程序里使用headless chrome,需要借助一些开源库,实现和headless chrome交互的库有很多,这里选择chromedp,接口和Selenium类似,易上手。

安装:

go get -u github.com/chromedp/chromedp

引入:

import (
"github.com/chromedp/chromedp"
// runner用于配置headless chrome
"github.com/chromedp/chromedp/runner" // 新版本中不需要再导入这个包了
)

  

创建headless chrome实例,每一个实例就相当于一个浏览器,可以用它浏览、调试网页内容,默认情况下chromedp会直接启动带GUI的chrome,所以需要使用runner启动headless chrome。默认端口为9222,可以自定义。

需要注意,chromedp在0.1.4版本中对api进行了较大的改动,因此接下来的示例中我会给出新api的用法,同时保留0.1.3及以前版本适用的例子。

// NewHeadless 创建headless chrome实例
// chromedp内部有自己的超时设置,你也可以通过ctx来设置更短的超时
func NewHeadless(ctx context.Context, starturl string) (*chromedp.CDP, error) {
// runner.Flag设置启动headless chrome时的命令行参数
// runner.URL设置启动时打开的URL
// Windows用户需要设置runner.Flag("disable-gpu", true),具体信息参见文档的FAQ
run, err := runner.New(runner.Flag("headless", true),
runner.URL(starturl)) if err != nil {
return nil, err
} // run.Start启动实例
err = run.Start(ctx)
if err != nil {
return nil, err
} // 默认情况chromedp会输出大量log,因为是示例所以选择屏蔽,dropChromeLogs为自定义函数,形式为func(string, ...interface{}){}
// 使用runner初始化chromedp实例
// 实例在使用完毕后需要调用c.Shutdown()来释放资源
c, err := chromedp.New(ctx, chromedp.WithRunner(run), chromedp.WithErrorf(dropChromeLogs))
if err != nil {
return nil, err
} return c, nil
}
ctx, cancel := context.WithCancel(context.Background())
defer cancel()
cdp := NewHeadless(ctx, "www.cnblogs.com")

下面是0.1.4版本的api:

// 新版本中取消了cdp,将broeser对象和context合并在一起,方便了我们的操作
func NewHeadless() (context.Context, context.CancelFunc) {
opts := make([]chromedp.ExecAllocatorOption, )
opts = append(opts, chromedp.ProxyServer("http://127.0.0.1:8118"))
opts = append(opts, chromedp.Flag("headless", true))
allocator, cancel := chromedp.NewAllocator(context.Background(), chromedp.WithExecAllocator(opts...))
return allocator, cancel
} ctxt, cancel1 := NewHeadless()
defer cance1l()
c, cancel2 := chromedp.NewContext(ctxt)
defer cancel2()

新版本中不会输出多余的log,同时也会默认启用headless模式。

如果你需要在新版本的chromedp启动实例时指定一个url,你可以这样做:

broswer := chromedp.NewBroswer(c, startURL)
chromedp.FromContext(c).Browser = browser

实例启动后我们就能通过这个实例来访问你想爬取的URL了。

chromedp的实例类型为*chromedp.CDP,它拥有一个func (c *CDP) Run(ctxt context.Context, a Action) error 方法来执行所有的操作。

在新版本中chromedp通过Run方法执行所有操作,chromedp.CDP对象被chrome.Context取代,其原型为func Run(ctx context.Context, actions ...Action) error

Action是chromedp的api返回的对象,代表对headless chrome的一个操作,多个操作可以放入chromedp.Tasks里,它是一个元素为Action的slice,也可以作为Run的参数调用。

下面是部分常用的api:

// chromedp.Sleep使headless chrome睡眠d表示的时间长度
func Sleep(d time.Duration) Action // chromedp.Navigate使浏览器访问参数给出的URL
func Navigate(urlstr string) Action // chromedp.SendKeys向指定的html元素内输入内容
// sel是选择器字符串或是选择器要求的数据类型
// opts指定使用何种选择器
// 常用的选择器有:
// chromedp.ByID:根据id来选择元素
// chromedp.ByQuery:根据DOM.querySelector的规则选择元素
func SendKeys(sel interface{}, v string, opts ...QueryOption) Action // chromedp.Submit将指定的元素(通常是form)提交
func Submit(sel interface{}, opts ...QueryOption) Action // chromedp.WaitReady等待指定元素加载完毕
func WaitReady(sel interface{}, opts ...QueryOption) Action // chromedp.Click在指定元素上触发鼠标点击事件
func Click(sel interface{}, opts ...QueryOption) Action // chromedp.OuterHTML获取指定元素的HTML代码(包括其子元素)
// html参数用于存放返回的HTML
func OuterHTML(sel interface{}, html *string, opts ...QueryOption) Action

  

一个获取页面内容的小例子,更多例子在 https://github.com/chromedp/examples

// 获取服务列表
func GetServiceList(res *string) chromedp.Tasks {
return chromedp.Tasks{
// 访问服务列表
chromedp.Navigate(ServiceListURL),
// 等待直到body加载完毕
chromedp.WaitReady("servicesList", chromedp.ByID),
// 选择显示可用服务
chromedp.Click("statusActive", chromedp.ByID),
// 等待列表渲染
chromedp.Sleep(2 * time.Second),
// 获取获取服务列表HTML
chromedp.OuterHTML("#servicesList table", res, chromedp.ByQuery),
}
} var html string
// cdp是chromedp实例
// ctx是创建cdp时使用的context.Context
err := cdp.Run(ctx, GetServiceList(&html) )
if err != nil {
// 错误处理
} // 成功取得HTML内容进行后续处理
fmt.Println(html)

新版本的示例:

var html string
// ctxt是chromedp的实例,用于执行网页操作
err := chromedp,Run(ctxt, GetServiceList(&html))
if err != nil {
// error handle
} // 成功取得数据
fmt.Println(html)

另外新版本中关闭chrome实例的方式也有所不同:

// 释放所有资源,并等待释放结束
cancel2()
// 官方给的是chromedp,FromContext(ctxt).Wait(),但是目前没有实现Wait方法
// 因此你可以像这样
chromedp.FromContext(ctxt).Broswer.Shutdown()
chromedp.FromContext(ctxt).Allocator,Wait()

因为目前新版本还很不稳定,所以推荐使用0.1.3版本。

至此golang通过chromedp(https://github.com/chromedp/chromedp)使用headless chrome进行动态网页的渲染和操作就介绍完了。

希望这篇文章能给你带来帮助,如有错误之处,欢迎交流指正。

golang使用chrome headless获取网页内容的更多相关文章

  1. 搭建golang学习环境,并用chrome headless获取网页内容

    想用go练练手(我是win7系统,已从https://studygolang.com/dl 下载了go安装包并安装,比较简单,不详述. 但作为边民,没法go get ,又不敢用梯子,幸亏有爱心大牛们的 ...

  2. 反爬虫——使用chrome headless时一些需要注意的细节

    以前我们介绍过chrome headless的用法(https://www.cnblogs.com/apocelipes/p/9264673.html). 今天我们要稍微提一下其中一个细节. 反爬和w ...

  3. C#获取网页内容的三种方式(转)

    搜索网络,发现C#通常有三种方法获取网页内容,使用WebClient.WebBrowser或者HttpWebRequest/HttpWebResponse... 方法一:使用WebClient (引用 ...

  4. 【C#】获取网页内容及HTML解析器HtmlAgilityPack的使用

    最近经常需要下载一些东西,而这个下载地址又会经过层层跳转,每个页面上都有很多广告,烦不胜烦,所以做了一个一键获得最终下载地址的小工具.使用C#,来获取网页内容,然后通过HtmlAgilityPack获 ...

  5. C#获取网页内容的三种方式

    C#通常有三种方法获取网页内容,使用WebClient.WebBrowser或者HttpWebRequest/HttpWebResponse... 方法一:使用WebClient (引用自:http: ...

  6. C#获取网页内容 (WebClient、WebBrowser和HttpWebRequest/HttpWebResponse)

    获取网页数据有很多种方式.在这里主要讲述通过WebClient.WebBrowser和HttpWebRequest/HttpWebResponse三种方式获取网页内容. 这里获取的是包括网页的所有信息 ...

  7. go golang 判断base64数据 获取随机字符串 截取字符串

    go golang 判断base64数据 获取随机字符串 截取字符串 先少写点,占个坑,以后接着加. 1,获取指定长度随机字符串 func RandomDigits(length int) strin ...

  8. 定义一个方法get_page(url),url参数是需要获取网页内容的网址,返回网页的内容。提示(可以了解python的urllib模块)

    定义一个方法get_page(url),url参数是需要获取网页内容的网址,返回网页的内容.提示(可以了解python的urllib模块) import urllib.request def get_ ...

  9. chrome headless 无头浏览器 应用

    1. 根据html生成pdf chrome.exe --headless --disable-gpu --print-to-pdf ...../index.html 2. puppeteer --- ...

随机推荐

  1. PIL库图像处理

    PIL有如下几个模块 Image模块.ImageChops模块.ImageCrackCode模块 ImageDraw模块.ImageEnhance模块.ImageFile模块 ImageFileIO模 ...

  2. PyCharm连接远程服务器

    PyCharm连接远程服务器 1.Tools->Start SSH session 2.新建一个连接或者选择一个已经存在的sftp 3.选择Edit credentials 填写相关连接信息 4 ...

  3. java笔试之输出

    1. public class foo { private static void testMethod(){ System.out.println("testMethod"); ...

  4. Azure Active Directory document ---reading notes

    微软利用本地活动目录 Windows Server Active Directory 进行身份认证管理方面具有丰富的经验,现在这一优势已延伸基于云平台的Azure Active Directory.可 ...

  5. C语言窗口例子

    #include <windows.h> LRESULT CALLBACK WndProc( HWND, UINT, WPARAM, LPARAM ) ; //声明用来处理消息的函数 in ...

  6. 在Apache上http强制跳转到https

    https已经配置完成,也可以正常使用,但输入域名或http加域名时也一样可以打开网站,于是想强制使用https 大概百度了一下方法,感觉与之前设置二级域名绑定二级目录时差不多 首先,修改httpd. ...

  7. C 单向链表就地逆转

    1.问题描述 给定一个单链表L,设计函数Reverse将L就地逆转.即不需要申请新的节点,将第一个节点转换为最后一个结点,第二个节点转换为倒数第二个结点,以此类推. 2.思路分析 循环处理整个链表.将 ...

  8. JMH实践-代码性能测试工具

    概述 JMH,即Java Microbenchmark Harness,是专门用于代码微基准测试的工具套件 JMH比较典型的应用场景有: 想准确的知道某个方法需要执行多长时间,以及执行时间和输入之间的 ...

  9. Git:fatal: Authentication failed

    1.删除保存的用户名和密码 执行 下面的命令,删除保存的用户名和密码 git config --system --unset credential.helper 重新操作,提示输入用户名和密码,操作成 ...

  10. 小程序解析html之富文本插件wxParse

    近期,开发小程序时,遇到后台给我返回了一串html代码,需要我这边来解析,头疼了好久,网上找资料找了变天,终于找到wxParse,然而看到的都是针对于页面中有单个html或者固定数据的,我现在的问题是 ...