Golang+chromedp+goquery 简单爬取动态数据

兵长:

胖sir,最近一段时间正在使用golang来进行开发项目,慢慢的对golang有了一些了解,突然有一天,我想用golang来实现爬取网站上的数据,例如天气预报每日一句等等,发现这些网站的数据都是javascript动态生成,苦恼呀,不知道如何才能把网站上的动态数据获取下来,为我所用呀,例如我抓取到动态数据之后发邮件给我哟

胖sir撩撩了自己的长发,温和的对兵长说,小伙子,golang做应用开发效率很快的,当然爬取网站上的数据也是不在话下的哟,动态的也有动态的方法,来我给你娓娓道来

Golang的安装

此步骤主要是为了照顾没有在linux上安装过golang的童鞋们,若自己做过安装过golang的童鞋可以直接跳过golang简单安装步骤

下载golang软件

  • 【国内网站】https://studygolang.com/dl go语言中文网下载 go最新的安装包,根据不同的系统,可以选择 windows,linux,mac
  • 【可以上外网的话】访问go语言英文网站 https://docs.studygolang.com/doc/install

解压golang

tar -C /usr/local -xzf go1.16.linux-amd64.tar.gz

配置golang

  • 将go的二进制目录添加到PATH环境变量

    vim /etc/profile
    export GOROOT=/usr/local/go
    export PATH=$PATH:$GOROOT/bin

重新导入配置

source /etc/profile

chromedp框架的使用

chromedp框架github开源的,童鞋们可以放心食用,若是有想法,可以在github上为此添砖加瓦,为开源做出自己的一份贡献

可以通过如下命令来进行下载

github.com/chromedp/chromedp

实际的代码编写

兵长,你想爬取每日一句的网站,我给你找一个例子,如爬取这个网站http://news.iciba.com/,我们将网站上每天都会更新的一句话爬取出来

开始编码

//获取网站上爬取的数据
func GetHttpHtmlContent(url string, selector string, sel interface{}) (string, error) {
options := []chromedp.ExecAllocatorOption{
chromedp.Flag("headless", true), // debug使用
chromedp.Flag("blink-settings", "imagesEnabled=false"),
chromedp.UserAgent(`Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36`),
}
//初始化参数,先传一个空的数据
options = append(chromedp.DefaultExecAllocatorOptions[:], options...) c, _ := chromedp.NewExecAllocator(context.Background(), options...) // create context
chromeCtx, cancel := chromedp.NewContext(c, chromedp.WithLogf(log.Printf))
// 执行一个空task, 用提前创建Chrome实例
chromedp.Run(chromeCtx, make([]chromedp.Action, 0, 1)...) //创建一个上下文,超时时间为40s
timeoutCtx, cancel := context.WithTimeout(chromeCtx, 40*time.Second)
defer cancel() var htmlContent string
err := chromedp.Run(timeoutCtx,
chromedp.Navigate(url),
chromedp.WaitVisible(selector),
chromedp.OuterHTML(sel, &htmlContent, chromedp.ByJSPath),
)
if err != nil {
logger.Info("Run err : %v\n", err)
return "", err
}
//log.Println(htmlContent) return htmlContent, nil
}
  • GetHttpHtmlContent做为一个爬取网站动态数据的接口,主要功能是爬取js生成的动态数据(当然静态数据更是不在话下)

  • 第一个参数 url即为我们需要传入的要爬取的网站地址,页面如上

  • 第二个参数 selector即为我们爬取的数据对应的选html择器, 通过谷歌浏览器进入网站,按F12 -> 点击左上角的鼠标 -> 再点击我们需要爬取的数据 -> 就可以看到实际的html源码(目前看到的是通过javascript动态生成数据后的)

    右键点击item-bottom -> Copy -> Copy selector 即可得到如下结果

    body > div.screen > div.banner > div.swiper-container-place > div > div.swiper-slide.swiper-slide-0.swiper-slide-visible.swiper-slide-active > a.item.item-big > div.item-bottom

    此字符串即为 GetHttpHtmlContent 函数的第二个参数selector

  • 第三个参数 我们暂时先写

    document.querySelector("body") //从body里面获取数据
  • 返回值 即为 爬取到的数据,是字符串格式的,内容是 html

如下是拓展和解释上述代码的内容

  • chromedp.Flagchromedp设置参数,设置为 无头模式 headless ,无头模式即Chrome浏览器的无GUI的命令行版浏览器,但功能上和我们平常使用的chrome没有区别,若该参数不设置为true,则在程序运行的时候,chromedp会拉取我们环境中的chrome浏览器,显示页面

  • chromedp.Flag("blink-settings", "imagesEnabled=false")设置为不显示图片

  • htmlContent用于接收爬取的结果,是一个字符串格式,具体内容是html

  • chromedp.ByJSPath 是只以什么方式进行解析,这是一个回调函数,这个参数还可以填下面几个,按需索取

    • chromedp.ByNodeID
    • chromedp.BySearch
    • chromedp.ByID
    • chromedp.ByQueryAll
    • chromedp.ByQuery
    • chromedp.ByFunc
  • 关于chromedp涉及的接口如下给兵长介绍几个

    名字 说明
    Navigate 进入某个页面
    Run 运行各类操作
    Screenshot 截屏
    Click 模拟鼠标点击
    WaitVisible 等候某元素出现
    ActionFunc 执行自定义函数
    SendKeys 模拟键盘输入

兵长: 使用这个框架我得到的是一串html的字符串,我也不会解析他呀,我要如何才能找到刚才在页面上看到的每日一句

胖sir:别担心,我一步一步给你说,直播教学呢,看好了, 现在我们已经完成了最核心的一步了,现在数据已经获取到了,咯,我给你介绍一个神奇,goquery就可以解决下面这一串html的解析问题了

goquery第三方库的使用

我之前写过一个小接口,可以给你看看,兵长

goquery也是github开源的,童鞋们可以放心食用哦,通过如下命令在下载goquery第三方库

go get github.com/PuerkitoBio/goquery

开始编码

//得到具体的数据
func GetSpecialData(htmlContent string, selector string) (string, error) {
dom, err := goquery.NewDocumentFromReader(strings.NewReader(htmlContent))
if err != nil {
logger.Error(err)
return "", err
} var str string
dom.Find(selector).Each(func(i int, selection *goquery.Selection) {
str = selection.Text()
})
return str, nil
}
  • 第一个参数 htmlContent 就是 上面 chromedp爬取到的数据,是字符串,内容是html

  • 第二个参数即是html的选择器 ,对于这个网站,这个参数可以填 .chinese ,如

    GetSpecialData(htmlContent, ".chinese")
  • 返回值就是我们要抓取的结果了 当你是在为梦想成真努力时,就不会有压力。

如下是关于goquery一些用法

主要是关于html各种选择器的写法使用方式,下面简单介绍一下种类,如果需要详细了解,可以给我留言哟

  • 基于HTML Element 元素的选择器
  • ID 选择器
  • Class选择器
  • 属性选择器
  • parent > child选择器
  • element + next 相邻选择器
  • element~next 兄弟选择器

胖sir:兵长,我说的这些还算清楚吧,你知道怎么用了吗?

兵长:明~明白了,我还要多加练习,多多爬取一下不同的站数据看看效果

胖sir:诶,兵长刚才你说你想将数据处理完毕后,发邮件给你自己吗?

兵长:对呀,诶呀,这又是个问题。我不知道把程序放在那里呢,放在我自己电脑里面的话,我电脑每天是要关机的,我休息了,我的电脑也要跟着我休息,诶,咋办呀

胖sir:好办,这个我可以推荐你用一下 阿里云服务器

如何将自己的程序部署到阿里云服务器上

自己买一个云服务器就可以很方便的将自己的监控程序或者需要一直运行的程序放在上面,这就可以7*24小时不间断的跑了,我最近感受了一下,确实好用。具体的阿里云购买方式可以尝试扫描下面的二维码或者点击链接进行购买,亲测真的好用,如何使用和简单配置,可以给我留言获取资料。

当然,需要上述整个小案例源码的,也可以给我留言哦,让我们一起实践我们的每一个想法,一步一步往上爬。

胖sir:兵长,我需要提醒一点哦,阿里云服务器会自动把你的运行程序关闭掉了的

兵长:啊?那么你还让我买服务器,你这不是坑我吗

胖sir:别急,我推荐的肯定是好东西啦,还附带解决方案哟

screen工具

screen工具可以帮助我们将可执行程序部署到阿里云服务器上面,且能够一直不间断的运行

原理:

screen是在服务器上单独开一个进程,让他专门来执行后台任务。

具体操作:

  • 安装

    //ubuntu安装
    sudo apt-get install screen
    //centos
    yum install screen
  • 创建screen窗口

    screen -S  name
    例如:
    screen -S ssh
  • 查看进程

    screen -ls

  • 进入自己的manager

    screen -r -d 自己的id
    如:
    screen -r -d 5295
  • 关闭screen进程

    screen -S 进程名 -X quit

大家如果有需要,可以通过此链接购买阿里云服务器,目前萌新有优惠,亲测很可,别问我是谁,我是活雷锋。

https://www.aliyun.com/activity?taskCode=messenger2101&recordId=337686&usercode=&share_source=copy_link

作者:小魔童哪吒

Golang+chromedp+goquery 简单爬取动态数据的更多相关文章

  1. 爬虫系列4:Requests+Xpath 爬取动态数据

    爬虫系列4:Requests+Xpath 爬取动态数据 [抓取]:参考前文 爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参 ...

  2. Ajax爬取动态数据和HTTPS自动默认证书

    Ajax数据爬取 在spider爬取数据的过程中,有些网页的数据是利用Ajax动态加载出来的,所以,在网页源代码中可能不会看到这一部分的数据,因此,我们需要使用另外的方式进行数据多爬取. 以豆瓣电影的 ...

  3. python 爬取动态数据

    按照:https://dryscrape.readthedocs.io/en/latest/installation.html 安装dryscrape 以下是简单实现 import dryscrape ...

  4. Python 爬虫实例(8)—— 爬取 动态页面

    今天使用python 和selenium爬取动态数据,主要是通过不停的更新页面,实现数据的爬取,要爬取的数据如下图 源代码: #-*-coding:utf-8-*- import time from ...

  5. 使用webdriver+urllib爬取网页数据(模拟登陆,过验证码)

    urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...

  6. Python+Selenium爬取动态加载页面(2)

    注: 上一篇<Python+Selenium爬取动态加载页面(1)>讲了基本地如何获取动态页面的数据,这里再讲一个稍微复杂一点的数据获取全国水雨情网.数据的获取过程跟人手动获取过程类似,所 ...

  7. Python+Selenium爬取动态加载页面(1)

    注: 最近有一小任务,需要收集水质和水雨信息,找了两个网站:国家地表水水质自动监测实时数据发布系统和全国水雨情网.由于这两个网站的数据都是动态加载出来的,所以我用了Selenium来完成我的数据获取. ...

  8. 一个月入门Python爬虫,轻松爬取大规模数据

    Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样的编程语言提供越来越多的优秀工具,让爬虫变得 ...

  9. phantomjs+selenium实现爬取动态网址

    之前使用 selenium + firefox驱动浏览器来实现爬取动态网址,但是firefox经常更新,更新后时常会导致webdriver启动不来,所以改用phantomjs+selenium来改善一 ...

随机推荐

  1. python爬取网易翻译 和MD5加密

    一.程序需要知识 1.python中随机数的生成 # 生成 0 ~ 9 之间的随机数 # 导入 random(随机数) 模块 import random print(random.randint(0, ...

  2. .NetCore快速上手Consul,留给自己一点思考的空间

    互联网热潮下,"微服务"技术架构成为了一种高大上的技术,其顾名思义就是将传统的大的业务服务拆分成独立的小服务,当拆分的服务慢慢多起来的时候,我们会发现服务地址很难管理,传统的方式一 ...

  3. C语言之库函数的模拟与使用

    C语言之库函数的模拟与使用 在我们学习C语言的过程中,难免会遇到这样的一种情况: 我们通常实现一个功能的时候,费尽心血的写出来,却有着满满的错,这时却有人来告诉你说:这个功能可以用相应的库函数来实现. ...

  4. HTTP笔记4--HTTP 状态码

    状态码作用.组成 HTTP 状态码负责表示客户端 HTTP 请求的返回结果.标记服务器端的处理是否正常.通知出现的错误等工作.状态码的职责是当客户端向服务器端发送请求时,描述返回的请求结果. 状态码如 ...

  5. 使用 Typecho 搭建博客

    nginx 配置文件 [root@dbtest ~]# cat /etc/nginx/conf.d/www.typecho.com.conf server { listen 80; server_na ...

  6. Excel导出时设置单元格的格式为文本

    问题: 用excel导出数据时,如何设置单元格格式的数字分类为"文本",默认是"常规"? 比如:导出编码0235A089,在Excel查看默认显示的是没有前面的 ...

  7. Vmware 15.5 ubuntu 12.04.5-desktop-i386.iso insmod后死机

    就是makefile没有问题,在其他同学的相同环境下也没有问题,但是在我的虚拟机里就会死机,复制了其他同学的虚拟机过来也会死机,所以猜想是VMware的问题. 于是下载了Virtual box,然后安 ...

  8. C++ part7

    1.C++ 继承和组合 类的组合和继承一样,是复用的重要方式. 要优先使用组合而不是继承. 原因: 组合是黑箱复用,对局部类的内部细节不可见:继承是白箱复用,父类的内部细节可见,破坏封装性. 继承在编 ...

  9. Git使用指南(上)

    1 Git简介 学习一门技术老师更加倾向于看官网的. 度娘看完了,官网看完了,大家还是很懵逼 学生成绩管理系统 登录模块   3.2 登录模块进一步完善    缺一个验证码的功能    3.3 登录模 ...

  10. 018-019 NET5_内置容器支持依赖注入+IServiceCollection的生命周期

    概念: DI依赖注入: IServiceCollection仅支持构造函数注入 什么是依赖注入? 如果对象A依赖对象B,对象B依赖对象C,就可以先构造对象C,然后传递给对象B,再把对象B传递给A.得到 ...