Golang: 模拟搜索引擎爬虫

最近网站需要针对百度做 SEO 优化，用 Go 语言写了个测试程序，模拟一下百度的爬虫，看看返回的内容是否正确。

代码很简单，就是发送一个请求，把百度相关的信息放入请求头中即可，代码如下：

package main

import (

    "io/ioutil"

    "net/http"

)

func main() {

    // 这里用简化的UA 访问百度自己

    const (

        url = "https://www.baidu.com"

        userAgent = "Mozilla/5.0 Baiduspider/2.0"

    )

    // 创建client 参数为默认

    client := &http.Client{}

    // 创建请求

    req, _ := http.NewRequest("GET", url, nil)

    // 在请求头中添加指定的UA

    req.Header.Add("User-Agent", userAgent)

    // 发起请求并返回结果

    res, _ := client.Do(req)

    // 读取资源数据

    body, _ := ioutil.ReadAll(res.Body)

    // 写入文件

    ioutil.WriteFile("source.txt", body, 0644)

    res.Body.Close()

}

运行完上面的程序，会在当前目录下，生成一个 source.txt 文件，内容即抓取过来的网页源代码。

有时候，我们希望程序在写文件的同时，同步输出到控制台，对于这种场景，可以试试下面这种方式：

package main

import (

    "fmt"

    "io"

    "net/http"

    "os"

)

func main() {

    const (

        url = "https://www.baidu.com"

        userAgent = "Mozilla/5.0 Baiduspider/2.0"

    )

    // 创建client 参数为默认

    client := &http.Client{}

    // 创建请求

    req, _ := http.NewRequest("GET", url, nil)

    // 在请求头中添加指定的UA

    req.Header.Add("User-Agent", userAgent)

    // 发起请求并返回结果

    res, _ := client.Do(req)

    // 获取响应体

    body := res.Body

    // 创建文件 用以保存响应内容

    file, _ := os.Create("source.txt")

    // 创建一个MultiWriter 会同时写到标准输出和操作系统文件

    dest := io.MultiWriter(os.Stdout, file)

    // 将响应内容复制到MultiWriter每个目标 返回总的字节数

    bytes, _ := io.Copy(dest, body)

    // 打印内容总的字节数

    fmt.Println("total bytes:", bytes)

    // 关闭资源

    body.Close()

    file.Close()

}

再次运行程序，文件和控制台将会同步输出内容。

Golang: 模拟搜索引擎爬虫的更多相关文章

Java开发搜索引擎爬虫
package com.peidon.html; import java.io.BufferedReader; import java.io.File; import java.io.FileOutp ...
搜索引擎爬虫蜘蛛的USERAGENT大全
搜索引擎爬虫蜘蛛的USERAGENT大全搜索引擎爬虫蜘蛛的USERAGENT收集,方便制作采集的朋友. 百度爬虫 * Baiduspider+(+http://www.baidu.com/sea ...
google搜索引擎爬虫爬网站原理
google搜索引擎爬虫爬网站原理一.总结一句话总结:从几个大站开始,然后开始爬,根据页面中的link,不断爬从几个大站开始,然后开始爬,根据页面中的link,不断加深爬 1.搜索引擎和数据库检 ...
golang实现并发爬虫三(用队列调度器实现）
欲看此文,必先可先看: golang实现并发爬虫一(单任务版本爬虫功能) gollang实现并发爬虫二(简单调度器) 上文中的用简单的调度器实现了并发爬虫. 并且,也提到了这种并发爬虫的实现可以提高爬 ...
Golang模拟用户登陆，突破教务系统
目录一.Golang模拟用户登陆,突破教务系统 1.1 请求登陆页面 1.2 抓包分析登陆请求 1.3 golang使用js引擎合成salt 1.4 模拟表单提交,完成登陆 1.5 进入成绩查询页, ...
微信朋友圈转疯了（golang写小爬虫抓取朋友圈文章）
很多人在朋友圈里转发一些文章,标题都是什么转疯啦之类,虽然大多都也是广告啦,我觉得还蛮无聊的,但是的确是有一些文章是非常值得收藏的,比如老婆经常就会收藏一些养生和美容的文章在微信里看. 今天就突发奇想 ...
golang模拟动态高优先权优先调度算法
实验二动态高优先权优先调度实验内容模拟实现动态高优先权优先(若数值越大优先权越高,每运行一个时间单位优先权-n,若数值越小优先权越高,没运行一个时间单位优先权+n),具体如下: 设置进程体:进 ...
如何使用robots禁止各大搜索引擎爬虫爬取网站
ps:由于公司网站配置的测试环境被百度爬虫抓取,干扰了线上正常环境的使用,刚好看到每次搜索淘宝时,都会有一句由于robots.txt文件存在限制指令无法提供内容描述,于是便去学习了一波 1.原来一般来 ...
golang实现并发爬虫一(单任务版本爬虫功能)
目的是写一个golang并发爬虫版本的演化过程. 那么在演化之前,当然是先跑通一下单任务版本的架构. 正如人走路之前是一定要学会爬走一般. 首先看一下单任务版本的爬虫架构,如下: 这是单任务版本爬虫的 ...

随机推荐

Codeforces Round #606 (Div. 2) D - Let's Play the Words?（贪心+map）
PATB1024科学计数法
代码是部分正确,只得了13分还有两个测试点没有通过,不知道原因是啥,先不深究了,赶进度. 参考代码: #include<cstdio> #include<cstring> #i ...
获取当前页面url指定参数值
function getParam(paramName) { paramValue = "", isFound = !1; if (this.location.search.ind ...
nuxt中localstorage的替代方案
采用异步的方式进行存储数据,更高效快速,使用localforage是你最好的选择具体转载自博客 Heap Stack Blog(pingbook.top) Nuxt storage data in ...
Salesforce 开发整理（五）代码开发最佳实践
在Salesforce项目实施过程中,对项目代码的维护可以说占据极大的精力,无论是因为项目的迭代,还是需求的变更,甚至是项目组成员的变动,都不可避免的需要维护之前的老代码,而事实上,几乎没有任何一个项 ...
python: 添加自定义模块路径 —— 可以使用相对路径
自定义模块时,添加模块路径: sys.path.append('..')
zabbix解决监控图形中文乱码
原文: https://blog.csdn.net/xujiamin0022016/article/details/86541783 zabbix 4解决监控图形中文乱码首先在windows里找到你想 ...
Windows安装gmpy2
我在终端用python2的pip安装gmpy2时显示缺少Visual C++ 9.0 按照其要求,访问他给的网址安装一下 https://pypi.org/project/gmpy2/#files 进 ...
Alpha冲刺(7/10)——2019.4.29
作业描述课程软件工程1916|W(福州大学) 团队名称修!咻咻! 作业要求项目Alpha冲刺(团队) 团队目标切实可行的计算机协会维修预约平台开发工具 Eclipse 团队信息队员学号 ...
antdpro 打包部署后访问路由刷新后404
antdpro build 后访问路由刷新后 404? 解决方法有三种: 1. 改用 hashHistory,在 .umirc.js或者是config.js 里配 history: 'hash' 2. ...

Golang: 模拟搜索引擎爬虫

Golang: 模拟搜索引擎爬虫的更多相关文章

随机推荐

热门专题