go 爬虫

 package main  

    import (

        "fmt"

        "io"

        "io/ioutil"

        "net/http"

        "os"

        "regexp"

        "strconv"

        "strings"

        "time"

    )  

    var (

        // regHref       = `((ht|f)tps?)://[w]{0,3}.baidu.com/link\?[a-zA-z=0-9-\s]*`

        regTitle      = `<title[\sa-zA-z="-]*>([^x00-xff]|[\sa-zA-Z=-：|，？"])*</title>`

        regCheckTitle = `(为什么|怎么)*.*([G|g][O|o][L|l][A|a][N|n][G|g]).*(怎么|实现|如何|为什么).*`

    )  

    func main() {

       if checkFile("./data/", "url.txt").Size() == 0 {

            fistStart()

            main()

        }         else {

        Timer()

        }

    }  

    func Timer() {

        t := time.NewTimer(time.Second * 1)

        <-t.C

        fmt.Print("\n\n\n执行爬抓\n\n")

        f, _ := os.OpenFile("./data/url.txt", os.O_CREATE|os.O_APPEND|os.O_RDWR, 0666)

        file, _ := ioutil.ReadAll(f)

        pageCont, _ := pageVisit(strings.Split(string(file), "\n")[0])

        if checkRegexp(checkRegexp(pageCont, regTitle, 0).(string), regCheckTitle, 0).(string) != "" {

            fmt.Print(checkRegexp(checkRegexp(pageCont, regTitle, 0).(string), regCheckTitle, 0).(string))

            fmt.Print("\n有效内容 => " + checkRegexp(pageCont, regTitle, 0).(string))

        }

        fmt.Print("\n\n待爬抓网址共" + strconv.Itoa(len(strings.Split(string(file), "\n"))-1) + "个 => " + strings.Split(string(file), "\n")[0] + "\n")

        DelFirstText("./data/url.txt")

        Timer()

    }  

    func fistStart() {

        var num int

        url := "http://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&tn=39042058_20_oem_dg&wd=golang%E5%AE%9E%E7%8E%B0&oq=golang%2520%25E5%2588%25A0%25E9%2599%25A4%25E6%2595%25B0%25E7%25BB%2584&rsv_pq=d9be28ec0002df1b&rsv_t=8017GWpSLPhDmKilZQ1StC04EVpUAeLEP90NIm%2Bk5pRh5R9o57NHMO8Gaxm1TtSOo%2FvtJj%2B98%2Fsc&rqlang=cn&rsv_enter=1&inputT=3474&rsv_sug3=16&rsv_sug1=11&rsv_sug7=100&rsv_sug2=0&rsv_sug4=4230"

        resp, _ := http.Get(url)

        defer resp.Body.Close()

        body, _ := ioutil.ReadAll(resp.Body)

        reg := regexp.MustCompile(`((ht|f)tps?)://[w]{0,3}.baidu.com/link\?[a-zA-z=0-9-\s]*`)

        f, _ := os.OpenFile("./data/url.txt", os.O_CREATE|os.O_APPEND|os.O_RDWR, 0666)

        defer f.Close()

        for _, d := range reg.FindAllString(string(body), -1) {

            ff, _ := os.OpenFile("./data/url.txt", os.O_RDWR, 0666)

            file, _ := ioutil.ReadAll(ff)

            dd := strings.Split(d, "")

            dddd := ""

            for _, ddd := range dd {

                if ddd == "?" {

                    ddd = `\?`

                }

                dddd += ddd

            }

            if checkRegexp(string(file), dddd, 0).(string) == "" {

                io.WriteString(f, d+"\n")

                fmt.Print("\n收集地址：" + d + "\n")

                num++

            }

            // fmt.Print(string(file))

            ff.Close()

        }

        fmt.Print("\n首次收集网络地址：" + strconv.Itoa(len(reg.FindAllString(string(body), -1))) + "\n")

        fmt.Print("\n去重后网络地址数：" + strconv.Itoa(num))

        fmt.Print("\n\n首次储存成功！\n")

    }  

    func pageVisit(url string) (page string, body []byte) {

        resp, _ := http.Get(url)

        defer resp.Body.Close()

        body, _ = ioutil.ReadAll(resp.Body)

        page = string(body)

        return

    }  

    func checkFile(dir string, file string) os.FileInfo {

        list, _ := ioutil.ReadDir(dir)

        for _, info := range list {

            if info.Name() == file {

                return info

            }

        }

        return list[0]

    }  

    func saveFile(file string, cont string) {

        f, _ := os.OpenFile(file, os.O_RDWR|os.O_APPEND|os.O_CREATE, 0666)

        defer f.Close()

        io.WriteString(f, cont)

    }  

    func checkRegexp(cont string, reg string, style int) (result interface{}) {

        check := regexp.MustCompile(reg)

        switch style {

        case 0:

            result = check.FindString(cont)

        case 1:

            result = check.FindAllString(cont, -1)

        default:

            result = check.FindAll([]byte(cont), -1)

        }

        return

    }  

    func DelFirstText(file string) {

        var text = ""

        f, _ := os.OpenFile(file, os.O_RDWR|os.O_CREATE, 0666)

        files, _ := ioutil.ReadAll(f)

        var ss = strings.Split(string(files), "\n")

        for i := 1; i < len(ss)-1; i++ {

            text += ss[i] + "\n"

        }

        defer f.Close()

        ioutil.WriteFile(file, []byte(text), 0666)

        fmt.Print("\n\n删除该地址 => " + ss[0])

    }

go 爬虫的更多相关文章

设计爬虫Hawk背后的故事
本文写于圣诞节北京下午慵懒的午后.本文偏技术向,不过应该大部分人能看懂. 五年之痒 2016年,能记入个人年终总结的事情没几件,其中一个便是开源了Hawk.我花不少时间优化和推广它,得到的评价还算比较 ...
Scrapy框架爬虫初探——中关村在线手机参数数据爬取
关于Scrapy如何安装部署的文章已经相当多了,但是网上实战的例子还不是很多,近来正好在学习该爬虫框架,就简单写了个Spider Demo来实践.作为硬件数码控,我选择了经常光顾的中关村在线的手机页面 ...
Python 爬虫模拟登陆知乎
在之前写过一篇使用python爬虫爬取电影天堂资源的博客,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了 ...
scrapy爬虫docker部署
spider_docker 接我上篇博客,为爬虫引用创建container,包括的模块:scrapy, mongo, celery, rabbitmq,连接https://github.com/Liu ...
scrapy 知乎用户信息爬虫
zhihu_spider 此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo,下载这些数据感觉也没什么用,就当为大家学习scrapy提供一个例子吧.代码地 ...
120项改进：开源超级爬虫Hawk 2.0 重磅发布！
沙漠君在历时半年,修改无数bug,更新一票新功能后,在今天隆重推出最新改进的超级爬虫Hawk 2.0! 啥?你不知道Hawk干吗用的? 这是采集数据的挖掘机,网络猎杀的重狙!半年多以前,沙漠君写了一篇 ...
Python爬虫小白入门（四）PhatomJS+Selenium第一篇
一.前言在上一篇博文中,我们的爬虫面临着一个问题,在爬取Unsplash网站的时候,由于网站是下拉刷新,并没有分页.所以不能够通过页码获取页面的url来分别发送网络请求.我也尝试了其他方式,比如下拉 ...
Python多线程爬虫爬取电影天堂资源
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...
QQ空间动态爬虫
作者:虚静链接:https://zhuanlan.zhihu.com/p/24656161 来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 先说明几件事: 题目的意 ...
让你从零开始学会写爬虫的5个教程（Python）
写爬虫总是非常吸引IT学习者,毕竟光听起来就很酷炫极客,我也知道很多人学完基础知识之后,第一个项目开发就是自己写一个爬虫玩玩. 其实懂了之后,写个爬虫脚本是很简单的,但是对于新手来说却并不是那么容易. ...

随机推荐

AHOI 2009 维护序列
洛谷 P2023 [AHOI2009]维护序列洛谷传送门题目描述老师交给小可可一个维护数列的任务,现在小可可希望你来帮他完成. 有长为N的数列,不妨设为a1,a2,-,aN .有如下三种操作形式 ...
Centos7升级gcc极简教程
centos7默认gcc版本为4.8,一般不满足编译需求,因此升级gcc版本为常见操作: 现有博客中,大多数教程都是基于源码重新编译安装:但是源码编译过程等待时间很长且编译麻烦. 因此,直接基于命令升 ...
Nacos集群搭建过程详解
Nacos的单节点,也就是我们最开始使用的standalone模式,配置的数据是默认存储到内嵌的数据库derby中. 如果我们要搭建集群的话,那么肯定是不能用内嵌的数据库,不然数据无法共享.集群搭建的 ...
OpenGL入门1.7：摄像机
每一个小步骤的源码都放在了Github 的内容为插入注释,可以先跳过前言我们已经知道了何为观察矩阵以及如何使用观察矩阵移动场景(我们向后移动了一点) OpenGL本身没有摄像机(Camera)的概 ...
Spring Security 教程大牛的教程
https://www.iteye.com/blog/elim-2247073 Spring Security 教程 Spring Security(20)——整合Cas Spring Securit ...
IDEA创建maven web工程
一.新建一个maven web工程 step1 File --> New --> Project step2 按下图步骤操作 step3 填写项目信息 step4 选择本地的maven安装 ...
JavaScript 正则表达式初探
JavaScript 正则表达式正则表达式是构成搜索模式的字符序列搜索模式可用于文本搜索和文本替换操作使用正则字符串方法在JavaScript中,正则表达式常常用两个字符串方法: searc ...
.net4.0使用Dapper操作MySql
准备使用Dapper操作MySql,由于电脑只有vs2010,所以需要Dapper和MySql组件支持.net 4.0.经过一番测试,终于弄出一个DEMO. 1.操作MySql需要用MySql.Dat ...
window下操作jenkins查看页面的几种方式
原文:https://blog.csdn.net/kennin19840715/article/details/78782505 前几天通过jenkins本机执行selenium cases, 发现浏 ...
requests---requests发送json数据类型
我们都知道post请求中的body有4种数据类型,今天我们来写一篇关于requests请求json这种数据类型. 数据类型我们都知道post和get有个大的区别就是get没有body而post存在b ...

go 爬虫

go 爬虫的更多相关文章

随机推荐

热门专题