Golang爬虫+正则表达式

最近学习go，爬取网站数据用到正则表达式，做个总结；

Go中正则表达式采用RE2语法（具体是啥咱也不清楚）；

字符

. ——匹配任意字符 e.g: abc. 结果: abcd,abcx,abc9;

[] ——匹配括号中任意一个字符 e.g: [abc]d 结果：ad,cd,1d；

- ——[-]中表示范围 e.g: [A-Za-z0-9]；

^ ——[^]中表示除括号中的任意字符 e.g：[^xy]a 结果：aa,da,不能为xa,ya；

数量限定

？ ——前面单元匹配0或1次；

+ ——前面单元匹配1或多次；

* ——前面单元匹配0或多次；

{,} ——显示个数上下线；e.g ： ip地址——[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}；

其他

\ ——转义字符;

| ——条件或;

() ——组成单元 如果字符串本身有括号"[(] aaa. [)]" ;

方法

//参数正则字符串，返回值*Regexp

str := regexp.MustCompile(string)

//参数要查找的数据，查找次数-1为全局，返回值二维数组，查找出的字符串+正则字符串

var result [][]string = str.FindAllStringSubmatch(data, -1)

爬虫

爬取博客园所有文章阅读量，评论，推荐；

package main

import (

	"fmt"

	"io"

	"net/http"

	"regexp"

	"strconv"

)

var readCount int = 0

var commentCount int = 0

var diggCount int = 0

//http读取网页数据写入result返回

func HttpGet(url string) (result string, err error) {

	resp, err1 := http.Get(url)

	if err1 != nil {

		err = err1

		return

	}

	defer resp.Body.Close()

	buf := make([]byte, 4096)

	for {

		n, err2 := resp.Body.Read(buf)

		//fmt.Println(url)

		if n == 0 {

			break

		}

		if err2 != nil && err2 != io.EOF {

			err = err2

			return

		}

		result += string(buf[:n])

	}

	return result, err

}

//横向纵向爬取文章标题数据，并累计数值

func SpiderPageDB(index int, page chan int) {

	url := "https://www.cnblogs.com/littleperilla/default.html?page=" + strconv.Itoa(index)

	result, err := HttpGet(url)

	if err != nil {

		fmt.Println("HttpGet err:", err)

		return

	}

	str := regexp.MustCompile("post-view-count\">阅读[(](?s:(.*?))[)]</span>")

	alls := str.FindAllStringSubmatch(result, -1)

	for _, j := range alls {

		temp, err := strconv.Atoi(j[1])

		if err != nil {

			fmt.Println("string2int err:", err)

		}

		readCount += temp

	}

	str = regexp.MustCompile("post-comment-count\">评论[(](?s:(.*?))[)]</span>")

	alls = str.FindAllStringSubmatch(result, -1)

	for _, j := range alls {

		temp, err := strconv.Atoi(j[1])

		if err != nil {

			fmt.Println("string2int err:", err)

		}

		commentCount += temp

	}

	str = regexp.MustCompile("post-digg-count\">推荐[(](?s:(.*?))[)]</span>")

	alls = str.FindAllStringSubmatch(result, -1)

	for _, j := range alls {

		temp, err := strconv.Atoi(j[1])

		if err != nil {

			fmt.Println("string2int err:", err)

		}

		diggCount += temp

	}

	page <- index

}

//主要工作方法

func working(start, end int) {

	fmt.Printf("正在从%d到%d爬取中...\n", start, end)

	//channel通知主线程是否所有go都结束

	page := make(chan int)

	//多线程go程同时爬取

	for i := start; i <= end; i++ {

		go SpiderPageDB(i, page)

	}

	for i := start; i <= end; i++ {

		fmt.Printf("拉取到%d页\n", <-page)

	}

}

//入口函数

func main() {

	//输入爬取的起始页

	var start, end int

	fmt.Print("startPos:")

	fmt.Scan(&start)

	fmt.Print("endPos:")

	fmt.Scan(&end)

	working(start, end)

	fmt.Println("阅读:", readCount)

	fmt.Println("评论:", commentCount)

	fmt.Println("推荐:", diggCount)

}

Golang爬虫+正则表达式的更多相关文章

Golang - 爬虫案例实践
目录 Golang - 爬虫案例实践 1. 爬虫步骤 2. 正则表达式 3. 并发爬取美图 Golang - 爬虫案例实践 1. 爬虫步骤明确目标(确定在哪个网址搜索) 爬(爬下数据) 取(去掉没用 ...
Golang爬虫示例包系列教程(一):pedaily.com投资界爬虫
Golang爬虫示例包文件结构自己用Golang原生包封装了一个爬虫库,源码见go get -u -v github.com/hunterhug/go_tool/spider ---- data ...
爬虫——正则表达式re模块
为什么要学习正则表达式实际上爬虫一共就四个主要步骤: 明确目标:需清楚目标网站爬:将所有的目标网站的内容全部爬下来取:在爬下来的网站内容中去掉对我们没有用处的数据,只留取我们需要的数据处理数据 ...
Python爬虫正则表达式
1.正则表达式概述正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个"规则字符串",这个"规则字符串"用来 ...
Python入门-编写抓取网站图片的爬虫-正则表达式
//生命太短我用Python! //Python真是让一直用c++的村里孩子长知识了! 这个仅仅是一个测试,成功抓取了某网站1000多张图片. 下一步要做一个大新闻大工程 #config = ut ...
Python 爬虫-正则表达式（补）
2017-08-08 18:37:29 一.Python中正则表达式使用原生字符串的几点说明原生字符串和普通字符串的不同相较于普通字符串,原生字符串中的\就是反斜杠,并不表达转义.不过,字符串转成 ...
Python 爬虫-正则表达式
2017-07-27 13:52:08 一.正则表达式的概念 (1)正则表达式是用来简洁表达一组字符串的表达式,最主要应用在字符串匹配中. 正则表达式是用来简洁表达一组字符串的表达式正则表达式是一 ...
Python爬虫-正则表达式基础
import re #常规匹配 content = 'Hello 1234567 World_This is a Regex Demo' #result = re.match('^Hello\s\d\ ...
之前写的关于chromedp的文章被别人转到CSDN，很受鼓励，再来一篇golang爬虫实例
示例说明:用chromedp操作chrome,导航到baidu,然后输入“美女”,然后再翻2页,在此过程中保存cookie和所有img标签内容,并保存第一页的baidu logo为png 注释已经比较 ...

随机推荐

数字逻辑实践4->面向硬件电路的设计思维--FPGA设计总述
本文是对实验课上讲解的"面向硬件电路的设计思维"的总结,结合数字逻辑课本,进行提炼和整理. 主要来源是课件与本人整理,部分参考了网络大佬的博客. 本文主要介绍不同于之前软件设计思维 ...
对象池模式（Object Pool Pattern）
本文节选自<设计模式就该这样学> 1 对象池模式的定义对象池模式(Object Pool Pattern),是创建型设计模式的一种,将对象预先创建并初始化后放入对象池中,对象提供者就能利 ...
Python字符出现次数统计
1.读取文本文档红球.txt 2.运行代码 with open('红球.txt', "r", encoding="utf-8")as f: d = {} fo ...
DVWA总结
Brute Force,即暴力(破解),是指黑客利用密码字典,使用穷举法猜解出用户口令,是现在最为广泛使用的攻击手法之一,如2014年轰动全国的12306"撞库"事件,实质就是暴力 ...
freeswitch APR库哈希表
概述 freeswitch的核心源代码是基于apr库开发的,在不同的系统上有很好的移植性. 哈希表在开发中应用的非常广泛,主要场景是对查询效率要求较高的逻辑,是典型的空间换时间的数据结构实现. 大多数 ...
Jvarkit : Java utilities for Bioinformatics
Jvarkit : Java utilities for Bioinformatics :一个java写的生物信息工具包:http://lindenb.github.io/jvarkit/
GORM基本使用
GORM 目录 GORM 1. 安装 2. 数据库连接 3. 数据库迁移及表操作 1. 安装 go get -u github.com/jinzhu/gorm 要连接数据库首先要导入驱动程序 // G ...
56-Remove Linked List Elements
Remove Linked List Elements My Submissions QuestionEditorial Solution Total Accepted: 61924 Total Su ...
46.Valid Parentheses
Valid Parentheses My Submissions QuestionEditorial Solution Total Accepted: 106346 Total Submissions ...
【STM32】使用SDIO进行SD卡读写，包含文件管理FatFs（一）-初步认识SD卡
由于一张SD卡要能读写,涉及到的技术有些多,我打算分以下几篇博客 [STM32]使用SDIO进行SD卡读写,包含文件管理FatFs(一)-初步认识SD卡 [STM32]使用SDIO进行SD卡读写,包含 ...

Golang爬虫+正则表达式

字符

数量限定

其他

方法

爬虫

Golang爬虫+正则表达式的更多相关文章

随机推荐

热门专题