用go语言爬取珍爱网

前两节我们获取到了城市的URL和城市名，今天我们来解析用户信息。

爬虫的算法：

我们要提取返回体中的城市列表，需要用到城市列表解析器；

需要把每个城市里的所有用户解析出来，需要用到城市解析器；

还需要把每个用户的个人信息解析出来，需要用到用户解析器。

爬虫整体架构：

Seed把需要爬的request送到engine，engine负责将request里的url送到fetcher去爬取数据，返回utf-8的信息，然后engine将返回信息送到解析器Parser里解析有用信息，返回更多待请求requests和有用信息items，任务队列用于存储待请求的request，engine驱动各模块处理数据，直到任务队列为空。

代码实现：

按照上面的思路，设计出城市列表解析器citylist.go代码如下：

package parser

import (

 "crawler/engine"

 "regexp"

 "log"

)

const (

 //<a href="http://album.zhenai.com/u/1361133512" target="_blank">怎么会迷上你</a>

 cityReg = `<a href="(http://album.zhenai.com/u/[0-9]+)"[^>]*>([^<]+)</a>`

)

func ParseCity(contents []byte) engine.ParserResult {

 compile := regexp.MustCompile(cityReg)

 submatch := compile.FindAllSubmatch(contents, -1)

 //这里要把解析到的每个URL都生成一个新的request

 result := engine.ParserResult{}

 for _, m := range submatch {

   name := string(m[2])

   log.Printf("UserName:%s URL:%s\n", string(m[2]), string(m[1]))

   //把用户信息人名加到item里

   result.Items = append(result.Items, name)

   result.Requests = append(result.Requests,

     engine.Request{

       //用户信息对应的URL,用于之后的用户信息爬取

       Url : string(m[1]),

       //这个parser是对城市下面的用户的parse

       ParserFunc : func(bytes []byte) engine.ParserResult {

         //这里使用闭包的方式;这里不能用m[2],否则所有for循环里的用户都会共用一个名字

         //需要拷贝m[2] ---- name := string(m[2])

         return ParseProfile(bytes, name)

       },

     })

 }

 return result

}

城市解析器city.go如下：

package parser

import (

 "crawler/engine"

 "regexp"

 "log"

)

const (

 //<a href="http://album.zhenai.com/u/1361133512" target="_blank">怎么会迷上你</a>

 cityReg = `<a href="(http://album.zhenai.com/u/[0-9]+)"[^>]*>([^<]+)</a>`

)

func ParseCity(contents []byte) engine.ParserResult {

 compile := regexp.MustCompile(cityReg)

 submatch := compile.FindAllSubmatch(contents, -1)

 //这里要把解析到的每个URL都生成一个新的request

 result := engine.ParserResult{}

 for _, m := range submatch {

   name := string(m[2])

   log.Printf("UserName:%s URL:%s\n", string(m[2]), string(m[1]))

   //把用户信息人名加到item里

   result.Items = append(result.Items, name)

   result.Requests = append(result.Requests,

     engine.Request{

       //用户信息对应的URL,用于之后的用户信息爬取

       Url : string(m[1]),

       //这个parser是对城市下面的用户的parse

       ParserFunc : func(bytes []byte) engine.ParserResult {

         //这里使用闭包的方式;这里不能用m[2],否则所有for循环里的用户都会共用一个名字

         //需要拷贝m[2] ---- name := string(m[2])

         return ParseProfile(bytes, name)

       },

     })

 }

 return result

}

用户解析器profile.go如下：

package parser

import (

 "crawler/engine"

 "crawler/model"

 "regexp"

 "strconv"

)

var (

 // <td><span class="label">年龄：</span>25岁</td>

 ageReg = regexp.MustCompile(`<td><span class="label">年龄：</span>([\d]+)岁</td>`)

 // <td><span class="label">身高：</span>182CM</td>

 heightReg = regexp.MustCompile(`<td><span class="label">身高：</span>(.+)CM</td>`)

 // <td><span class="label">月收入：</span>5001-8000元</td>

 incomeReg = regexp.MustCompile(`<td><span class="label">月收入：</span>([0-9-]+)元</td>`)

 //<td><span class="label">婚况：</span>未婚</td>

 marriageReg = regexp.MustCompile(`<td><span class="label">婚况：</span>(.+)</td>`)

 //<td><span class="label">学历：</span>大学本科</td>

 educationReg = regexp.MustCompile(`<td><span class="label">学历：</span>(.+)</td>`)

 //<td><span class="label">工作地：</span>安徽蚌埠</td>

 workLocationReg = regexp.MustCompile(`<td><span class="label">工作地：</span>(.+)</td>`)

 // <td><span class="label">职业： </span>--</td>

 occupationReg = regexp.MustCompile(`<td><span class="label">职业： </span><span field="">(.+)</span></td>`)

 //  <td><span class="label">星座：</span>射手座</td>

 xinzuoReg = regexp.MustCompile(`<td><span class="label">星座：</span><span field="">(.+)</span></td>`)

 //<td><span class="label">籍贯：</span>安徽蚌埠</td>

 hokouReg = regexp.MustCompile(`<td><span class="label">民族：</span><span field="">(.+)</span></td>`)

 // <td><span class="label">住房条件：</span><span field="">--</span></td>

 houseReg = regexp.MustCompile(`<td><span class="label">住房条件：</span><span field="">(.+)</span></td>`)

 // <td width="150"><span class="grayL">性别：</span>男</td>

 genderReg = regexp.MustCompile(`<td width="150"><span class="grayL">性别：</span>(.+)</td>`)

 // <td><span class="label">体重：</span><span field="">67KG</span></td>

 weightReg = regexp.MustCompile(`<td><span class="label">体重：</span><span field="">(.+)KG</span></td>`)

 //<h1 class="ceiling-name ib fl fs24 lh32 blue">怎么会迷上你</h1>

 //nameReg = regexp.MustCompile(`<h1 class="ceiling-name ib fl fs24 lh32 blue">([^\d]+)</h1>  `)

 //<td><span class="label">是否购车：</span><span field="">未购车</span></td>

 carReg = regexp.MustCompile(`<td><span class="label">是否购车：</span><span field="">(.+)</span></td>`)

)

func ParseProfile(contents []byte, name string) engine.ParserResult {

 profile := model.Profile{}

 age, err := strconv.Atoi(extractString(contents, ageReg))

 if err != nil {

   profile.Age = 0

 }else {

   profile.Age = age

 }

 height, err := strconv.Atoi(extractString(contents, heightReg))

 if err != nil {

   profile.Height = 0

 }else {

   profile.Height = height

 }

 weight, err := strconv.Atoi(extractString(contents, weightReg))

 if err != nil {

   profile.Weight = 0

 }else {

   profile.Weight = weight

 }

 profile.Income = extractString(contents, incomeReg)

 profile.Car = extractString(contents, carReg)

 profile.Education = extractString(contents, educationReg)

 profile.Gender = extractString(contents, genderReg)

 profile.Hokou = extractString(contents, hokouReg)

 profile.Income = extractString(contents, incomeReg)

 profile.Marriage = extractString(contents, marriageReg)

 profile.Name = name

 profile.Occupation = extractString(contents, occupationReg)

 profile.WorkLocation = extractString(contents, workLocationReg)

 profile.Xinzuo = extractString(contents, xinzuoReg)

 result := engine.ParserResult{

   Items: []interface{}{profile},

 }

 return result

}

//get value by reg from contents

func extractString(contents []byte, re *regexp.Regexp) string {

 m := re.FindSubmatch(contents)

 if len(m) > 0 {

   return string(m[1])

 } else {

   return ""

 }

}

engine代码如下：

package engine

import (

 "crawler/fetcher"

 "log"

)

func Run(seeds ...Request){

 //这里维持一个队列

 var requestsQueue []Request

 requestsQueue = append(requestsQueue, seeds...)

 for len(requestsQueue) > 0 {

   //取第一个

   r := requestsQueue[0]

   //只保留没处理的request

   requestsQueue = requestsQueue[1:]

   log.Printf("fetching url:%s\n", r.Url)

   //爬取数据

   body, err := fetcher.Fetch(r.Url)

   if err != nil {

     log.Printf("fetch url: %s; err: %v\n", r.Url, err)

     //发生错误继续爬取下一个url

     continue

   }

   //解析爬取到的结果

   result := r.ParserFunc(body)

   //把爬取结果里的request继续加到request队列

   requestsQueue = append(requestsQueue, result.Requests...)

   //打印每个结果里的item,即打印城市名、城市下的人名...

   for _, item := range result.Items {

     log.Printf("get item is %v\n", item)

   }

 }

}

Fetcher用于发起http get请求，这里有一点注意的是：珍爱网可能做了反爬虫限制手段，所以直接用http.Get(url)方式发请求，会报403拒绝访问；故需要模拟浏览器方式：

client := &http.Client{}

 req, err := http.NewRequest("GET", url, nil)

 if err != nil {

   log.Fatalln("NewRequest is err ", err)

   return nil, fmt.Errorf("NewRequest is err %v\n", err)

 }

 req.Header.Set("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36")

 //返送请求获取返回结果

 resp, err := client.Do(req)

最终fetcher代码如下：

package fetcher

import (

 "bufio"

 "fmt"

 "golang.org/x/net/html/charset"

 "golang.org/x/text/encoding"

 "golang.org/x/text/encoding/unicode"

 "golang.org/x/text/transform"

 "io/ioutil"

 "log"

 "net/http"

)

/**

爬取网络资源函数

*/

func Fetch(url string) ([]byte, error) {

 client := &http.Client{}

 req, err := http.NewRequest("GET", url, nil)

 if err != nil {

   log.Fatalln("NewRequest is err ", err)

   return nil, fmt.Errorf("NewRequest is err %v\n", err)

 }

 req.Header.Set("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36")

 //返送请求获取返回结果

 resp, err := client.Do(req)

 //直接用http.Get(url)进行获取信息，爬取时可能返回403，禁止访问

 //resp, err := http.Get(url)

 if err != nil {

   return nil, fmt.Errorf("Error: http Get, err is %v\n", err)

 }

 //关闭response body

 defer resp.Body.Close()

 if resp.StatusCode != http.StatusOK {

   return nil, fmt.Errorf("Error: StatusCode is %d\n", resp.StatusCode)

 }

 //utf8Reader := transform.NewReader(resp.Body, simplifiedchinese.GBK.NewDecoder())

 bodyReader := bufio.NewReader(resp.Body)

 utf8Reader := transform.NewReader(bodyReader, determineEncoding(bodyReader).NewDecoder())

 return ioutil.ReadAll(utf8Reader)

}

/**

确认编码格式

*/

func determineEncoding(r *bufio.Reader) encoding.Encoding {

 //这里的r读取完得保证resp.Body还可读

 body, err := r.Peek(1024)

 //如果解析编码类型时遇到错误,返回UTF-8

 if err != nil {

   log.Printf("determineEncoding error is %v", err)

   return unicode.UTF8

 }

 //这里简化,不取是否确认

 e, _, _ := charset.DetermineEncoding(body, "")

 return e

}

main方法如下：

package main

import (

 "crawler/engine"

 "crawler/zhenai/parser"

)

func main() {

 request := engine.Request{

   Url: "http://www.zhenai.com/zhenghun",

   ParserFunc: parser.ParseCityList,

 }

 engine.Run(request)

}

最终爬取到的用户信息如下，包括昵称、年龄、身高、体重、工资、婚姻状况等。

如果你想要哪个妹子的照片，可以点开url查看，然后打招呼进一步发展。

至此单任务版的爬虫就做完了，后面我们将对单任务版爬虫做性能分析，然后升级为多任务并发版，把爬取到的信息存到ElasticSearch中，在页面上查询

本公众号免费提供csdn下载服务，海量IT学习资源，如果你准备入IT坑，励志成为优秀的程序猿，那么这些资源很适合你，包括但不限于java、go、python、springcloud、elk、嵌入式、大数据、面试资料、前端等资源。同时我们组建了一个技术交流群，里面有很多大佬，会不定时分享技术文章，如果你想来一起学习提高，可以公众号后台回复【2】，免费邀请加技术交流群互相学习提高，会不定期分享编程IT相关资源。

扫码关注，精彩内容第一时间推给你

用go语言爬取珍爱网 | 第三回的更多相关文章

用go语言爬取珍爱网 | 第一回
我们来用go语言爬取"珍爱网"用户信息. 首先分析到请求url为: http://www.zhenai.com/zhenghun 接下来用go请求该url,代码如下: packag ...
用go语言爬取珍爱网 | 第二回
昨天我们一起爬取珍爱网首页,拿到了城市列表页面,接下来在返回体城市列表中提取城市和url,即下图中的a标签里的href的值和innerText值. 提取a标签,可以通过CSS选择器来选择,如下: $( ...
Python爬虫之爬取慕课网课程评分
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...
GoLang爬取花瓣网美女图片
由于之前一直想爬取花瓣网(http://huaban.com/partner/uc/aimeinv/pins/) 的图片,又迫于没时间,所以拖了很久. 鉴于最近在学go语言,就刚好用这个练手了. 预览 ...
网络爬虫之定向爬虫：爬取当当网2015年图书销售排行榜信息（Crawler）
做了个爬虫,爬取当当网--2015年图书销售排行榜 TOP500 爬取的基本思想是:通过浏览网页,列出你所想要获取的信息,然后通过浏览网页的源码和检查(这里用的是chrome)来获相关信息的节点,最后 ...
使用python爬取东方财富网机构调研数据
最近有一个需求,需要爬取东方财富网的机构调研数据.数据所在的网页地址为: 机构调研网页如下所示: 可见数据共有8464页,此处不能直接使用scrapy爬虫进行爬取,因为点击下一页时,浏览器只是发起了 ...
Node.js爬虫-爬取慕课网课程信息
第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让 ...
python 爬虫之爬取大街网（思路）
由于需要,本人需要对大街网招聘信息进行分析,故写了个爬虫进行爬取.这里我将记录一下,本人爬取大街网的思路. 附:爬取得数据仅供自己分析所用,并未用作其它用途. 附:本篇适合有一定爬虫基础 crawl ...
基于爬取百合网的数据，用matplotlib生成图表
爬取百合网的数据链接:http://www.cnblogs.com/YuWeiXiF/p/8439552.html 总共爬了22779条数据.第一次接触matplotlib库,以下代码参考了matpl ...

随机推荐

Ansible实现批量管理服务器
Ansible介绍: a. ansible是一个基于Python开发的自动化运维工具b. ansible是一个基于ssh协议实现远程管理的工具c. ansible软件可以实现多种批量管理操作(批量系统 ...
C#客户端程序Visual Stadio远程调试
一,需求来源在开发过程中,可能会要使用Win7 ,Win8 ,Win10等不同版本的系统去做兼容性调试,也有时候会去针对特别的显卡,无线网卡等等硬件设备的机器做优化,有一种较优的方案,那就是使用Vi ...
MultipartFile 获取上传TXT文件字数
@ResponseBody @RequestMapping(value = "/addImgForDynamic")//(发布动态) public Map addImgForDyn ...
android 滚动时间选择器
一.概述滚动时间选择现在貌似很常用,所以就总结一下,显示效果一般般 , 做个参考吧! 以上就是效果图,可以滚动选择日期时间, 由于是在 5.0系统运行的,貌似5.0系统做了什么变动,下面的 &qu ...
getMeasuredHeight()与getHeight() 以及MeasureSpec.getSize()
getMeasuredHeight()返回的是原始测量高度,与屏幕无关,getHeight()返回的是在屏幕上显示的高度.实际上在当屏幕可以包裹内容的时候,他们的值是相等的,只有当view超出屏幕后, ...
spring scope prototype与singleton区别
1.singleton作用域当一个bean的作用域设置为singleton, 那么Spring IOC容器中只会存在一个共享的bean实例,并且所有对bean的请求,只要id与该bean定义相匹配 ...
Windows7关闭默认共享
注意:禁用默认共享会导致安装ORACLE时执行先决条件检测不通过,要想安装ORACLE得先打开共享. 1.win+r 运行里输入compmgmt.msc进入计算机管理,在共享文件夹里,去掉所有的盘共享 ...
Stanford公开课《编译原理》学习笔记(1~4课)
目录一. 编译的基本流程二. Lexical Analysis(词法分析阶段) 2.1 Lexical Specification(分词原则) 2.2 Finite Automata (典型分词算 ...
Hadoop 之 HDFS的使用
1.列出hadoop下面的目录, hadoop fs -ls / 进入user hadoop fs ls /user 2.再usr/root下新建input目录 hadoop -mkdir inpu ...
[Algorithm] Hashing for search
Hashing Process 关于hash本身,解决冲突是一个小重点,如下图. 代码实现分析 —— 定义HashTable类一.数据结构 def __init__(self): self.size ...

用go语言爬取珍爱网 | 第三回

用go语言爬取珍爱网 | 第三回的更多相关文章

随机推荐

热门专题