go爬虫之爬取豆瓣电影

go爬取豆瓣电影

好久没使用go语言做个项目了，上午闲来无事花了点时间使用golang来爬取豆瓣top电影，这里我没有用colly框架而是自己设计简单流程。mark一下

思路

定义两个channel，一个channel存放web网页源内容，另一个存放提取后的有效内容。

多个goroutine并发爬取网页源内容放到存放web网页的channel里，再启动goroutine去存放web网页的channel里读取内容，读取到内容后启动goroutine去提取有效值存放到channel里，最后持久化写入本地文件(文件写操作并非线程安全所以这里我没有使用多goroutine)。

代码

具体代码如下，如果想执行看效果需要go get github.com/PuerkitoBio/goquery安装三方包或者直接点这里拉取代码设置GOPATH之后便可运行

package main

import (

	"encoding/json"

	"fmt"

	"io/ioutil"

	"net/http"

	"regexp"

	"strings"

	"time"

	"os"

	"github.com/PuerkitoBio/goquery"

)

/*

通过多个goroutine并发执行爬取操作，channel存放要爬取url内容和爬取结果

这样只需要设计爬取函数和提取函数

*/

func get_web_content(url string, chan_web chan string) {

	resp, err := http.Get(url)

	if err != nil {

		fmt.Println("http get error", err)

		return

	}

	body, err := ioutil.ReadAll(resp.Body)

	if err != nil {

		fmt.Println("read error", err)

		return

	}

	chan_web <- string(body)

}

func extract_valid_content(body string, chan_r chan []byte) {

	dom, err := goquery.NewDocumentFromReader(strings.NewReader(body))

	if err != nil {

		fmt.Println(err)

	}

	dom.Find("ol.grid_view div.item").Each(func(i int, selection *goquery.Selection) {

		// extract result

		result := make(map[string]string)

		name := selection.Find("div.info span.title").First().Text()

		doctor_str := selection.Find("div.info div.bd p").First().Text()

		r := regexp.MustCompile(`导演:(?s:(.*?))(主演|主|&|\.\.\.)`)

		doctor := r.FindAllStringSubmatch(doctor_str, -1)[0][1]

		rating_num := selection.Find("div.star span.rating_num").First().Text()

		evaluation_str := selection.Find("div.star span").Last().Text()

		r = regexp.MustCompile(`(?s:(.*?))人评价`)

		evaluation := r.FindAllStringSubmatch(evaluation_str, -1)[0][1]

		ranking := selection.Find("div.pic em").First().Text()

		result["name"] = name

		result["doctor"] = doctor

		result["rating_num"] = rating_num

		result["evaluation"] = evaluation

		result["ranking"] = ranking

		json_str, err := json.Marshal(result)

		if err != nil {

			fmt.Println(err)

			return

		}

		chan_r <- json_str

	})

}

func main() {

	var (

		OutputFile = "./film_crawl.txt"

	)

	base_url := "https://movie.douban.com/top250?start=%d&filter="

	chan_web_content := make(chan string)

	defer close(chan_web_content)

	chan_r := make(chan []byte)

	defer close(chan_r)

	for i := 0; i < 10; i++ {

		url := fmt.Sprintf(base_url, i*25)

		go get_web_content(url, chan_web_content)

	}

	go func() {

		for {

			web_content, ok := <- chan_web_content

			if !ok {

				break

			}

			go extract_valid_content(web_content, chan_r)

		}

	}()

	flag := false

	to := time.NewTimer(time.Second * 5)

	file, err := os.OpenFile(OutputFile, os.O_RDWR|os.O_CREATE|os.O_APPEND, 0644)

	if err != nil {

		fmt.Println("Failed to open the file", err.Error())

		return

	}

	defer file.Close()

	for {

		if flag {

			break

		}

		to.Reset(time.Second * 5)

		select {

		case res := <- chan_r:

			fmt.Printf("%s\n", res)

			file.Write(res)

			file.WriteString("\n")

		case <- to.C:

			flag = true

			break

		}

	}

	fmt.Println("end")

}

go爬虫之爬取豆瓣电影的更多相关文章

第一个nodejs爬虫：爬取豆瓣电影图片
第一个nodejs爬虫:爬取豆瓣电影图片存入本地: 首先在命令行下 npm install request cheerio express -save; 代码: var http = require( ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...
爬虫——正则表达式爬取豆瓣电影TOP前250的中英文名
正则表达式爬取豆瓣电影TOP前250的中英文名 1.首先要实现网页的数据的爬取.新建test.py文件 test.py 1 import requests 2 3 def get_Html_text( ...
零基础爬虫----python爬取豆瓣电影top250的信息（转）
今天利用xpath写了一个小爬虫,比较适合一些爬虫新手来学习.话不多说,开始今天的正题,我会利用一个案例来介绍下xpath如何对网页进行解析的,以及如何对信息进行提取的. python环境:pytho ...
初识python 之爬虫：爬取豆瓣电影最热评论
主要用到lxml的etree解析网页代码,xpath获取HTML标签. 代码如下: 1 #!/user/bin env python 2 # author:Simple-Sir 3 # time:20 ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
Python开发爬虫之静态网页抓取篇：爬取“豆瓣电影 Top 250”电影数据
所谓静态页面是指纯粹的HTML格式的页面,这样的页面在浏览器中展示的内容都在HTML源码中. 目标:爬取豆瓣电影TOP250的所有电影名称,网址为:https://movie.douban.com/t ...
爬虫系列1：Requests+Xpath 爬取豆瓣电影TOP
爬虫1:Requests+Xpath 爬取豆瓣电影TOP [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]: ...
爬虫系列(十) 用requests和xpath爬取豆瓣电影
这篇文章我们将使用 requests 和 xpath 爬取豆瓣电影 Top250,下面先贴上最终的效果图: 1.网页分析 (1)分析 URL 规律我们首先使用 Chrome 浏览器打开豆瓣电影 T ...

随机推荐

升级系统中的java到1.8版本
(1).安装或升级java,并配置环境变量注意:此处分为yum安装与rpm安装,区别在于yum安装省事但配置麻烦,rpm安装麻烦但配置省事. 1)yum安装在安装前可以使用yum list ins ...
编译bitcoin比特币客户端
我遇到了两个不太容易解决的问题. 问题一: checking for Berkeley DB C++ headers... default configure: error: Found Berkel ...
Linux下如何启用MySQL数据库远程访问
远程连接MySQL出于安全考虑,一般都关闭了远程访问,但有时候需要提供远程访问数据库的服务,下面我们快速学习下: 第一步:修改my.cnf文件使用文本编辑器去编辑MySQL服务器的配置文件my.cnf ...
socket之IO多路复用
概述目的:同一个线程同时处理多个IO请求. 本文以python的select模块来实现socket编程中一个server同时处理多个client请求的问题. web框架tornado就是以此实现多客 ...
uWSGI 漏洞复现（CVE-2018-7490）
uWSGI是一个Web服务器,它实现了WSGI协议.uwsgi.http等协议.Nginx中HttpUwsgiModule的作用是与uWSGI服务器进行交换.WSGI是一种Web服务器网关接口.它是一 ...
codevs 2853：方格游戏
(排版没搞好,这一行用来卖萌~) 题目描述 Description 菜菜看到了一个游戏,叫做方格游戏~ 游戏规则是这样的: 在一个n*n的格子中,在每个1*1的格子里都能获得一定数量的积分奖励,记左上 ...
C语言I博客作业12—学期总结
一.我学到的内容二.我的收获(包括我完成的所有作业的链接+收获)不能只有作业链接,没有收获作业次数作业链接第一次 C语言I博客作业01 第二次 C语言I博客作业02 第三次 C语言I博客作业0 ...
什么是 redis 的雪崩、穿透和击穿？
缓存雪崩对于系统 A,假设每天高峰期每秒 5000 个请求,本来缓存在高峰期可以扛住每秒 4000 个请求,但是缓存机器意外发生了全盘宕机.缓存挂了,此时 1 秒 5000 个请求全部落数据库,数据 ...
zotero入门简介
文献管理工具必备的功能:word文档中插入文献引用,自动生成参考文献列表. 支持系统:windows, linux, macOS. 费用:免费提供300M以内文献库存储容量. 其他:支持笔记,条目附件 ...
oracle-function-into时为null报错
oracle-function-into时为null报错 create or replace function P_ADD_CUSTOMER_FOR_CSS_heyt_test(i_cust_name ...

go爬虫之爬取豆瓣电影

go爬取豆瓣电影

思路

代码

go爬虫之爬取豆瓣电影的更多相关文章

随机推荐

热门专题