go一个简单的爬虫（豆瓣）

最近在学习go语言爬虫，写了个小demo

package main

import (

	"fmt"

	"io/ioutil"

	"net/http"

	"regexp"

	"strconv"

)

type Movie struct {

	name   string

	mark   string

	person string

	time   string

	url    string

}

func main() {

	chs := make([] chan int, 10)

	sliceList := []int{1291841,26761416,1309220,1300741,1293172}

	for i,v:=range sliceList{

		go child(v, chs[i])

	}

	for _, ch := range chs {

		<-ch

	}

}

func child(id int, ch chan int) {

	url := "https://movie.douban.com/subject/" + strconv.Itoa(id) + "/"

	resp, err := http.Get(url)

	if err != nil {

		panic(err)

	}

	defer resp.Body.Close()

	sHtml, _ := ioutil.ReadAll(resp.Body)

	movie := new(Movie)

	movie.name = GetValue(`<span\s*property="v:itemreviewed">(.*)</span>`, &sHtml)

	movie.mark = GetValue(`<strong\s*class="ll\s*rating_num"\s*property="v:average">(.*)</strong>`, &sHtml)

	movie.person = GetValue(`<a href="/celebrity/[0-9]+/" rel="v:directedBy">(.*)</a>`, &sHtml)

	movie.time = GetValue(`<span property="v:runtime" content="(.*)">.*</span>`, &sHtml)

	movie.url = GetValue(`<a href="(.*)" target="_blank" rel="nofollow">.*</a>`, &sHtml)

	fmt.Println(movie)

	ch <- 1

}

func GetValue(rule string, sHtml *[] byte) string {

	reg := regexp.MustCompile(rule)

	result := reg.FindAllStringSubmatch(string(*sHtml), 1)

	return result[0][1]

}

go一个简单的爬虫（豆瓣）的更多相关文章

python （1）一个简单的爬虫： python 在windows下创建文件夹并写入文件
1.一个简单的爬虫:爬取豆瓣的热门电影的信息写在前面:如何创建本来存在的文件夹并写入 t_path = "d:/py/inn" #本来不存在inn,先定义路径,然后如果不存在,则 ...
Python并发编程-一个简单的爬虫
一个简单的爬虫 #网页状态码 #200 正常 #404 网页找不到 #502 504 import requests from multiprocessing import Pool def get( ...
python爬虫系列（1）——一个简单的爬虫实例
本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片. 1. 概述本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片.下载图片的步骤如下: 获取网页html文本内容:分析html中 ...
【转】使用webmagic搭建一个简单的爬虫
[转]使用webmagic搭建一个简单的爬虫刚刚接触爬虫,听说webmagic很不错,于是就了解了一下. webmagic的是一个无须配置.便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代 ...
用node.js从零开始去写一个简单的爬虫
如果你不会Python语言,正好又是一个node.js小白,看完这篇文章之后,一定会觉得受益匪浅,感受到自己又新get到了一门技能,如何用node.js从零开始去写一个简单的爬虫,十分钟时间就能搞定, ...
nodejs实现一个简单的爬虫
nodejs是js语言,实现一个爬出非常的方便. 步骤 1. 使用nodejs的request模块,获取目标页面的html代码:https://github.com/request/request 2 ...
爬虫浅谈一：一个简单c#爬虫程序
这篇文章只是简单展示一个基于HTTP请求如何抓取数据的文章,如觉得简单的朋友,后续我们再慢慢深入研究探讨. 图1: 如图1,我们工作过程中,无论平台网站还是企业官网,总少不了新闻展示.如某天产品经理跟 ...
一个简单java爬虫爬取网页中邮箱并保存
此代码为一十分简单网络爬虫,仅供娱乐之用. java代码如下: package tool; import java.io.BufferedReader; import java.io.File; im ...
Python网络爬虫 - 一个简单的爬虫例子
下面我们创建一个真正的爬虫例子爬取我的博客园个人主页首页的推荐文章列表和地址 scrape_home_articles.py from urllib.request import urlopen f ...

随机推荐

【Redis】事务 (超详细)
一.概述二.相关命令列表 2.1 MULTI 2.2 EXEC 2.3 DISCARD 2.4 WATCH key [key ...] 2.5 UNWATCH 三.命令示例 3.1 事务被正常执行 ...
vscode 插件备忘
由于不喜欢嵌入式c语言开发IDE,所以一致就当IDE是编译器,编辑工作都是使用其他文本编辑器替代的,最开始使用source insight,但是乱码问题和新建工程的不便利(也许不太会用),让我很纠结, ...
[USACO07MAR]面对正确的方式Face The Right Way
题目概括题目描述 Farmer John has arranged his N (1 ≤ N ≤ 5,000) cows in a row and many of them are facing f ...
zznu-oj-2117 : 我已经在路上了（求函数的原函数的字符串）--【暴力模拟题，花式模拟题，String大法好】
2117 : 我已经在路上了时间限制:1 Sec 内存限制:256 MiB提交:39 答案正确:8 提交状态编辑讨论区题目描述 spring是不折不扣的学霸,那可是机房考研中的头号选手,不吹 ...
jQuery——jQuery对象与DOM对象
1.jQuery对象与DOM对象的区别通过jQuery方法包装后的对象,是一个类数组对象.它与DOM对象完全不同,唯一相似的是它们都能操作DOM. 通过jQuery处理DOM的操作,可以让开发者更专 ...
APPLICATION SERVER和WEBSHPERE和Red Hat操作系统
1.Web服务器专门处理HTTP请求(request),但是应用程序服务器是通过很多协议来为应用程序提供(serves)商业逻辑(business logic) 2.WebSphere Applica ...
sizeof +数组名
链接:https://www.nowcoder.com/questionTerminal/daa5422cb468473c9e6e75cc98b771de 来源:牛客网 sizeof一个数组名称的时候 ...
【csp模拟赛3】bridge.cpp--矩阵加速递推
题目描述穿越了森林,前方有一座独木桥,连接着过往和未来(连接着上一题和下一题...). 这座桥无限长. 小 Q 在独木桥上彷徨了.他知道,他只剩下了 N 秒的时间,每一秒的时间里,他会向左或向右移 ...
mac 安装oh-my-zsh的问题
安装完,如果想切换回mac原来的bash终端,可以: chsh -s /bin/bash 反之,切换回zsh: chsh -s /bin/zsh
nodejs基础（回调函数、模块、事件、文件读写、目录的创建与删除）
node官网:http://nodejs.cn/ 今天想看看node的视频,对node进一步了解, 1.我们可以从官网下载node到自己的电脑上,今天了解到node的真正概念,node时javascr ...

go一个简单的爬虫（豆瓣）

go一个简单的爬虫（豆瓣）的更多相关文章

随机推荐

热门专题