go一个简单的爬虫（豆瓣）

最近在学习go语言爬虫，写了个小demo

package main

import (

	"fmt"

	"io/ioutil"

	"net/http"

	"regexp"

	"strconv"

)

type Movie struct {

	name   string

	mark   string

	person string

	time   string

	url    string

}

func main() {

	chs := make([] chan int, 10)

	sliceList := []int{1291841,26761416,1309220,1300741,1293172}

	for i,v:=range sliceList{

		go child(v, chs[i])

	}

	for _, ch := range chs {

		<-ch

	}

}

func child(id int, ch chan int) {

	url := "https://movie.douban.com/subject/" + strconv.Itoa(id) + "/"

	resp, err := http.Get(url)

	if err != nil {

		panic(err)

	}

	defer resp.Body.Close()

	sHtml, _ := ioutil.ReadAll(resp.Body)

	movie := new(Movie)

	movie.name = GetValue(`<span\s*property="v:itemreviewed">(.*)</span>`, &sHtml)

	movie.mark = GetValue(`<strong\s*class="ll\s*rating_num"\s*property="v:average">(.*)</strong>`, &sHtml)

	movie.person = GetValue(`<a href="/celebrity/[0-9]+/" rel="v:directedBy">(.*)</a>`, &sHtml)

	movie.time = GetValue(`<span property="v:runtime" content="(.*)">.*</span>`, &sHtml)

	movie.url = GetValue(`<a href="(.*)" target="_blank" rel="nofollow">.*</a>`, &sHtml)

	fmt.Println(movie)

	ch <- 1

}

func GetValue(rule string, sHtml *[] byte) string {

	reg := regexp.MustCompile(rule)

	result := reg.FindAllStringSubmatch(string(*sHtml), 1)

	return result[0][1]

}

go一个简单的爬虫（豆瓣）的更多相关文章

python （1）一个简单的爬虫： python 在windows下创建文件夹并写入文件
1.一个简单的爬虫:爬取豆瓣的热门电影的信息写在前面:如何创建本来存在的文件夹并写入 t_path = "d:/py/inn" #本来不存在inn,先定义路径,然后如果不存在,则 ...
Python并发编程-一个简单的爬虫
一个简单的爬虫 #网页状态码 #200 正常 #404 网页找不到 #502 504 import requests from multiprocessing import Pool def get( ...
python爬虫系列（1）——一个简单的爬虫实例
本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片. 1. 概述本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片.下载图片的步骤如下: 获取网页html文本内容:分析html中 ...
【转】使用webmagic搭建一个简单的爬虫
[转]使用webmagic搭建一个简单的爬虫刚刚接触爬虫,听说webmagic很不错,于是就了解了一下. webmagic的是一个无须配置.便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代 ...
用node.js从零开始去写一个简单的爬虫
如果你不会Python语言,正好又是一个node.js小白,看完这篇文章之后,一定会觉得受益匪浅,感受到自己又新get到了一门技能,如何用node.js从零开始去写一个简单的爬虫,十分钟时间就能搞定, ...
nodejs实现一个简单的爬虫
nodejs是js语言,实现一个爬出非常的方便. 步骤 1. 使用nodejs的request模块,获取目标页面的html代码:https://github.com/request/request 2 ...
爬虫浅谈一：一个简单c#爬虫程序
这篇文章只是简单展示一个基于HTTP请求如何抓取数据的文章,如觉得简单的朋友,后续我们再慢慢深入研究探讨. 图1: 如图1,我们工作过程中,无论平台网站还是企业官网,总少不了新闻展示.如某天产品经理跟 ...
一个简单java爬虫爬取网页中邮箱并保存
此代码为一十分简单网络爬虫,仅供娱乐之用. java代码如下: package tool; import java.io.BufferedReader; import java.io.File; im ...
Python网络爬虫 - 一个简单的爬虫例子
下面我们创建一个真正的爬虫例子爬取我的博客园个人主页首页的推荐文章列表和地址 scrape_home_articles.py from urllib.request import urlopen f ...

随机推荐

阿里P7级教你如何在Spring Boot应用程序中使用Redis
在Spring Boot应用程序中使用Redis缓存的步骤: 1.要获得Redis连接,我们可以使用Lettuce或Jedis客户端库,Spring Boot 2.0启动程序spring-boot-s ...
Matplotlib介绍
目录一. Matplotlib介绍 1 二. 初级绘制 1 1. 绘图简介 1 2. 在上面的过程中,主要就是下面三个元素: 1 三. 2D各种 ...
You're currently running Fcitx with GUI 错误解决 Fcitx
在英文版ubuntu配置输入法时,点击 Configure Current Input Method 会报以下的错误: You’re currently running Fcitx with GUI, ...
Scyther GUI 攻击输出图的解释
1.在声明事件的安全属性的时候也就是整个过程要验证的对象: Scythe 的安全属性分为下面几种: Secrecy: 表示数据传输过程中是安全的,即使通过不信任的网络传也不能被攻击者获得 SKR ...
Qt一些方便易用的小技巧
延迟给自己发信号执行操作 //延迟4500毫秒, 改变Status的值. QTimer::singleShot(4500, this, [&](){ this->Status = 0; ...
linux 、 CentOs ---> 环境变量设置
Linux下环境变量设置 1.在Windows 系统下,很多软件安装都需要配置环境变量,比如安装 jdk ,如果不配置环境变量,在非软件安装的目录下运行javac 命令,将会报告找不到文件,类似的错 ...
selenium 键盘事件模拟ctrl+v 然后键盘点击回车键
#windows下执行 import win32api,win32con,win32clipboard as w #获取剪切板内容 def get_text(): w.OpenClipboard() ...
使用Tampermonkey，实现Gitlab禁用自我Merge的功能
Tampermonkey 简单入门资料:https://blog.csdn.net/gg_18826075157/article/details/78011162 Tampermonkey下载地址:T ...
TODO:AppiumTestDistribution--CapabilityManager 类
该类代码详见git:https://github.com/AppiumTestDistribution/AppiumTestDistribution/tree/master/src/main/java ...
C语言I作业12一学期总结
一.我学到的内容二.我的收获作业收获 C语言I博客作业01 学会了编程"Hello word" C语言I博客作业02 安装编译器,将代码建立在自己的文件里面 C语言I博客作业 ...

go一个简单的爬虫（豆瓣）

go一个简单的爬虫（豆瓣）的更多相关文章

随机推荐

热门专题