go 虎牙爬取

package main

import (

	"fmt"

	"github.com/antchfx/htmlquery"

	"io/ioutil"

	"net/http"

)

func main() {

	var url string = "https://www.huya.com/l"

	resp, _ := http.Get(url)

	defer resp.Body.Close()

	doc,_ := htmlquery.Parse(resp.Body)

	list := htmlquery.Find(doc, "//ul[@id='js-live-list']//li")

	for _,li := range list{

		nick := htmlquery.FindOne(li,"//i[@class='nick']/text()")

		//people := htmlquery.FindOne(li,"//i[@class='js-num']/text()")

		//title := htmlquery.FindOne(li,"//a[@class='title']")

		img := htmlquery.FindOne(li,"//a[@class='video-info ']/img/@data-original")

		//fmt.Printf("%s %s %s %s\n",htmlquery.InnerText(nick),htmlquery.InnerText(people),htmlquery.SelectAttr(title,"title"),htmlquery.SelectAttr(img,"data-original"))

		imgurl := htmlquery.SelectAttr(img,"data-original")

		titleString := htmlquery.InnerText(nick)

		savepic(imgurl,titleString)

	}

}

func savepic(url string,name string ) {

	if len(url)<= 0{

		return

	}

	if url[0:2] == "//" {

		url =   "http:"+url

	}

	resp, err := http.Get(url)

	if err !=nil{

		fmt.Println("http error",err)

		return

	}

	content, err1 := ioutil.ReadAll(resp.Body)

	if err1 != nil{

		fmt.Println("read err",err1)

		return

	}

	file := ioutil.WriteFile("./imgs/"+name+".jpg", content, 0777)

	if file != nil {

		fmt.Printf("下载图片%s 失败\n", name)

	} else{

		fmt.Printf("下载图片%s 成功\n", name)

	}

}

go 虎牙爬取的更多相关文章

Scrapy:虎牙爬取，图片存储与数据分析
第一次爬取虎牙主播数据,有点小激动 1.共批量爬取的101个主播的,包括头像主播名字房间号房间链接 2.数据规整部分,需要将json数据加载到pandas的Dataframe,只显示的前15个 ...
Scrapy框架爬虫初探——中关村在线手机参数数据爬取
关于Scrapy如何安装部署的文章已经相当多了,但是网上实战的例子还不是很多,近来正好在学习该爬虫框架,就简单写了个Spider Demo来实践.作为硬件数码控,我选择了经常光顾的中关村在线的手机页面 ...
python爬取github数据
爬虫流程在上周写完用scrapy爬去知乎用户信息的爬虫之后,github上star个数一下就在公司小组内部排的上名次了,我还信誓旦旦的跟上级吹牛皮说如果再写一个,都不好意思和你再提star了,怕你们 ...
Python多线程爬虫爬取电影天堂资源
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...
python3爬取1024图片
这两年python特别火,火到博客园现在也是隔三差五的出现一些python的文章.各种开源软件.各种爬虫算法纷纷开路,作为互联网行业的IT狗自然看的我也是心痒痒,于是趁着这个雾霾横行的周末瞅了两眼,作 ...
从爬取湖北某高校hub教务系统课表浅谈Java信息抓取的实现 —— import java.*;
原创文章与源码,如果转载请注明来源. 开发环境:Myeclipse,依赖包:apache-httpclient . Jsoup.base64 一.概述整个系统用Java开发.我们现在要做的是类似于超 ...
使用beautifulsoup与requests爬取数据
1.安装需要的库 bs4 beautifulSoup requests lxml如果使用mongodb存取数据,安装一下pymongo插件 2.常见问题 1> lxml安装问题如果遇到lxm ...
python爬虫学习(7) —— 爬取你的AC代码
上一篇文章中,我们介绍了python爬虫利器--requests,并且拿HDU做了小测试. 这篇文章,我们来爬取一下自己AC的代码. 1 确定ac代码对应的页面如下图所示,我们一般情况可以通过该顺序 ...
Python实战项目网络爬虫之爬取小说吧小说正文
本次实战项目适合,有一定Python语法知识的小白学员.本人也是根据一些网上的资料,自己摸索编写的内容.有不明白的童鞋,欢迎提问. 目的:爬取百度小说吧中的原创小说<猎奇师>部分小说内容 ...

随机推荐

python基础：内置函数zip,map,filter
一.zip zip,就是把俩list,合并到一起,如果想同时循环2个list的时候,可以用zip,会帮你轮流循环两个list 比如: l1=[1,2,3,4,5] l2=['a','b','c','d ...
服务器搭建远程docker深度学习环境
服务器搭建远程docker深度学习环境本文大部分内容参考知乎文章 Docker+PyCharm快速搭建机器学习开发环境搭建过程中出现ssh连接问题可以查看最后的注意事项 Docker Docker ...
NSThread线程对象
NSThread 创建线程的方式准备在后台线程调用的方法 longOperation: - (void)longOperation:(id)obj { NSLog(@"%@ - %@&qu ...
CentOS7使用PackageCloud安装RabbitMQ
环境:CentOS Linux release 7.6.1810 (Core) RabbitMQ:3.7.17Erlang: 22.0.7 使用PackageCloud安装RabbitMQ是最简单的安 ...
复习 | 重温jQuery和Zepto的API
jq和zepto很相似有许多共同的api,zepto也出了很多与jq不一样的api,总的来说,两者更相似,但是zepto更轻量一点,正好公司也在用,复习这两个没错 jq中的zepto的事件和ajax我 ...
Linux实战（4）：Centos7升级python
记一笔升级python后产生的问题,并给予解决方案.莫慌看下文: 升级python3 我是直接 yum安装的,当然安装方法有很多,不喜欢此安装方式的可选用其他方式,我再此就不一一解释了.安装方式可不同 ...
k8s报错解决思路
问题1 1.报错信息如下 [root@ken1 ~]# kubectl get po The connection to the server 192.168.64.11:6443 was refus ...
ribbon源码(3) 配置模块
ribbon的很多功能可以通过配置进行调整,ribbon通过IClientConfig来获取配置信息,用户可以通过实现IClientConfig来管理配置. ribbon也提供了默认的实现(Defau ...
Class对象、反射、动态代理
Class对象是所有类的根源,Object是所有对象的根源. 编译后的新类会产生一个Class对象,保存在同名的.class文件中.每个类都有一个Class对象,它包含了所有的与类有关的信息.所有的C ...
selenium过豆瓣滑动验证码
首先是加速度代码 def get_tracks(distance): """ 拿到移动轨迹,模仿人的滑动行为,先匀加速后匀减速匀变速运动基本公式: ①v = v0+at ...

go 虎牙爬取

go 虎牙爬取的更多相关文章

随机推荐

热门专题