.Net Core爬虫爬取妹子网图片

现在网上大把的Python的爬虫教程，很少看见有用C#写的，正好新出的.Net Core可以很方便的部署到Linux上，就用妹子图做示范写个小爬虫

在C#下有个很方便的类库 HtmlAgilityPack 可以用来分析网页

我们先新建一个.Net Core控制台项目MzituCrawler，在Nuget管理器添加HtmlAgilityPack的引用 Install-Package HtmlAgilityPack -Version 1.9.

我们打开妹子图的网页，点击下面的翻页按钮，发现每页的地址有个固定的格式 https://www.mzitu.com/page/页码/

我们先获取总共多少页

 var baseUrl = $"https://www.mzitu.com";

 HtmlWeb web = new HtmlWeb();

 var indexDoc = web.Load(baseUrl);

 var pageNode = indexDoc.DocumentNode.SelectNodes("/html/body/div[@class='main']/div[@class='main-content']/div[@class='postlist']/nav/div/a").Last(a => a.GetAttributeValue("class", string.Empty) == "page-numbers");

 var pageCount = int.Parse(pageNode.InnerText);

查看网页上链接的元素可以看到每个链接对应的xpath地址为 //*[@id='pins']/li/a

我们用HtmlAgilityPack获取第每一页的内容

 for (int pageIndex = ; pageIndex <= pageCount; pageIndex++)

 {

     var url = new Uri(new Uri(baseUrl), $"/page/{pageIndex}/").ToString();

     var doc = web.Load(url);

     var nodes = doc.DocumentNode.SelectNodes("//*[@id='pins']/li/a");

     if (nodes.Count > 0x0)

     {

         foreach (var node in nodes)

         {

             var title = node.SelectSingleNode("img").GetAttributeValue("alt", string.Empty);

             var href = node.GetAttributeValue("href", string.Empty);

             href = new Uri(new Uri(baseUrl), href).ToString();

             DownloadImages(downloadFolder: Path.Combine(baseFolder, title), url: href);

         }

     }

     else

     {

         return;

     }

 }

其中方法 DownloadImages 是下载对应链接里面图片的方法

 private static void DownloadImages(string downloadFolder, string url)

 {

     if (!Directory.Exists(downloadFolder))

     {

         Directory.CreateDirectory(downloadFolder);

     }

     HtmlWeb web = new HtmlWeb();

     var indexDoc = web.Load(url);

     var pageNode = indexDoc.DocumentNode.SelectNodes("/html/body/div[@class='main']/div[@class='content']/div[@class='pagenavi']/a").Reverse().Skip().First();

     var pageCount = pageNode == null ?  : int.Parse(pageNode.InnerText);

     for (int pageIndex = ; pageIndex <= pageCount; pageIndex++)

     {

         var doc = web.Load($"{url}/{pageIndex}");

         var imageNode = doc.DocumentNode.SelectSingleNode("/html/body/div[2]/div[1]/div[3]/p/a/img");

         if (imageNode != null)

         {

             var imageUrl = imageNode.GetAttributeValue("src", string.Empty);

             imageUrl = new Uri(new Uri(url), imageUrl).ToString();

             if (historyUrl.Contains(imageUrl))

             {

                 continue;

             }

             using (var client = new HttpClient())

             {

                 client.DefaultRequestHeaders.Host = "i.meizitu.net";

                 client.DefaultRequestHeaders.Pragma.ParseAdd("no-cache");

                 client.DefaultRequestHeaders.AcceptEncoding.ParseAdd("gzip, deflate");

                 client.DefaultRequestHeaders.AcceptLanguage.ParseAdd("zh-CN,zh;q=0.8,en;q=0.6");

                 client.DefaultRequestHeaders.CacheControl = new System.Net.Http.Headers.CacheControlHeaderValue { NoCache = true };

                 client.DefaultRequestHeaders.Connection.ParseAdd("keep-alive");

                 client.DefaultRequestHeaders.Referrer = new Uri(url);

                 client.DefaultRequestHeaders.UserAgent.ParseAdd("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36");

                 client.DefaultRequestHeaders.Accept.ParseAdd("image/webp,image/apng,image/*,*/*;q=0.8");

                 var buffer = client.GetByteArrayAsync(imageUrl).Result;

                 var fileName = new Uri(imageUrl).Segments.Last();

                 File.WriteAllBytes(Path.Combine(downloadFolder, fileName), buffer);

             }

         }

     }

 }

.Net Core爬虫爬取妹子网图片的更多相关文章

使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
Node.js爬虫-爬取慕课网课程信息
第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让 ...
scrapy爬虫爬取小姐姐图片（不羞涩）
这个爬虫主要学习scrapy的item Pipeline 是时候搬出这张图了: 当我们要使用item Pipeline的时候,要现在settings里面取消这几行的注释我们可以自定义Item Pip ...
python爬虫——爬取NUS-WIDE数据库图片
实验室需要NUS-WIDE数据库中的原图,数据集的地址为http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm 由于这个数据只给了每个图片的URL,所以需 ...
python爬虫:爬取慕课网视频
前段时间安装了一个慕课网app,发现不用注册就可以在线看其中的视频,就有了想爬取其中的视频,用来在电脑上学习.决定花两天时间用学了一段时间的python做一做.(我的新书<Python爬虫开发与 ...
python爬虫爬取赶集网数据
一.创建项目 scrapy startproject putu 二.创建spider文件 scrapy genspider patubole patubole.com 三.利用chrome浏览器 ...
使用requests+BeaBeautiful Soup爬取妹子图图片
1. Requests:让 HTTP 服务人类 Requests 继承了urllib2的所有特性.Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定 ...
Python 爬虫: 抓取花瓣网图片
接触Python也好长时间了,一直没什么机会使用,没有机会那就自己创造机会!呐,就先从爬虫开始吧,抓点美女图片下来. 废话不多说了,讲讲我是怎么做的. 1. 分析网站想要下载图片,只要知道图片的地址 ...

随机推荐

Python第三方库使用感言
Python第三方库使用的感言加使用笔记一般来讲第三方库会提供大量的类与对象, 对象方法的返回值和库中函数的返回值一般不会是Python原始自带的对象, 而是由该第三方库提供的对象, 因为Pytho ...
Python文本数据分析与处理
Python文本数据分析与处理(新闻摘要) 分词使用jieba分词, 注意lcut只接受字符串过滤停用词 TF-IDF得到摘要信息或者使用LDA主题模型 TF-IDF有两种 jieba.analy ...
Linux Bird
o / : 2GB o /boot: 200MB o /usr : 4GB o /var : 2GB o /tmp : 1GB o swap : 1GB o /home: 5GB,并且使用 LVM 模 ...
Qt 日志输出
Qt学习(3)日志输出普通的打印输出用 QtCreator 开发 Qt 程序时, 经常需要向控制台打印一些参数.有时候是查看对象的属性是否被正确设置,有时候是查看程序是否执行了某一段代码,或者执行 ...
jQuery 3 有哪些新东西
jQuery 的横空出世,至今已有十个年头了,而它的长盛不衰显然不是没有理由的.jQuery 提供了极为友好的接口,使得开发者们可以方便地进行 DOM 操作.发起 Ajax 请求.生成动画……不一而足 ...
MySQL锁行锁表
select..for update; 给数据库表手动上锁 --锁行Begin; for update; --给 id=1 的行加上排它锁且 id 有索引 ; Commit; -- 锁表 BEGIN; ...
设置Tomcat的字符编码
在 server.xml 中的 Connector 标签在加入 URIEncoding="UTF-8" 属性. <Connector port="8080" ...
微信小程序电商实战-商品详情（上）
先看一下今天要实现的小程序商品详情页吧! 商品详情.gif 本期我们要实现小程序商品详情页的头部标题.头部轮播.商品详情浮动按钮和商品内页布局. 一.设置头部标题如上图所示,头部标题是商品详情 ...
linux脚本的source和reload
什么时候用reload?有些程序, 当你修改了配置文件后, 需要重启之后, 配置才能生效,但是这个程序又不能重启 , 如大公司的httpd服务因此, 当你修改完了之后, 需要在不重启服务的情况下 ...
powershell解决win10开始菜单和通知中心无法打开
然后通过 Ctrl + Shift + Esc 弹出任务管理器点击文件-->运行新任务在打开的填写框里面输入 "powershell"同时勾选下方的"以管理员身份 ...

.Net Core爬虫爬取妹子网图片

.Net Core爬虫爬取妹子网图片的更多相关文章

随机推荐

热门专题