2018-8-10-如何使用-C#-爬虫获得专栏博客更新排行

title	author	date	CreateTime	categories
如何使用 C# 爬虫获得专栏博客更新排行	lindexi	2018-08-10 19:16:51 +0800	2018-2-13 17:23:3 +0800	爬虫 C#

昨天，梦姐问我们，她存在一个任务，找到关注数排行100 和浏览量排行100 的专栏博客，在2017年还有更新的专栏。
梦姐说他要出去一趟，M大神在吃饭，于是我估算时间，只有半个钟。
整理一下：半个钟时间，找到两个表格中，在2017年更新的专栏。这就是需求。

我开始分开需求，第一步，读取数据，读取两个表的数据。第二步获取博客更新时间，博客更新时间就是最近的文章的发布时间。第三步，把结果写到文件里。

开始因为xlsx的读取问题卡了我一下，我计算了，读取excel的方法，我需要20分钟写完，而把excel转换为csv读取，我只要1分钟，于是我就把excel格式换为csv。

到这里，预处理就做完了。

我需要定义一个数据结构，用来存储数据。

存储从表格读取到的数据，需要看一下表格存在哪些数据。

于是我定义一个类

因为不知道专栏作家叫什么，于是我就把这个类叫专家

     class Proficient

    {

        /// <summary>

        /// 标题

        /// </summary>

        public string Title

        {

            get; set;

        }

        /// <summary>

        /// 网址

        /// </summary>

        public string Url

        {

            get; set;

        }

        /// <summary>

        /// 最后更新时间

        /// </summary>

        public string Date

        {

            get; set;

        }

    }

需要读取的数据有标题和网址，时间是需要进行计算。标题的作用是去重，网站是输入。但是表格还有其他内容，于是随意添加两个属性把他放进去。

接下来，如何从一个博客专栏网站读取到最新更新的博客？

我这里使用 HtmlAgilityPack 帮助解析网页。

HtmlAgilityPack 是一个强大的东西，使用的方法是从nuget搜索一下，就可以得到他。

安装进去，就可以使用了。

于是我写了一个函数 static void GetDate(Proficient proficient)用于读取时间。

获取网址：var url = proficient.Url;

获取到了网址，就可以获取网页。

获取网页的方法请看代码

             HtmlWeb web = new HtmlWeb();

            HtmlDocument doc = web.Load(url);

通过查看csdn的代码，可以知道存放博客的是 detail_list

如何从 HtmlAgilityPack 获取指定的 class ？

因为有xpath的存在，使用 xpath 就可以指定 class ，xpath 是和正则差不多的东西。

关于 xpath ，请看C#+HtmlAgilityPack+XPath带你采集数据(以采集天气数据为例子) - 数据之巅 - 博客园

看到detail_list前面是 ul 所以 xpath可以这样写

             var temp = doc.DocumentNode.SelectNodes("//ul[@class='detail_list']/li");

其中的//就是从网页任意位置

ul就是标签，指定哪个标签，之后就是标签是否存在属性，这里指定属性是 class ，看起来很简单。那么后面的/li就是路径，其实知道一个元素在哪，可以直接用路径来写。

但是我发现，其实找到detail_b更快

下面就是专栏的代码，可以看到时间使用的 class 是detail_b

        <ul class="detail_list">

                <li>

                  <h4><a href="http://blog.csdn.net/lindexi_gd/article/details/52041944" target="_blank">win10 uwp 入门</a></h4>

                  <p class="detail_p">UWP是什么我在这里就不说，本文主要是介绍如何入门UWP，也是合并我写的博客。</p>

                  <div class="detail_b"><span>2016-07-27 08:55</span>

                    <div class="fa fa-eye"></div><em>2752</em>

                  </div>

                </li>

于是把代码改为

                temp = doc.SelectNodes("//div[@class='detail_b']");

和上面一样，只是这里使用的是div，接下来就是拿到时间。

去掉html之后的文本就是时间

于是拿到第一个的时间就是博客的更新时间了，可能有些大神排序不是按照时间排的，但是这里不处理。

如何获取文本？请看代码

                proficient.Date = temp.Elements().FirstOrDefault().InnerText;

这样就是获取到了日期了，因为存在一些时间是 昨天 9：00的，我就没转换了

日期获取完成，就是写入文件，写入的文件很简单，直接放代码

         private static void Write(List<Proficient> proficient)

        {

            string file = "E:\\专栏排行\\csdn排行100.csv";

            using (StreamWriter stream=new StreamWriter(new FileStream(file,FileMode.Create),Encoding.GetEncoding("gbk")))

            {

                foreach (var temp in proficient)

                {

                    stream.WriteLine(temp.Title+","+temp.Url+","+temp.Date+","+temp.Folpv+","+temp.Num);

                }

            }

        }

需要改进的：

使用命令行指定读取文件，判断博客最新的日期，不可以使用第一篇博客。

去重不可以使用博客专栏标题，因为存在重复。

如果大家有写质量高的文章，想推荐到csdn首页，可以联系我哦……我会在梦姐面前多多美言

2017 CSDN博客专栏评选

参见：使用HtmlAgilityPack XPath 表达式抓取博客园数据 - 晓风拂月 - 博客园
 Html Agility Pack基础类介绍及运用 - itmuse - 博客园

2018-8-10-如何使用-C#-爬虫获得专栏博客更新排行的更多相关文章

如何使用 C# 爬虫获得专栏博客更新排行
昨天,梦姐问我们,她存在一个任务,找到关注数排行100 和浏览量排行100 的专栏博客,在2017年还有更新的专栏. 梦姐说他要出去一趟,M大神在吃饭,于是我估算时间,只有半个钟. 整理一下:半个 ...
知道创宇爬虫题--代码持续更新中 - littlethunder的专栏 - 博客频道 - CSDN.NET
知道创宇爬虫题--代码持续更新中 - littlethunder的专栏 - 博客频道 - CSDN.NET undefined 公司介绍 - 数人科技 undefined
采集爬虫中，解决网站限制IP的问题？ - wendi_0506的专栏 - 博客频道 - CSDN.NET
采集爬虫中,解决网站限制IP的问题? - wendi_0506的专栏 - 博客频道 - CSDN.NET undefined
10个值得我们关注的python博客
大家好,还记得我当时学习python的时候,我一直努力地寻找关于python的博客,但我发现它们的数量很少.这也是我建立这个博客的原因,向大家分享我自己学到的新知识.今天我向大家推荐10个值得我们关注 ...
Scrapy - 第一个爬虫和我的博客
第一个爬虫这里我用官方文档的第一个例子:爬取http://quotes.toscrape.com来作为我的首个scrapy爬虫,我没有找到scrapy 1.5的中文文档,后续内容有部分是我按照官方文 ...
(最新)使用爬虫刷CSDN博客访问量——亲测有效
说明:该篇博客是博主一字一码编写的,实属不易,请尊重原创,谢谢大家! 1.概述前言:前两天刚写了第一篇博客https://blog.csdn.net/qq_41782425/article/deta ...
python网络爬虫新浪博客篇
上次写了一个爬世纪佳缘的爬虫之后,今天再接再厉又写了一个新浪博客的爬虫.写完之后,我想了一会儿,要不要在博客园里面写个帖子记录一下,因为我觉得这份代码的含金量确实太低,有点炒冷饭的嫌疑,就是把上次的代 ...
[js高手之路]Node.js实现简易的爬虫-抓取博客文章列表信息
抓取目标:就是我自己的博客:http://www.cnblogs.com/ghostwu/ 需要实现的功能: 抓取文章标题,超链接,文章摘要,发布时间需要用到的库: node.js自带的http库 ...
[Python学习] 简单网络爬虫抓取博客文章及思想介绍
前面一直强调Python运用到网络爬虫方面很有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简介下Python是怎样爬去网络数据的,文章知识很easy ...

随机推荐

CSS工程化
CSS工程化引言: 你在编写CSS代码时,是否遇到过这样的问题: 代码没有层次结构,难以看出嵌套关系 .site-footer .footer-container .footer-menu { di ...
jun引导1.04可以让N3050支持6.2
1.03引导用在3050可以安装但是安装后找不到dsm 需要手动插拔电源才可以解决偶尔还会死机 1.04可以引导3050安装6.2 23739 安装24922正常,但是moments传照片后会死机 ...
cmake 2.8.12在redhat 4.4下安装
以前安过,忘了,今天记笔记这里
IO流11 --- 缓冲流(字符型)实现文本文件的复制 --- 技术搬运工（尚硅谷）
方法一:读到指定字符数组 @Test public void test7(){ BufferedReader br = null; BufferedWriter bw = null; try { br ...
GitHub：如何构建一个股票市场知识图谱？（附代码&链接）
来源:专知本文约 600007 董事⻓/董事高燕女 60 600007 执⾏董事刘永政男 50 600008 董事⻓/董事 ··· ··· ··· ··· ··· 注:建议表头最好用相应的英 ...
Python2 Python3 urllib方法对应
Python2 name Python3 nameurllib.urlopen() urllib.request.urlopen()urllib2.urlopen() urllib.request.u ...
我认为最节省时间的CSS命名规范
CSS命名规范一 js中对变量的命名最好使用camel case驼峰式命名法,但CSS中更适用于red-box命名规范. CSS命名规范二 BEM命名规范 B=>block E=>elem ...
ArcMap中给点shp添加字段后，shp文件破坏无法打开
这两天遇到一个奇怪的问题,在整理项目中的建筑物数据时发现,有几个图层进行字段添加后出现问题,shp文件被损坏了.这问题很隐蔽,给shp添加字段后不报错,进行赋值,报错如下: 但是无论是选择“是”还是“ ...
C++标准输入问题
1.读取数据量不定的输入数据 e.g. #include <iostream> using namespace std; void main() { ,val=; while(cin> ...
左神算法书籍《程序员代码面试指南》——2_02在单链表和双链表中删除倒数第k个字节
[题目]分别实现两个函数,一个可以删除单链表中倒数第K个节点,另一个可以删除双链表中倒数第K个节点.[要求]如果链表长度为N,时间复杂度达到O(N),额外空间复杂度达到O(1).[题解]从头遍历链表, ...

2018-8-10-如何使用-C#-爬虫获得专栏博客更新排行

2018-8-10-如何使用-C#-爬虫获得专栏博客更新排行的更多相关文章

随机推荐

热门专题