[UWP]涨姿势UWP源码——RSS feed的获取和解析

　　本篇开始具体分析涨姿势UWP这个APP的代码，首先从数据的源头着手，即RSS feed的获取和解析，相关的类为RssReader，所有和数据相关的操作均放在里面。

　　涨姿势网站提供的RSS feed地址为http://www.zhangzishi.cc/feed，在UWP中想要通过发送http request并从URI接受http response，最简单的方式就是使用HttpClient：

        public async Task<string> DownloadRssString()

        {

            var httpClient = new HttpClient();

            var result = await httpClient.GetStringAsync(new Uri("http://www.zhangzishi.cc/feed"));

            return result;

        }

　　通过上面这个方法，我们会获取到最新的涨姿势的数据源，并且是以XML格式组织的。头部是一些命名空间的定义，接下来的channel节点定义了一些title，description等信息，这里比较重要的是lastBuildDate，因为后面我们会根据这个字段来判断是否有新数据需要保存到本地，并刷姿势新闻列表。

<rss version="2.0"

    xmlns:content="http://purl.org/rss/1.0/modules/content/"

    xmlns:wfw="http://wellformedweb.org/CommentAPI/"

    xmlns:dc="http://purl.org/dc/elements/1.1/"

    xmlns:atom="http://www.w3.org/2005/Atom"

    xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"

    xmlns:slash="http://purl.org/rss/1.0/modules/slash/">

  <channel>

    <title>涨姿势</title>

    <atom:link href="http://www.zhangzishi.cc/feed" rel="self" type="application/rss+xml" />

    <link>http://www.zhangzishi.cc</link>

    <description>骚年,来这里涨点姿势吧！</description>

    <lastBuildDate>Sun, 17 Jul 2016 04:37:46 +0800</lastBuildDate>

</channel>

</rss>

　　APP核心的新闻内容对应数据源中Item节点，每一个Item就对应一条涨姿势的新闻。整个XML文件中会存在几十个Item节点。对Item节点进行解析后，我们会创建一个Item对象的集合，映射到UI界面的ListView上，同时也要分析并保存每一个Item节点的详细信息，在用户点击ListView的具体ListViewItem时，打开详细页面填充内容。比如下图右侧的详细内容较为简单，仅仅是一副图片。

　　我们来看一个Item节点的Sample：

    <item>

      <title>日本某高校一男生在女生生日派对上公开表白，青春真好</title>

      <link>http://www.zhangzishi.cc/20160717zh.html</link>

      <comments>http://www.zhangzishi.cc/20160717zh.html#comments</comments>

      <pubDate>Sun, 17 Jul 2016 04:37:46 +0800</pubDate>

      <dc:creator><![CDATA[丁丁]]></dc:creator>

      <category><![CDATA[世界观]]></category>

      <guid isPermaLink="false">http://www.zhangzishi.cc/?p=178981</guid>

      <description><![CDATA[日本某高校一男生在女生生日派对上公开表白。“在这个世界上我最喜欢的人是你，我会好好珍惜你的。”看得本公举全程一 […]]]></description>

      <content:encoded>

        <![CDATA[<p style="color: #444444;">日本某高校一男生在女生生日派对上公开表白。“在这个世界上我最喜欢的人是你，我会好好珍惜你的。”看得本公举全程一直傻笑，青春真好啊~</p>

<p><embed width="480" height="480" type="application/x-shockwave-flash" src="http://video.weibo.com/player/1034:7e3df996c2f5e9a1973974f0bb9e5e39/v.swf" allowscriptaccess="always" allowfullscreen="allowfullscreen" wmode="transparent" quality="high"></embed></p>

<p>视频链接：<a style="color: #428bca;" href="http://weibo.com/p/2304447e3df996c2f5e9a1973974f0bb9e5e39" target="_blank">http://weibo.com/p/2304447e3df996c2f5e9a1973974f0bb9e5e39</a><img src="http://cdnjp.zhangzishi.cc/wp-content/uploads/2016/05/024045ftw.jpg" alt="" class="alignnone size-medium wp-image-171793" /></p>

<p>微信订阅号 zhangzishi_weixin 合作请直接联系 tintin@zhangzishi.cc</p>

]]>

      </content:encoded>

      <wfw:commentRss>http://www.zhangzishi.cc/20160717zh.html/feed</wfw:commentRss>

      <slash:comments>12</slash:comments>

    </item>

　　很容易就能分析出title，pubDate，description，category这些内容，我们会建立对应的Model对象来存储相关信息。同时我们也发现，详细内容放置在<content:encoded>节点，并加了<![CDATA[>>标签，包含在标签中的内容会被XML的解析器忽略，当作一般文本处理。所以你会看见content节点中包含了大量的HTML标签，这些HTML的内容会被作为整体的字符串存储在Item对象的ContentEncoded属性中。

    public class Item

    {

        public string Title { get; set; }

        public Uri Link { get; set; }

        public DateTime PublishedDate { get; set; }

        public string Creator { get; set; }

        public string Category { get; set; }

        public string Description { get; set; }

        public string ContentEncoded { get; set; }

        public string CoverImageUri { get; set; }

    }

　　XML文件的处理，我这里选择来System.Xml.Linq命名空间下的XDocument类来处理。在获取rss这个根的XElement后，在channel节点找到Item节点的集合，对Item进行解析：

        private Item ParseItemNode(XElement itemNode)

        {

            var item = new Item();

            item.Title = itemNode.Element("title").Value;

            string uriString = itemNode.Element("link").Value;

            if (string.IsNullOrEmpty(uriString) == false)

            {

                item.Link = new Uri(uriString);

            }

            item.PublishedDate = DateTime.Parse(itemNode.Element("pubDate").Value);

            XNamespace dc = XmlNameSpaceDic["dc"];

            item.Creator = itemNode.Element(dc + "creator").Value;

            item.Category = itemNode.Element("category").Value;

            item.Description = itemNode.Element("description").Value;

            XNamespace content = XmlNameSpaceDic["content"];

            var contentEncoded = itemNode.Element(content + "encoded").Value;

            var allImageUri = GetAllImageUri(ref contentEncoded);

            item.CoverImageUri = allImageUri.FirstOrDefault();

            item.ContentEncoded = RemoveEmbedFlash(contentEncoded);

            return item;

        }

　　这里稍微值得注意的是部分节点存在命名空间，在通过Element方法取值的时候，需要加上对应的命名空间才能成功。这里附上一个获取XML文件头部定义的命名空间的方法：

        private Dictionary<string, string> GetXmlNameSpaceDic(XElement rssNode)

        {

            var dic = new Dictionary<string, string>();

            foreach (var attribute in rssNode.Attributes().Where(_ => _.IsNamespaceDeclaration))

            {

                dic.Add(attribute.Name.LocalName,attribute.Value);

            }

            return dic;

        }

　　ParseItemNode方法中还做了一件特殊的事情，是去去正文中的图片地址，因为rss feed没有提供每条新闻的封面图片，我这里就通过正则表达式将正文的图片地址筛选出来，以第一张图片作为新闻的封面。正则表达式匹配项中有一个Group的概念，可以很好的选出img节点中的src属性，EditImageUri这个方法是为了给图片加上width和height更好的适应不同尺寸的屏幕：

        private List<string> GetAllImageUri(ref string content)

        {

            var matchList = new List<string>();

            string pattern = "<img.+?src=[\"'](.+?)[\"'].*?>";

            var regex = new Regex(pattern, RegexOptions.IgnoreCase);

            foreach (Match match in regex.Matches(content))

            {

                var uri = EditImageUri(match.Value);

                if (uri != match.Value)

                {

                    matchList.Add(match.Groups[].Value);

                    content = content.Replace(match.Value, uri);

                }

            }

            return matchList;

        }

　　大体上RssReader这个类就分析完了，具体的代码有兴趣请去GitHub上查看，如果发现了bug还望不吝赐教，帮我提个pull request，万分感激。

　　其实这个涨姿势UWP的APP属于闹着玩，网易云阅读WP版太简陋，看起来限制太多，思来想去自己动手丰衣足食，后面还会进一步补充功能，毕竟现在这个版本我用起来也不满意。

　　GitHub：

https://github.com/manupstairs/ZhangZiShiRSSRead

　　Windows Store：

https://www.microsoft.com/zh-cn/store/p/%e6%b6%a8%e5%a7%bf%e5%8a%bfuwp/9nblggh3zqd1

[UWP]涨姿势UWP源码——RSS feed的获取和解析的更多相关文章

[UWP]涨姿势UWP源码——IsolatedStorage
前一篇涨姿势UWP源码分析从数据源着手,解释了RSS feed的获取和解析,本篇则会就数据源的保存和读取进行举例. 和之前的Windows Runtime一样,UWP采用IsolatedStorage ...
Spring源码情操陶冶-自定义节点的解析
本文承接前文Spring源码情操陶冶-DefaultBeanDefinitionDocumentReader#parseBeanDefinitions,特开辟出一块新地来啃啃这块有意思的骨头自定义节 ...
Spring源码情操陶冶-ComponentScanBeanDefinitionParser文件扫描解析器
承接前文Spring源码情操陶冶-自定义节点的解析,本文讲述spring通过context:component-scan节点干了什么事 ComponentScanBeanDefinitionParse ...
Spring源码情操陶冶-AnnotationConfigBeanDefinitionParser注解配置解析器
本文承接前文Spring源码情操陶冶-自定义节点的解析,分析spring中的context:annotation-config节点如何被解析源码概览对BeanDefinitionParser接口的 ...
Spring源码情操陶冶-PropertyPlaceholderBeanDefinitionParser注解配置解析器
本文针对spring配置的context:property-placeholder作下简单的分析,承接前文Spring源码情操陶冶-自定义节点的解析 spring配置文件应用 <context: ...
Uboot中start.S源码的指令级的详尽解析
Uboot中start.S源码的指令级的详尽解析 https://www.crifan.com/files/doc/docbook/uboot_starts_analysis/release/html ...
spring IoC源码分析（3）Resource解析
引自 spring IoC源码分析 (3)Resource解析定义好了Resource之后,看到XmlFactoryBean的构造函数 public XmlBeanFactory(Resource ...
[UWP]涨姿势UWP源码——极简的RSS阅读器
涨姿势UWP,一个开源的RSS阅读器,一个纯粹的项目,一个有道德的APP,一个脱离了低级趣味的作者,一些有益于人民的代码.骚年,还等什么,来涨点姿势吧! 该项目代码可能会引起部分人群的不适,敏感人群请 ...
[UWP]涨姿势UWP源码——Unit Test
之前我们讨论了涨姿势UWP的RSS数据源获取,以及作为文件存储到本地,再将数据转化成Model对象.这部分非UI的内容非常适合添加Unit Test.不涉及UI的话,UT写起来简单高效,很是值得投入一 ...

随机推荐

算法：x的n次方
该题是用来公司教学,并无难度.用于说明算法效率差异以及循环和递归的效率差别. package practice; import java.math.BigDecimal; /** * @author ...
s3c2440笔记1（启动）
s3c2440启动方式 1. 从nand flash 启动 1.1 上电后将nand flash中的前4KB数据复制到“Stepping Stone”: 1.2 CPU 执行“Stepping Sto ...
C#中的线程二（Cotrol.BeginInvoke和Control.Invoke）
C#中的线程二(Cotrol.BeginInvoke和Control.Invoke) 原文地址:http://www.cnblogs.com/whssunboy/archive/2007/06/07/ ...
Java多线程18：线程池
使用线程池与不使用线程池的差别先来看一下使用线程池与不适应线程池的差别,第一段代码是使用线程池的: public static void main(String[] args) { long sta ...
Windbg用法详解
工作空间 WinDBG的工作空间中保存了以下几种信息调试会话状态: 包括断点,打开的源文件,用户定义的别名(alias)等. 调试器设置:包括符号文件路径,可执行映像文件路径,源文件路径,用I+/I ...
Log4Net指南
英文好的直接看这里:http://www.codeproject.com/Articles/140911/log4net-Tutorial 介绍 log4net.是.NET下面最伟大的日志工具之一.简 ...
AngularJS快速入门指南20：快速参考
thead>tr>th, table.reference>tbody>tr>th, table.reference>tfoot>tr>th, table ...
redis常用命令小结
转载于:http://www.itxuexiwang.com/a/shujukujishu/redis/2016/0216/107.html?1455867352 1.redis-benchmarkr ...
php做登录注册页面及加载
//SQL注入攻击 //1.过滤用户的输入 //2.使用预处理语句 //3.写代码的时候尽量避免 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1. ...
C#学习系列-this的使用
如有错误,欢迎指正. 1.代表当前类,在当前类中可使用this访问当前类成员变量和方法(需要注意的是静态方法中不能使用this),也可用于参数传递,传递当前对象的引用. 下面贴代码: class P ...

[UWP]涨姿势UWP源码——RSS feed的获取和解析

[UWP]涨姿势UWP源码——RSS feed的获取和解析的更多相关文章

随机推荐

热门专题