网络采集软件核心技术剖析系列（3）---如何使用C#语言下载博文中的全部图片到本地并可以离线浏览

private void GetSrcLinks()

        {

            HtmlNodeCollection atts = m_Doc.DocumentNode.SelectNodes("//*[@src]");

            if (Equals(atts, null))

            {

                return;

            }

            Links = atts.

                SelectMany(n => new[]

                    {

                        ParseLink(n, "src"),

                    }).

                Distinct().

                ToArray();

        }

通过HtmlAgilityPack中的HtmlDocument类找出全部src属性的节点，再通过linq提取出其中的网页地址。

2.对于每一个图片链接地址，下载该图片到本地，如下代码所示：

 DocumentWithLinks links = htmlDoc.GetSrcLinks();

            int i = ;

            string baseUrl = new Uri(strLink).GetLeftPart(UriPartial.Authority);

            foreach (string strPicLink in links.Links)

            {

                if (string.IsNullOrEmpty(strPicLink))

                {

                    continue;

                }

                try

                {

                    string strExtension = System.IO.Path.GetExtension(strPicLink);

                    if (strExtension == ".js" || strExtension == ".swf")

                        continue;

                    if (strExtension == "")

                    {

                        strExtension = ".jpg";

                    }

                    string normalizedPicLink = GetNormalizedLink(baseUrl, strPicLink);

                    strNewPage = DownLoadPicInternal(wc, strNewPage, strPageTitle, strPicLink, normalizedPicLink, strExtension, ref i);

                }

                catch (Exception ex)

                {

                } //end try

            }

其中 DownLoadPicInternal的实现代码如下：

protected string DownLoadPicInternal(WebClient wc, string strNewPage, string strPageTitle, string strPicLink

                               , string strTureLink, string strExtension, ref int i)

        {

            strPageTitle = strPageTitle.Replace("\\", "").Replace("/", "").Replace(":", "").Replace("*", "").Replace("?", "")

            .Replace("\"", "").Replace("<", "").Replace(">", "").Replace("|", "");

            strPageTitle = Regex.Replace(strPageTitle, @"[|•/\;.':*?<>-]", "").ToString();

            strPageTitle = Regex.Replace(strPageTitle, "[\"]", "").ToString();

            strPageTitle = Regex.Replace(strPageTitle, @"\s", "");

            if (!Directory.Exists(Application.StartupPath + "\\" + strPageTitle))//判断是否存在

            {

                Directory.CreateDirectory(Application.StartupPath + "\\" + strPageTitle);//创建新路径

            }

            int[] nArrayOffset = new int[];

            nArrayOffset = m_bf.getOffset(strPicLink);

            strNewPage = strNewPage.Replace(strPicLink, nArrayOffset[0].ToString() + nArrayOffset[1].ToString() + strExtension);

            string strSavedPicPath = Path.Combine(strPageTitle, nArrayOffset[].ToString() + nArrayOffset[].ToString() + strExtension);

            PrintLog(" 开始下载文章 [" + strPageTitle + "] 的第" + i.ToString() + "张图片\n");

            strTureLink = HttpUtility.UrlDecode(strTureLink);

            wc.DownloadFile(strTureLink, Application.StartupPath + "\\" + strSavedPicPath);

            PrintLog(" 下载完成文章 [" + strPageTitle + "] 的第" + i.ToString() + "张图片\n");

            System.Threading.Thread.Sleep();

            i++;

            return strNewPage;

        }

其中粉色代码部分m_bf变量是BloomFilter类型的一个对象，BloomFilter是一个网页去重的强大工具，这里是为了将图片链接转化为一个独一无二的文件名。

strNewPage = strNewPage.Replace(strPicLink, nArrayOffset[0].ToString() + nArrayOffset[1].ToString() + strExtension);

此行代码是用新的图片文件名替换原网页中的图片链接。其他部分的代码之前章节均有解释，请自行参考。

3.第二步全部图片下载完成后，将所有图片链接替换后的网页正文保存为一个新的html文件（index.html），主要代码如下：

  strPageTitle = strPageTitle.Replace("\\", "").Replace("/", "").Replace(":", "").Replace("*", "").Replace("?", "")

             .Replace("\"", "").Replace("<", "").Replace(">", "").Replace("|", "");

            strPageTitle = Regex.Replace(strPageTitle, @"[|•/\;.':*?<>-]", "").ToString();

            strPageTitle = Regex.Replace(strPageTitle, "[\"]", "").ToString();

            strPageTitle = Regex.Replace(strPageTitle, @"\s", "");

            File.WriteAllText(Path.Combine(strPageTitle, "index.html"), strNewPage, Encoding.UTF8);

上面的一堆替换是因为windows对文件夹名有要求---不能包含一些特殊字符，这里我们通过正则替换去掉这些特殊字符。

到此为止，我们就实现了将任意网页中的正文中的图片下载到本地的功能，并同时修改了原来网页正文中的图片链接，以达到可以离线浏览的目的。

以后的生成pdf，chm均以此为基础，这一节是重中之重，有兴趣的同学可以扩展我提供的代码，将它改造成某个站点的图片采集器应该也是一件简单的事情。

四下节预告

使用C#语言如何将html网页转换成pdf（html2pdf）。

作者：宋波
出处：http://www.cnblogs.com/ice-river/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文链接。
正在看本人博客的这位童鞋，我看你气度不凡，谈吐间隐隐有王者之气，日后必有一番作为！旁边有“推荐”二字，你就顺手把它点了吧，相得准，我分文不收；相不准，你也好回来找我！

网络采集软件核心技术剖析系列（3）---如何使用C#语言下载博文中的全部图片到本地并可以离线浏览的更多相关文章

网络采集软件核心技术剖析系列（7）---如何使用C#语言搭建程序框架(经典Winform界面，顶部菜单栏，工具栏，左边树形列表，右边多Tab界面）
一本系列随笔概览及产生的背景自己开发的豆约翰博客备份专家软件工具问世3年多以来,深受广大博客写作和阅读爱好者的喜爱.同时也不乏一些技术爱好者咨询我,这个软件里面各种实用的功能是如何实现的. 该软件 ...
网络采集软件核心技术剖析系列（6）---将任意博主的全部博文下载到SQLite数据库中并通过Webbrower显示（将之前的内容综合到一起）
一本系列随笔目录及本节代码下载自己开发的豆约翰博客备份专家软件工具问世3年多以来,深受广大博客写作和阅读爱好者的喜爱.同时也不乏一些技术爱好者咨询我,这个软件里面各种实用的功能是如何实现的. 该软 ...
网络采集软件核心技术剖析系列（5）---将任意博主的全部博文下载到内存中并通过Webbrower显示（将之前的内容综合到一起）
一本系列随笔概览及产生的背景自己开发的豆约翰博客备份专家软件工具问世3年多以来,深受广大博客写作和阅读爱好者的喜爱.同时也不乏一些技术爱好者咨询我,这个软件里面各种实用的功能是如何实现的. 该软件 ...
网络采集软件核心技术剖析系列（4）---使用C#语言如何将html网页转换成pdf（html2pdf）
一本系列随笔概览及产生的背景本系列开篇受到大家的热烈欢迎,这对博主是莫大的鼓励,此为本系列第四篇,希望大家继续支持,为我继续写作提供动力. 自己开发的豆约翰博客备份专家软件工具问世3年多以来,深受 ...
网络采集软件核心技术剖析系列（2）---如何使用C#语言获得任意站点博文的正文及标题
一本系列随笔概览及产生的背景本系列开篇受到大家的热烈欢迎,这对博主是莫大的鼓励,此为本系列第二篇,希望大家继续支持,为我继续写作提供动力. 自己开发的豆约翰博客备份专家软件工具问世3年多以来,深受 ...
WorldWind源码剖析系列：网络下载类WebDownload
网络下载类WebDownload封装了对请求的瓦片进行网络下载的相关操作.该类使用了两个委托类型和一个枚举类型. 该类的类图如下. 网络下载类WebDownload各个字段和属性的含义说明如下: st ...
《SDN核心技术剖析和实战指南》第一章小结
第一章主要是概况.新技术有一个特点是,每家都有不同的说法.这里我只说说我比较认同的部分. SDN的核心概念大概有两个:转发面与控制面分离.开发可编程化.书里还说逻辑上集中控制,其实这个就可以从转发与控 ...
WorldWind源码剖析系列：星球球体的加载与渲染
WorldWind源码剖析系列:星球球体的加载与渲染 WorldWind中主函数Main()的分析在文件WorldWind.cs中主函数Main()阐明了WorldWind的初始化运行机制(如图1所 ...
IT软件人员的技术学习内容（写给技术迷茫中的你） - 项目管理系列文章
前面笔者曾经写过一篇关于IT从业者的职业道路文章(见笔者文:IT从业者的职业道路(从程序员到部门经理) - 项目管理系列文章).然后有读者提建议说写写技术方面的路线,所以就有了本文.本文从初学者到思想 ...

随机推荐

【洛谷 P3469】[POI2008]BLO-Blockade（割点）
题目链接题意:一个无向联通图,求删去每个点及其所有边后有多少有序点对的连通性发生了变化. Tarjan求割点的例题.. 如果当前点不是割点,那么它对整个图的连通性不产生影响,只有自己与其他\(n-1 ...
2017年上海金马五校程序设计竞赛：Problem C : Count the Number （模拟）
Description Given n numbers, your task is to insert '+' or '-' in front of each number to construct ...
[ CodeVS冲杯之路 ] P2492
不充钱,你怎么AC? 题目:http://codevs.cn/problem/2492/ 在此先orz小胖子,教我怎么路径压缩链表,那么这样就可以在任意节点跳进链表啦(手动@LCF) 对于查询操作,直 ...
[bzoj3231][SDOI2008]递归数列——矩阵乘法
题目大意: 一个由自然数组成的数列按下式定义: 对于i <= k:ai = bi 对于i > k: ai = c1ai-1 + c2ai-2 + ... + ckai-k 其中bj和 cj ...
Atos cannot get symbols from dSYM of archived application
http://stackoverflow.com/questions/7675863/atos-cannot-get-symbols-from-dsym-of-archived-application ...
try_module_get和module_put【转】
转自:http://blog.csdn.net/adaptiver/article/details/7000617 转自:http://apps.hi.baidu.com/share/detail/4 ...
【bzoj3289】mato的文件管理
首先允许离线,一眼莫队…… 然后考虑对于每次移动,这不就是让你求逆序对嘛(QAQ) 考虑怎么移动? 每次在最后添加一个数,比这个数大的数都会与其形成一个逆序对每次在最后移除一个数,比这个数大的数都会 ...
【SQL】事务
1.事务的开始结束: START TRANSACTION :标记事务开始 COMMIT :标记事务成功结束 ROLLBACK :标记事务夭折 2.设定事务只读.读写性质: SET TRANSACTIO ...
一个关于Java 多线程问题的知识点
这个程序运行结果会是什么? public class Main {static class ListAdd { private static List list = new ArrayList(); ...
yii2 项目初始化
yii 项目目录下执行.composer self-updatecomposer global require "fxp/composer-asset-plugin:^1.4.1" ...

网络采集软件核心技术剖析系列（3）---如何使用C#语言下载博文中的全部图片到本地并可以离线浏览

网络采集软件核心技术剖析系列（3）---如何使用C#语言下载博文中的全部图片到本地并可以离线浏览的更多相关文章

随机推荐

热门专题