/// <summary>
/// 下载指定URL下的所有图片
/// </summary>
public class WebPageImage
{
/// <summary>
/// 获取网页中全部图片
/// </summary>
/// <param name="url">网页地址</param>
/// <param name="charSet">网页编码,为空自动判断</param>
/// <returns>全部图片显示代码</returns>
public string getImages(string url, string charSet)
{
string s = getHtml(url, charSet);
return getPictures(s, url);
} /// <summary>
/// 获取网页中全部图片
/// </summary>
/// <param name="url">网址</param>
/// <returns>全部图片代码</returns>
public string getImages(string url)
{
return getImages(url, "");
} string doman(string url)
{
Uri u = new Uri(url);
return u.Host;
} /// <summary>
/// 获取网页内容
/// </summary>
/// <param name="url">网站地址</param>
/// <param name="charSet">目标网页的编码,如果传入的是null或者"",那就自动分析网页的编码 </param>
/// <returns></returns>
string getHtml(string url, string charSet)
{
WebClient myWebClient = new WebClient();
//创建WebClient实例myWebClient
// 需要注意的:
//有的网页可能下不下来,有种种原因比如需要cookie,编码问题等等
//这是就要具体问题具体分析比如在头部加入cookie
// webclient.Headers.Add("Cookie", cookie);
//这样可能需要一些重载方法。根据需要写就可以了 //获取或设置用于对向 Internet 资源的请求进行身份验证的网络凭据。
myWebClient.Credentials = CredentialCache.DefaultCredentials;
//如果服务器要验证用户名,密码
//NetworkCredential mycred = new NetworkCredential(struser, strpassword);
//myWebClient.Credentials = mycred;
//从资源下载数据并返回字节数组。(加@是因为网址中间有"/"符号)
byte[] myDataBuffer = myWebClient.DownloadData(url);
string strWebData = Encoding.Default.GetString(myDataBuffer); //获取网页字符编码描述信息
Match charSetMatch = Regex.Match(strWebData, "<meta([^<]*)charset=([^<]*)\"", RegexOptions.IgnoreCase | RegexOptions.Multiline);
string webCharSet = charSetMatch.Groups[].Value.Replace("\"", "");
if (charSet == null || charSet == "")
charSet = webCharSet; if (charSet != null && charSet != "" && Encoding.GetEncoding(charSet) != Encoding.Default)
strWebData = Encoding.GetEncoding(charSet).GetString(myDataBuffer);
return strWebData;
} string getPictures(string data, string url)
{
MatchCollection ps = Regex.Matches(data, @"<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r\n]*(?<imgUrl>[^\s\t\r\n""'<>]*)[^<>]*?/?[\s\t\r\n]*>");
string s = string.Empty;
for (int i = ; i < ps.Count; i++)
{
pictures p = new pictures(ps[i].Value, url);
s += p.GetHtml + "<br />" + Environment.NewLine;
}
return s;
} /// <summary>
/// 图片实体
/// 图片文件属性处理类
/// </summary>
public class pictures
{
public pictures(string strHtml, string baseUrl)
{
_html = strHtml;
Uri u1 = new Uri(baseUrl);
_doman = u1.Host;
_baseUrl = u1.Scheme + "://" + _doman;
setSrc();
} private string _html = string.Empty;
private string _baseUrl = string.Empty;
private string _doman = string.Empty; public string GetHtml
{
get { return _html; }
} public string Alt
{
get
{
return GetAttribute("alt")[];
}
} public string Src
{
get
{
string s = GetAttribute("src")[];
return s;
}
} /// <summary>
/// 根据基路径把相对路径转换成绝对径
/// </summary>
/// <param name="baseUrl">基础路径</param>
/// <param name="u">待转换的相对路径</param>
/// <returns>绝对路径</returns>
public string absUrl(string baseUrl, string u)
{
Uri ub = new Uri(baseUrl);
Uri ua = new Uri(ub, u);
return ua.AbsoluteUri;
} private void setSrc()
{
string strPattern = @"src[\s\t\r\n]*=[\s\t\r\n]*[""']?\S+[""']?";
string src = GetAttribute("src")[].ToLower();
if (!(src.IndexOf("http://") == || src.IndexOf("https://") == ) && _baseUrl.Length > )
{
src = absUrl(_baseUrl, src);
string s = "src=\"" + src + "\"";
_html = Regex.Replace(_html, strPattern, s);
}
} /// <summary>
/// 获取HTML代码中标签属性
/// </summary>
/// <param name="strHtml">HTML代码</param>
/// <param name="strAttributeName">属性名称</param>
/// <returns>属性值集合</returns>
private string[] GetAttribute(string strAttributeName)
{
List<string> lstAttribute = new List<string>();
string strPattern = string.Format(
@"{0}[\s\t\r\n]*=[\s\t\r\n]*[""']?\S+[""']?",
strAttributeName
);
MatchCollection matchs = Regex.Matches(_html, strPattern, RegexOptions.IgnoreCase);
foreach (Match m in matchs)
{
lstAttribute.Add(m.Value.Split('=')[].Replace("\"", "").Replace("'", ""));
}
if (lstAttribute.Count == ) lstAttribute.Add("");
return lstAttribute.ToArray();
} } /// <summary>
/// 取得HTML中所有图片的 URL。
/// </summary>
/// <param name="sHtmlText">HTML代码</param>
/// <returns>图片的URL列表</returns>
public string[] GetHtmlImageUrlList(string sHtmlText)
{
// 定义正则表达式用来匹配 img 标签
Regex regImg = new Regex(@"<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r\n]*(?<imgUrl>[^\s\t\r\n""'<>]*)[^<>]*?/?[\s\t\r\n]*>", RegexOptions.IgnoreCase); // 搜索匹配的字符串
MatchCollection matches = regImg.Matches(sHtmlText);
int i = ;
string[] sUrlList = new string[matches.Count]; // 取得匹配项列表
foreach (Match match in matches)
sUrlList[i++] = match.Groups["imgUrl"].Value;
return sUrlList;
} }

调用的自己设定修改

/// <summary>
/// 一键下载
/// </summary>
/// <param name="url">url地址</param>
/// <returns></returns>
[HttpPost]
public ActionResult ImgDow(string url)
{
//System.Drawing.Bitmap img = null;
HttpWebRequest req;
HttpWebResponse res = null;
try
{
Common.WebPageImage model = new WebPageImage();
string v = model.getImages(url, "");
string[] Arrt = model.GetHtmlImageUrlList(v);
foreach (var item in Arrt)
{
string[] file = item.Split('/');
if(file.Count()>)
{
//string name = string.IsNullOrEmpty(System.IO.Path.GetFileName(file[0])) ? DateTime.Now.ToFileTime().ToString() : System.IO.Path.GetFileName(file[0]);
//System.Uri httpUrl = new System.Uri(item);
//req = (HttpWebRequest)(WebRequest.Create(httpUrl));
//req.Timeout = 180000; //设置超时值10秒
//req.Accept = "image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, application/x-shockwave-flash, application/vnd.ms-excel, application/vnd.ms-powerpoint, application/msword, */*";
//req.UserAgent = "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727; .NET CLR 3.0.04506.648; .NET CLR 3.5.21022)";
//req.Method = "GET";
//res = (HttpWebResponse)(req.GetResponse());
//Stream strea = res.GetResponseStream();
//img = new Bitmap(strea);//获取图片流
//string[] imgGS = file[3].Split('_');
//switch (imgGS[1])
//{
// case "gif":
// img.Save(@"E:/" + DateTime.Now.ToFileTime().ToString() + ".gif", ImageFormat.Gif);
// break;
// case "jpg":
// img.Save(@"E:/" + DateTime.Now.ToFileTime().ToString() + ".jpg");
// break;
// case "png":
// img.Save(@"E:/" + DateTime.Now.ToFileTime().ToString() + ".png");
// break;
// default:
// img.Save(@"E:/" + DateTime.Now.ToFileTime().ToString() + ".jpg");
// break;
//}
WebClient my = new WebClient();
byte[] mybyte;
mybyte = my.DownloadData(item);
MemoryStream ms = new MemoryStream(mybyte);
System.Drawing.Image img;
img = System.Drawing.Image.FromStream(ms);
img.Save(@"E:/" + DateTime.Now.ToFileTime().ToString() + ".gif", ImageFormat.Gif); //保存
System.Threading.Thread.Sleep();
}
} return WriteSuccess("");
}
catch (Exception ex)
{
return WriteError(ex.Message);
}
finally
{
//res.Close();
}
}

asp.net mvc抓取微信文章里面所有的图片的更多相关文章

  1. asp.net MVC 抓取微信文章数据(正文)

    1.抓微信的正文主要是调用第三方的接口(https://market.aliyun.com/products/56928004/cmapi012134.html) using Newtonsoft.J ...

  2. asp.net mvc 抓取京东商城分类

    555 asp.net mvc 抓取京东商城分类   URL:http://www.jd.com/allSort.aspx   效果:   //后台代码 public ActionResult Get ...

  3. [Python爬虫] 之十五:Selenium +phantomjs根据微信公众号抓取微信文章

    借助搜索微信搜索引擎进行抓取 抓取过程 1.首先在搜狗的微信搜索页面测试一下,这样能够让我们的思路更加清晰 在搜索引擎上使用微信公众号英文名进行“搜公众号”操作(因为公众号英文名是公众号唯一的,而中文 ...

  4. 使用redis所维护的代理池抓取微信文章

    搜狗搜索可以直接搜索微信文章,本次就是利用搜狗搜搜出微信文章,获得详细的文章url来得到文章的信息.并把我们感兴趣的内容存入到mongodb中. 因为搜狗搜索微信文章的反爬虫比较强,经常封IP,所以要 ...

  5. 如何利用Python网络爬虫抓取微信朋友圈的动态(上)

    今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...

  6. 利用Python网络爬虫抓取微信好友的签名及其可视化展示

    前几天给大家分享了如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化,利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,以及利用Python网络爬虫抓取微信好友的所 ...

  7. 利用Python网络爬虫抓取微信好友的所在省位和城市分布及其可视化

    前几天给大家分享了如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,感兴趣的小伙伴可以点击链接进行查看.今天小编给大家介绍如何利用Python网络爬虫抓取微信好友的省位和城市,并且将 ...

  8. 如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例

    前几天给大家分享了利用Python网络爬虫抓取微信朋友圈的动态(上)和利用Python网络爬虫爬取微信朋友圈动态——附代码(下),并且对抓取到的数据进行了Python词云和wordart可视化,感兴趣 ...

  9. Asp.Net 之 抓取网页内容

    一.获取网页内容——html ASP.NET 中抓取网页内容是非常方便的,而其中更是解决了 ASP 中困扰我们的编码问题. 需要三个类:WebRequest.WebResponse.StreamRea ...

随机推荐

  1. GO 类型断言

    在Go语言中,我们可以使用type switch语句查询接口变量的真实数据类型,语法如下: switch x.(type) { // cases } x必须是接口类型. 来看一个详细的示例: type ...

  2. Qt 的插件制作

    首先会遇到一些插件使用的问题: 插件加载的时候出现乱码 qrc:/main.qml:20: Error: Qt.createQmlObject(): failed to create object: ...

  3. 分布式文件上传 spring boot + fastdfs + dropzone

    1.首先安装fastDFS 参考链接: https://www.funtl.com/zh/spring-cloud-itoken-codeing/%E5%88%86%E5%B8%83%E5%BC%8F ...

  4. Linux 一条命令杀死占用端口的所有进程

    Linux 一条命令杀死占用端口的所有进程 2018年05月28日 19:43:05 gq97 阅读数 7655更多 分类专栏: Linux   版权声明:本文为博主原创文章,遵循CC 4.0 BY- ...

  5. 环境初始化 Build and Install the Apache Thrift IDL Compiler Install the Platform Development Tools

    Apache Thrift - Centos 6.5 Install http://thrift.apache.org/docs/install/centos Building Apache Thri ...

  6. python 中的 [-1::1] 啥意思

    取倒数第一个

  7. LC 990. Satisfiability of Equality Equations

    Given an array equations of strings that represent relationships between variables, each string equa ...

  8. android studio 错误汇总以及解决办法

    android studio 错误汇总以及解决办法  参考 https://www.jianshu.com/p/7c7de6562231 问题1. Error:Execution failed for ...

  9. String,StringBuilder 和StringBuffer区别

    1. String 和字符串缓冲区的区别是: String 是一个不可变的字符序列 , 而字符串缓冲区是可变的 2. StringBuffer 是一个线程安全的可变字符序列 ; 线程安全对应的效率低 ...

  10. osg::MatrixTransform 模型基本变换

    VCNodeMatrix.h #pragma once #include <osgViewer/Viewer> #include <osgViewer/ViewerEventHand ...