asp.net 抓取新闻

前台页面：

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<html xmlns="http://www.w3.org/1999/xhtml">

<head id="Head1" runat="server">

    <title></title>

    <script type="text/javascript" src="http://code.jquery.com/jquery-1.7.2.js"></script>

</head>

<body>

    <form id="form1" runat="server">

    <div>

        <asp:Panel ID="Panel1" runat="server">

            网址：<asp:TextBox ID="txtUrl" runat="server"></asp:TextBox>

            <asp:Button ID="btnGet" runat="server" Text="RSS" OnClick="btnGet_Click" />

        </asp:Panel>

    </div>

    </form>

</body>

</html>

后台代码：

using System;

using System.Collections.Generic;

using System.Linq;

using System.Web;

using System.Web.UI;

using System.Web.UI.WebControls;

using System.Text;

using System.Net;

using System.Text.RegularExpressions;

public partial class Default7 : System.Web.UI.Page

{

    protected void Page_Load(object sender, EventArgs e)

    {

    }

    protected void btnGet_Click(object sender, EventArgs e)

    {

        string strurl = txtUrl.Text.ToString(); //欲获取的网页地址 要 http://

        WebClient myWebClient = new WebClient(); //创建WebClient实例myWebClient

        //获取或设置用于对向 Internet 资源的请求进行身份验证的网络凭据。

        myWebClient.Credentials = CredentialCache.DefaultCredentials;

        //从资源下载数据并返回字节数组。（加@是因为网址中间有"/"符号）

        byte[] pagedata = myWebClient.DownloadData(@strurl);

        //string result = Encoding.Default.GetString(pagedata); //如果获取网站页面采用的是GB2312，则使用这句

        string result = Encoding.GetEncoding("GB2312").GetString(pagedata); //如果获取网站页面采用的是UTF-8，则使用这句

        Regex regex = new Regex("<div class=\"mark\">([\\s\\S]*)</div>([\\s\\S]*)<div id=\"ajax_page\">", RegexOptions.Compiled);

         Match match= regex.Match(result);

         if (match.Success)

         {

             result = match.Groups[0].Value;

         }

        Response.Write(result); //在WEB页中显示获取的内容

        Panel1.Visible = false;

    }

    /// <summary>

    /// 返回分析数据

    /// </summary>

    /// <param name="regexString">正则</param>

    /// <param name="html">HTML</param>

    /// <param name="group">分组长度</param>

    /// <returns>数据</returns>

    //public List<string> GetData(string regexString, string html, int group)

    //{

    //    List<string> result = new List<string>();

    //    Regex regex = new Regex(regexString, RegexOptions.IgnoreCase);

    //    MatchCollection mc = regex.Matches(html);

    //    for (int count = 0; count < mc.Count; count++)

    //    {

    //        Match m = mc[count];

    //        for (int index = 0; m.Groups[index].Value != ""; index++)

    //        {

    //            string value = m.Groups[index].Value;

    //            if (count % group != 2)

    //                value = Regex.Replace(value, "&", "");

    //            if (value == "")

    //            {

    //                result.RemoveRange((result.Count / group) * group, result.Count % group);

    //                count = (count / group) * group + group - 1;

    //                break;

    //            }

    //            result.Add(value);

    //        }

    //    }

    //    return result;

    //}

    /// <summary>

    /// 返回分析数据

    /// </summary>

    /// <param name="regexString">正则</param>

    /// <param name="html">HTML</param>

    /// <returns>数据</returns>

    public List<string> GetData(string regexString, string html)

    {

        List<string> result = new List<string>();

        Regex regex = new Regex(regexString, RegexOptions.IgnoreCase);

        MatchCollection mc = regex.Matches(html);

        for (int count = 0; count < mc.Count; count++)

        {

            Match m = mc[count];

            for (int index = 0; m.Groups[index].Value != ""; index++)

            {

                result.Add(m.Groups[index].Value);

            }

        }

        return result;

    }

}

asp.net 抓取新闻的更多相关文章

ASP.NET抓取网页内容的实现方法
这篇文章主要介绍了ASP.NET抓取网页内容的实现方法,涉及使用HttpWebRequest及WebResponse抓取网页内容的技巧,需要的朋友可以参考下一.ASP.NET 使用HttpWebRe ...
ASP.NET抓取网页内容
原文:ASP.NET抓取网页内容一.ASP.NET 使用HttpWebRequest抓取网页内容这种方式抓取某些页面会失败不过,有时候我们会发现,这个程序在抓取某些页面时,是获不到所需的内容的, ...
使用轻量级JAVA 爬虫Gecco工具抓取新闻DEMO
写在前面最近看到Gecoo爬虫工具,感觉比较简单好用,所有写个DEMO测试一下,抓取网站 http://zj.zjol.com.cn/home.html,主要抓取新闻的标题和发布时间做为抓取测试对象 ...
ASP.NET 抓取网页内容
(转)ASP.NET 抓取网页内容 ASP.NET 抓取网页内容-文字 ASP.NET 中抓取网页内容是非常方便的,而其中更是解决了 ASP 中困扰我们的编码问题. 需要三个类:WebRequest. ...
asp.net抓取网页html源代码失败只因UserAgent作怪
asp.net抓取网页html源代码,我想对于任何一个asp.net程序员来说都不再陌生,这是一个非常简单容易就能实现的功能.下面便是一个通用的asp.net获得网页源代码的程序. 首先引用 usin ...
使用jsoup抓取新闻信息
1,jsoup简介 jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和 ...
C# asp.net 抓取需要登录的网页内容抓取asp.net登录验证的网站
private void btnASPNET_Click(object sender, EventArgs e) { Dictionary<string, s ...
三种asp.net 抓取网页源代码
/// <summary>方法一:比较推荐 /// 用HttpWebRequest取得网页源码 /// 对于带BOM的网页很有效,不管是什么编码都能正确识别 /// </summar ...
利用calibre抓取新闻
Adding your favorite news website calibre has a powerful, flexible and easy-to-use framework for dow ...

随机推荐

Java字节码文件结构---概述
一.Class文件的结构概述: 是一连串的字节流(以自节为基本单位划分),里面包含的数据项按照固定的次序依次排列组成Class文件,文件内部不含分割符当数据项的长度大于1B时候,按照高位在前的方式存 ...
[转]解析UML建模语言中的UML图分类、 UML各种图形及作用
本文向大家介绍一下UML图分类,作为一种建模语言,UML的定义包括UML语义和UML表示法两个部分. UML图大致可分为五类,共有九种图形. AD: 本文和大家重点讨论一下UML图分类,标准建模语言U ...
Codeforces Round #339 (Div. 1) C. Necklace 构造题
C. Necklace 题目连接: http://www.codeforces.com/contest/613/problem/C Description Ivan wants to make a n ...
OPENCV下SIFT算法使用方法笔记
这几天继续在看Lowe大神的SIFT神作,看的眼花手脚抽筋.也是醉了!!!!实在看不下去,来点干货.我们知道opencv下自带SIFT特征检测以及MATCH匹配的库,这些库完全可以让我们进行傻瓜似的操 ...
#Html学习积累#分割线中间添加文字
类似效果: ————————————xxxxx———————————————————— <!DOCTYPE HTML> <html> <head> <meta ...
[转]SSIS中的脚本—脚本任务
本文转自:http://www.cnblogs.com/tylerdonet/archive/2011/09/16/2179123.html 脚本任务主要用来控制数据流,当现有的控制流任务不能满足复 ...
"com.android.ide.s.ProcessException:Process 'cand 'C:\Program Files\Java\jdk1.8.0_60\bin\java.exe'' finished with non-zero exit value 2"
使用Android Studio 出现该问题: "com.android.ide.common.process.ProcessException: org.gradle.process.in ...
Vue侦听器watch
虽然计算属性在大多数情况下更合适,但有时也需要一个自定义的侦听器.这就是为什么 Vue 通过 watch 选项提供了一个更通用的方法,来响应数据的变化.当需要在数据变化时执行异步或开销较大的操作时,这 ...
linux内核设计学习
负载平衡程序 load_balance调用条件:只要当前可执行队列为空,它就会被调用.被定时器调用:系统空闲时每隔1毫秒调用一次或其他情况下每隔200mm调用一次.单处理器不会被调用执行步骤1. 首 ...
Mapper not initialized. Call Initialize with appropriate configuration.
System.InvalidOperationException:“Mapper not initialized. Call Initialize with appropriate configura ...

asp.net 抓取新闻

asp.net 抓取新闻的更多相关文章

随机推荐

热门专题