using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Linq;
using System.Text;
using System.Windows.Forms;
using System.Net;
using System.IO;
using System.Text.RegularExpressions;

using Winista.Text.HtmlParser;
using Winista.Text.HtmlParser.Lex;
using Winista.Text.HtmlParser.Util;
using Winista.Text.HtmlParser.Tags;
using Winista.Text.HtmlParser.Filters;

namespace Leo.GetOrganzation
{
    public partial class FormLeo : Form
    {
        IList<string> siteList = new List<string>();

public FormLeo()
        {
            InitializeComponent();
            this.InitSet();
        }

private void InitSet()
        {
            this.comboBoxArea.SelectedIndex = 0;
        }

private void comboBoxArea_SelectedIndexChanged(object sender, EventArgs e)
        {
            string strUrl = string.Empty;
            switch (this.comboBoxArea.SelectedIndex)
            {
                case 0:
                    strUrl = string.Empty;
                    break;
                case 1:
                    strUrl = "http://www.alexa.com/topsites/global;{0}";
                    break;
                case 2:
                    strUrl = "http://www.alexa.com/topsites/countries;{0}/CN";
                    break;
                case 3:
                    strUrl = "http://www.alexa.com/topsites/countries;{0}/HK";
                    break;
                case 4:
                    strUrl = "http://www.alexa.com/topsites/countries;{0}/MO";
                    break;
                case 5:
                    strUrl = "http://www.alexa.com/topsites/countries;{0}/TW";
                    break;
            }

this.txtUrlText.Text = strUrl;

this.textBox1.Text = "";
            this.textBox2.Text = "";
            this.textBox3.Text = "";

}

private void btnGetRes_Click(object sender, EventArgs e)
        {
            siteList = new List<string>();
            if (this.comboBoxArea.SelectedIndex == 0)
            {
                MessageBox.Show("请选择区域");
                return;
            }

for (int i = 0; i < int.Parse(this.textBox3.Text.Trim()); i++)
            {

string urlLink = string.Format(this.txtUrlText.Text.Trim(),i);
                string temp = this.GetRes(urlLink);

this.GetSiteName(temp);

System.Threading.Thread.Sleep(1000);
                Application.DoEvents();
            }

////string temp = this.GetRes("http://www.alexa.com/topsites/countries;19/TW");

////this.GetSiteName(temp);

MessageBox.Show("获取完毕,待导出");
        }

private void GetSiteName(string strhtml)
        {
            Parser parser = Parser.CreateParser(strhtml, null);
            NodeList nodes = parser.ExtractAllNodesThatMatch(new TagNameFilter("h2"));
          
            for (int i = 0; i < nodes.Count; i++)
            {
                siteList.Add(nodes[i].Children[1].ToPlainTextString());
            }
           
        }

private string GetRes(string Url)
        {

string strResult = string.Empty;
            try
            {
                HttpWebRequest request =(HttpWebRequest)WebRequest.Create(Url);
                request.Timeout = 30000;
                request.Headers.Set("Pragma", "no-cache");

HttpWebResponse response =(HttpWebResponse)request.GetResponse();

Stream streamReceive = response.GetResponseStream();
                Encoding encoding = Encoding.GetEncoding("utf-8");
                StreamReader streamReader =new StreamReader(streamReceive, encoding);
                strResult = streamReader.ReadToEnd();
            }
            catch(Exception) {}

return strResult;
        }

private void WriteTxt()
        {
            string sucessFile = Application.StartupPath;
            string selectText = this.comboBoxArea.SelectedItem.ToString();
            if (File.Exists(string.Format("{0}\\{1}.txt", sucessFile, selectText)))
            {
                File.Delete(string.Format("{0}\\{1}.txt", sucessFile, selectText));
            }
            StreamWriter sw = new StreamWriter(string.Format("{0}\\{1}.txt", sucessFile, selectText),true);
            try
            {
                foreach (string item in siteList)
                {
                    sw.WriteLine(item+" "+selectText);
                }
                sw.Dispose();
                sw.Close();
                MessageBox.Show("导出OK");
               
            }
            catch (Exception)
            {
            }
        }

private void button1_Click(object sender, EventArgs e)
        {
            if (this.comboBoxArea.SelectedIndex == 0)
            {
                MessageBox.Show("请选择区域");
                return;
            }
            if (siteList.Count == 0)
            {
                MessageBox.Show("没有数据");
                return;
            }
            WriteTxt();
        }

private void textBox3_TextChanged(object sender, EventArgs e)
        {
           
            int countPage = int.Parse(this.textBox3.Text.Trim());
            this.textBox1.Text = string.Format(this.txtUrlText.Text.Trim(), 0);
            this.textBox2.Text = string.Format(this.txtUrlText.Text.Trim(), countPage - 1);
        }

}
}

Winista.Text.HtmlParser; 获取html的更多相关文章

  1. HTMLParser获取属性名

    HTMLParser获取属性名方式: 原始网页文本: <a title="美军被曝虐尸" href="http://www.sogou.com/web?query= ...

  2. jquery中html()或text()方法获取或设置p标签的值

    html()方法可以用来读取或者设置某个元素中的HTML内容,text()方法可以用来读取或者没置某个元素中的文本内容 html()方法 此方法类似于JavaScript中的innerHTML属性,可 ...

  3. select获取选中的option(包含value和text,重点是text怎么获取)

    简单描述:后台需要获取到select标签选择的内容,也就是text,该怎么取呢?很简单. 代码: //hml代码<div class="col-md-6"> <l ...

  4. js 通过html()及text()方法获取并设置p标签的显示值

    html()方法 此方法类似于JavaScript中的innerHTML属性,可以用来读取或者设置某个元素中的HTML内容.要获取某个元素的内容,可以这样: 复制代码 代码如下: var p_html ...

  5. 大数据处理之道 (htmlparser获取数据&lt;一&gt;)

    一:简单介绍 (1)HTML Parser是一个用于解析Html的Java的库.可採用线性或嵌套两种方式.主要用于网页的转换或提取,他有一些特性:过滤器filter,遍历器visitors,通常的标签 ...

  6. Text 尺寸获取

    获取text在当前文本内容下应该尺寸: 宽度:text.preferredWidth 高度:text.preferredHeight

  7. XPath匹配标签使用text()判断获取结果失败/为空的问题及解决方法

    XPath当匹配标签判断text()判断内容失败的问题及解决 问题复现 在爬取网站的时候我使用XPath去抓取网页上的内容,XPath表达式来精准获取需要的标签内容. 当我对如下一段html代码编写X ...

  8. sublime text 插件 -- 获取文件名到剪贴板

    日常开发使用 sublime text 有好长一段时间了,有时候想拷贝当前正在编辑的文件名时发现没有很快捷的方法,一般都是先点击右键菜单栏中的 Reveal in Side Bar 对文件进行定位(在 ...

  9. HTMLPARSER.NET 参考资料

    例子1: using System;using System.IO;using Winista.Text.HtmlParser;using Winista.Text.HtmlParser.Lex;us ...

随机推荐

  1. SqlServer数据库正在还原的解决办法

    1)管理器不会主动刷新,需要手工刷新一下才能看到最新状态(性能方面的考虑) 2)很少情况下,恢复进程被挂起了.这个时候假设你要恢复并且回到可访问状态,要执行:  RESTORE database   ...

  2. Nginx出现413 Request Entity Too Large错误解决方法

    Nginx出现的413 Request Entity Too Large错误,这个错误一般在上传文件的时候出现,打开nginx主配置文件nginx.conf,找到http{}段,添加 解决方法就是 打 ...

  3. 【java】 java 集合类UML图

  4. linux下的chmod,chown和chgrp

    对于linux的权限掌握以下几个命令就可以非常熟练的操作系统中的各种权限了. 使用权限 : 所有使用者 使用方式 : chmod [-cfvR] [--help] [--version] mode f ...

  5. 【java基础学习-2--】关于Hashcode()的使用

    摘要 Java中equals()和hashCode()有一个契约: 如果两个对象相等的话,它们的hash code必须相等: 但如果两个对象的hash code相等的话,这两个对象不一定相等; 这个约 ...

  6. CentOS生产机器禁止ROOT远程SSH登录

    方法一 很多站长拥有linux主机,不管是虚拟机还是实体机,一般我们远程连接的时候,都是用的ssh(SecureShell建立在应用层和传输层基础上的安全协议). 它默认的端口22,默认使用root也 ...

  7. Configure custom SSL certificate for RDP on Windows Server 2012 in Remote Administration mode

    Q: So the release of Windows Server 2012 has removed a lot of the old Remote Desktop related configu ...

  8. MongoDB:Replica Set 之操作日志 Oplog

    转载地址:http://francs3.blog.163.com/blog/static/4057672720121133328120/ 之前的blog  学习了 MongoDB 主从搭建,以及节点管 ...

  9. NeHe OpenGL教程 第十九课:粒子系统

    转自[翻译]NeHe OpenGL 教程 前言 声明,此 NeHe OpenGL教程系列文章由51博客yarin翻译(2010-08-19),本博客为转载并稍加整理与修改.对NeHe的OpenGL管线 ...

  10. 转-Fragment+ViewPager组件(高仿微信界面)

    http://www.cnblogs.com/lichenwei/p/3982302.html 什么是ViewPager? 关于ViewPager的介绍和使用,在之前我写过一篇相关的文章<安卓开 ...