C#写一个简单爬虫

最近研究C#的爬虫写法，搞了半天，才在网上很多的写法中整理出了一个简单的demo（本人菜鸟，大神勿喷）。一是为了自己记录一下以免日后用到，二是为了供需要朋友参考。

废话不多说，上代码

 using HtmlAgilityPack;

 using System;

 using System.Collections.Generic;

 using System.IO;

 using System.Linq;

 using System.Net;

 using System.Text;

 using System.Threading.Tasks;

 namespace Crawler

 {

     class Program

     {

         static void Main(string[] args)

         {

             //WebProxy proxyObject = new WebProxy(IP, PORT);//这里我是用的代理。

             //向指定地址发送请求

             HttpWebRequest HttpWReq = (HttpWebRequest)WebRequest.Create("http://news.baidu.com/");

             //HttpWReq.Proxy = proxyObject;

             HttpWReq.Timeout = ;

             HttpWebResponse HttpWResp = (HttpWebResponse)HttpWReq.GetResponse();

             StreamReader sr = new StreamReader(HttpWResp.GetResponseStream(), Encoding.GetEncoding("UTF-8"));

             HtmlDocument doc = new HtmlDocument();

             doc.Load(sr);

             HtmlNodeCollection ulNodes = doc.DocumentNode.SelectSingleNode("//div[@id='pane-news']").SelectNodes("ul");

             if (ulNodes != null && ulNodes.Count > )

             {

                 for (int i = ; i < ulNodes.Count; i++)

                 {

                     HtmlNodeCollection liNodes = ulNodes[i].SelectNodes("li");

                     for (int j = ; j < liNodes.Count; j++)

                     {

                         string title = liNodes[j].SelectSingleNode("a").InnerHtml.Trim();

                         string href = liNodes[j].SelectSingleNode("a").GetAttributeValue("href", "").Trim();

                         Console.WriteLine("新闻标题：" + title + ",链接：" + href);

                     }

                 }

             }

             Console.ReadLine();

             sr.Close();

             HttpWResp.Close();

             HttpWReq.Abort();

         }

     }

 }

其中解析html的写法用到了XPath的语法，大家可以自行百度下，比较简单。

C#写一个简单爬虫的更多相关文章

用node.js写一个简单爬虫，并将数据导出为 excel 文件
引子最近折腾node,最开始像无头苍蝇一样到处找资料,然而多数没什么卵用,都在瞎比比.在一阵瞎搞后,我来分享一下初步学习node的三个过程: 1 撸一遍NODE入门,对其有个基本的了解: 2 撸一遍 ...
用node.js从零开始去写一个简单的爬虫
如果你不会Python语言,正好又是一个node.js小白,看完这篇文章之后,一定会觉得受益匪浅,感受到自己又新get到了一门技能,如何用node.js从零开始去写一个简单的爬虫,十分钟时间就能搞定, ...
爬虫入门手写一个Java爬虫
本文内容涞源于罗刚老师的书籍 << 自己动手写网络爬虫一书 >> ; 本文将介绍 1: 网络爬虫的是做什么的? 2: 手动写一个简单的网络爬虫; 1: 网络爬虫是做 ...
用flask写一个简单的接口
用falsk写一个简单的接口,这个接口的数据本来是爬虫爬取的数据,但是今天只写一个flask接口,数据就用测试数据好了. import random import re import time imp ...
Python之小测试：用正则表达式写一个小爬虫用于保存贴吧里的所有图片
很简单的两步: 1.获取网页源代码 2.利用正则表达式提取出图片地址 3.下载 #!/usr/bin/python #coding=utf8 import re # 正则表达式 import urll ...
[Java]使用HttpClient实现一个简单爬虫，抓取煎蛋妹子图
第一篇文章,就从一个简单爬虫开始吧. 这只虫子的功能很简单,抓取到”煎蛋网xxoo”网页(http://jandan.net/ooxx/page-1537),解析出其中的妹子图,保存至本地. 先放结果 ...
用Python写一个简单的Web框架
一.概述二.从demo_app开始三.WSGI中的application 四.区分URL 五.重构 1.正则匹配URL 2.DRY 3.抽象出框架六.参考一.概述在Python中,WSGI( ...
如何写一个简单的http服务器
最近几天用C++写了一个简单的HTTP服务器,作为学习网络编程和Linux环境编程的练手项目,这篇文章记录我在写一个HTTP服务器过程中遇到的问题和学习到的知识. 服务器的源代码放在Github. H ...
如何写一个简单的shell
如何写一个简单的shell 看完<UNIX环境高级编程>后我就一直想写一个简单的shell来作为练习,因为有事断断续续的写了好几个月,如今写了差不多来总结一下. 源代码放在了Github: ...

随机推荐

HTTP 和 WebSocket的区别
有关http和WebSocket 的区别网上有很多的质料. 个人在此仅仅是记录以下自己的学习心得,自己的理解. 1. http协议是用在应用层的协议,他是基于tcp协议的,http协议建立链接也必须要 ...
C# 语言历史版本特性（C# 1.0到C# 8.0汇总）
历史版本 C#作为微软2000年以后.NET平台开发的当家语言,发展至今具有17年的历史,语言本身具有丰富的特性,微软对其更新支持也十分支持.微软将C#提交给标准组织ECMA,C# 5.0目前是ECM ...
Mui Webview下来刷新上拉加载实现
有些事情经历过之后才会发现,原来再次之前我是如此的啥,因为是第一次做,毫无头绪,有时会想假如有个一demo就好了,那么就不会花费这么多的无用功了.今天使用mui 的webview实现了一个H5页面的上 ...
带logo图片或不带logo图片的二维码生成与解析，亲测成功
最近公司需要实现二维码功能,本人经过一顿百度,终于实现了,因有3个功能:不带logo图片.带logo图片.解析二维码,篇幅较长,请耐心读之,直接复制粘贴即可. 前提:myeclipse10:jar包: ...
Netty实现高性能IOT服务器(Groza)之精尽代码篇中
运行环境: JDK 8+ Maven 3.0+ Redis 技术栈: SpringBoot 2.0+ Redis (Lettuce客户端,RedisTemplate模板方法) Netty 4.1+ M ...
TensorFlow从1到2（九）迁移学习
迁移学习基本概念迁移学习是这两年比较火的一个话题,主要原因是在当前的机器学习中,样本数据的获取是成本最高的一块.而迁移学习可以有效的把原有的学习经验(对于模型就是模型本身及其训练好的权重值)带入到新 ...
用Python学分析 - 正态分布
正态分布(Normal Distribution) 1.正态分布是一种连续分布,其函数可以在实线上的任何地方取值. 2.正态分布由两个参数描述:分布的平均值μ和方差σ2 . 3.正态分布的取值可以从负 ...
微软XAML Studio - WPF, Sliverlight, Xamarin, UWP等技术开发者的福音
目录编辑器功能数据源功能调试数据绑定伟大的开始我们来一起实践吧最近又在继续倒腾WPF的项目,继续使用Caliburn.Micro和Xceed来堆代码.每次调试xaml上的binding,都 ...
工厂模式讲解, 引入Spring IOC
目录引入简单工厂抽象工厂 Spring的bean工厂模拟Spring工厂实现模拟IOC 引入假设有一个司机, 需要到某个城市, 于是我们给他一辆汽车 public class Demo { ...
关于vue使用form上传文件
在vue中使用form表单上传文件文件的时候出现了一些问题,获取文件的时候一直返回null, 解决之后又出现发送到后台的file文件后台显示为空,解决源码 <template> <d ...

C#写一个简单爬虫

C#写一个简单爬虫的更多相关文章

随机推荐

热门专题