简单的C#爬虫

using System;

using System.Collections.Generic;

using System.IO;

using System.Linq;

using System.Net;

using System.Text;

using System.Text.RegularExpressions;

using System.Threading.Tasks;  

namespace _2015._5._23通过WebClient类发起请求并下载html

{

    class Program

    {

        static void Main(string[] args)

        {

            #region 抓取网页邮箱

            //string url = "http://zhidao.baidu.com/link?url=cvF0de2o9gkmk3zW2jY23TLEUs6wX-79E1DQVZG7qaBhEVT_xlh6TO7p0W4qwuAZ_InLymC_-mJBBcpdbzTeq_";

            //WebClient wc = new WebClient();

            //wc.Encoding = Encoding.UTF8;

            //string str = wc.DownloadString(url);

            //MatchCollection matchs=  Regex.Matches(str,@"\w+@([-\w])+([\.\w])+",RegexOptions.ECMAScript);

            //foreach (Match item in matchs)

            //{

            //    Console.WriteLine(item.Value);

            //}

            //Console.WriteLine(matchs.Count);

            #endregion   

            #region 抓取网页图片  

            //WebClient wc = new WebClient();

            //wc.Encoding = Encoding.UTF8;

            ////下载源网页代码

            //string html = wc.DownloadString("http://dongxi.douban.com/?dcs=top-nav&dcm=douban");

            //MatchCollection matches= Regex.Matches(html,"<img.*src=\"(.+?)\".*>");

            //foreach (Match item in matches)

            //{

            //    //下载图片到指定路径

            //    wc.DownloadFile(item.Groups[1].Value,@"c:\mv\"+Path.GetFileName(item.Groups[1].Value));

            //}

            //Console.WriteLine(matches.Count);  

            #endregion 爬一些信息  

            WebClient wc = new WebClient();

            wc.Encoding = Encoding.UTF8;

            string html = wc.DownloadString("http://www.lagou.com/");  

            MatchCollection matches= Regex.Matches(html,"<a.*jobs.*>(.*)</a>");

            foreach (Match item in matches)

            {

                Console.WriteLine(item.Groups[1].Value);

            }

            Console.WriteLine(matches.Count);

            Console.ReadKey();

        }

    }

}

简单的C#爬虫的更多相关文章

一个简单的python爬虫程序
python|网络爬虫概述这是一个简单的python爬虫程序,仅用作技术学习与交流,主要是通过一个简单的实际案例来对网络爬虫有个基础的认识. 什么是网络爬虫简单的讲,网络爬虫就是模拟人访问web ...
简单的node爬虫练手，循环中的异步转同步
简单的node爬虫练手,循环中的异步转同步转载:https://blog.csdn.net/qq_24504525/article/details/77856989 看到网上一些基于node做的爬虫 ...
超简单的java爬虫
最简单的爬虫,不需要设定代理服务器,不需要设定cookie,不需要http连接池,使用httpget方法,只是为了获取html代码... 好吧,满足这个要求的爬虫应该是最基本的爬虫了.当然这也是做复杂 ...
Python 用Redis简单实现分布式爬虫
Redis通常被认为是一种持久化的存储器关键字-值型存储,可以用于几台机子之间的数据共享平台. 连接数据库注意:假设现有几台在同一局域网内的机器分别为Master和几个Slaver Master连接 ...
python实现的一个简单的网页爬虫
学习了下python,看了一个简单的网页爬虫:http://www.cnblogs.com/fnng/p/3576154.html 自己实现了一个简单的网页爬虫,获取豆瓣的最新电影信息. 爬虫主要是获 ...
Java实现一个简单的网络爬虫
Java实现一个简单的网络爬虫 import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileWri ...
一个简单的C#爬虫程序
这篇这篇文章主要是展示了一个C#语言如何抓取网站中的图片.实现原理就是基于http请求.C#给我们提供了HttpWebRequest和WebClient两个对象,方便发送请求获取数据,下面看如何实 1 ...
Python:requests库、BeautifulSoup4库的基本使用（实现简单的网络爬虫）
Python:requests库.BeautifulSoup4库的基本使用(实现简单的网络爬虫) 一.requests库的基本使用 requests是python语言编写的简单易用的HTTP库,使用起 ...
简单的python爬虫教程：批量爬取图片
python编程语言,可以说是新型语言,也是这两年来发展比较快的一种语言,而且不管是少儿还是成年人都可以学习这个新型编程语言,今天南京小码王python培训机构变为大家分享了一个python爬虫教程. ...
做一个简单的scrapy爬虫
前言: 做一个简单的scrapy爬虫,带大家认识一下创建scrapy的大致流程.我们就抓取扇贝上的单词书,python的高频词汇. 步骤: 一,新建一个工程scrapy_shanbay 二,在工程中中 ...

随机推荐

UVa 12174 Shuffle（滑动窗口）
https://vjudge.net/problem/UVA-12174 题意: 你在听音乐播放器,它采用随机播放形式.随机播放的原理时先随机产生一个1~n的排列,然后就按这个排列顺序播放歌曲.播放完 ...
nodejs+gulpjs压缩js代码
1.安装node.js 下载地址:nodejs.org 或者 nodejs.cn 2.安装gulp之前我们需要安装nodejs的环境,检测能够正常使用npm后,我们用npm对gulp进行一次全局安 ...
html 画出矩形，鼠标弹起，矩形消失
<!DOCTYPE html> <html> <head> <meta charset="utf-8" /> <title&g ...
Qt5.3.2_CentOS6.4(x86)_代码文件编码
1.1.1.Qt5.3.2_MinGW 在Windows中安装时,默认的文件编码是 UTF8. 1.2.在 CentOS6.4中安装 qt-opensource-linux-x86-5.3.2.run ...
Lua面向对象 --- 多继承
工程目录结构: ParentMother.lua: ParentMother = {} function ParentMother:MortherName() print("Morther ...
丑数问题 Ugly Number
2018-07-28 15:30:21 一.判断是否为丑数问题描述: 问题求解: 所谓丑数,首先得是正数,然后其质数因子只包含了2,3,4,因此我们只需要对当前的数分别除2,3,4直到不能除为止. ...
ubuntu16.04 安装NVIDIA和CUDA9.2 cudNN7.1
1.安装NVIDIA驱动 (1)查询NVIDIA驱动首先去官网(http://www.nvidia.com/Download/index.aspx?lang=en-us)查看适合自己显卡的驱动(下载 ...
JavaScript 和 React，React用了大量语法糖，让JS编写更方便。
https://reactjs.org/docs/higher-order-components.htmlhttps://codepen.io/gaearon/pen/WooRWa?editors=0 ...
Android之EventBus1.0 和EventBus3.0的使用详解
当Android项目越来越庞大的时候,应用的各个部件之间的通信变得越来越复杂,那么我们通常采用的就是Android中的解耦组件EventBus.EventBus是一款针对Android优化的发布/订阅 ...
Confluence 6 的高级 Crowd 设置
启用嵌套用户组(Enable Nested Groups) 为嵌套组启用或禁用支持. 在启用嵌套用户组之前,你需要检查你在 Crowd 中定义的目录能够支持嵌套用户组.当嵌套用户组启用成功后,你可以将 ...

简单的C#爬虫

简单的C#爬虫的更多相关文章

随机推荐

热门专题