简单的网络爬虫程序（Web Crawlers）

程序比较简单，但是能体现基本原理。

package com.wxisme.webcrawlers;

import java.io.*;

import java.net.*;

/**

 * Web Crawlers * @author wxisme

 *

 */

public class WebCrawlers {

    public static void main(String[] args) {

        URL url = null;

        try {

            url = new URL("http://www.baidu.com");

        } catch (MalformedURLException e) {

            System.out.println("域名不合法！");

            e.printStackTrace();

        }

        InputStream is = null;

        try {

            is = url.openStream();

        } catch (IOException e) {

            e.printStackTrace();

        }

        FileOutputStream fos = null;

        try {

            fos = new FileOutputStream("E:\\baidu.txt");

        } catch (FileNotFoundException e) {

            System.out.println("文件创建失败！");

            e.printStackTrace();

        }

        //使用转换流设置字符集

        BufferedReader br = null;

        try {

            br = new  BufferedReader(new InputStreamReader(

                    is,"utf-8"));

        } catch (UnsupportedEncodingException e) {

            System.out.println("字符集设置失败！");

            e.printStackTrace();

        }

        BufferedWriter bw = new BufferedWriter(new OutputStreamWriter(

                fos));

        String msg = null;

        try {

            while((msg = br.readLine()) != null) {

                bw.write(msg);

                bw.newLine();

            }

        } catch (IOException e) {

            System.out.println("文件操作失败！");

            e.printStackTrace();

        } finally {

            try {

                bw.flush();

            } catch (IOException e) {

                e.printStackTrace();

            }

            closeAll(is, fos, br, bw);

        }

    }

    public static void closeAll(Closeable ... io) {

        for(Closeable temp : io) {

            if(temp != null) {

                try {

                    temp.close();

                } catch (IOException e) {

                    System.out.println("文件关闭失败!");

                    e.printStackTrace();

                }

            }

        }

    }

}

简单的网络爬虫程序（Web Crawlers）的更多相关文章

一个简单的python爬虫程序
python|网络爬虫概述这是一个简单的python爬虫程序,仅用作技术学习与交流,主要是通过一个简单的实际案例来对网络爬虫有个基础的认识. 什么是网络爬虫简单的讲,网络爬虫就是模拟人访问web ...
Android网络爬虫程序（基于Jsoup）
摘要:基于 Jsoup 实现一个 Android 的网络爬虫程序,抓取网页的内容并显示出来.写这个程序的主要目的是抓取海投网的宣讲会信息(公司.时间.地点)并在移动端显示,这样就可以随时随地的浏览在学 ...
网络爬虫与web之间的访问授权协议——Robots
网站的管理者们通常会有这样一种心态:一方面期待百度.Google这样的搜索引擎来抓取网站的内容,另一方面又很厌恶其他来路不明的网络爬虫抓取自己的信息.正是因为这样,才有“好爬虫”.“坏爬虫”这样的说法 ...
一个简单的C#爬虫程序
这篇这篇文章主要是展示了一个C#语言如何抓取网站中的图片.实现原理就是基于http请求.C#给我们提供了HttpWebRequest和WebClient两个对象,方便发送请求获取数据,下面看如何实 1 ...
Python:requests库、BeautifulSoup4库的基本使用（实现简单的网络爬虫）
Python:requests库.BeautifulSoup4库的基本使用(实现简单的网络爬虫) 一.requests库的基本使用 requests是python语言编写的简单易用的HTTP库,使用起 ...
Java实现一个简单的网络爬虫
Java实现一个简单的网络爬虫 import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileWri ...
hello/hi的简单的网络聊天程序
hello/hi的简单的网络聊天程序 0 Linux Socket API Berkeley套接字接口,一个应用程序接口(API),使用一个Internet套接字的概念,使主机间或者一台计算机上的进程 ...
以您熟悉的编程语言为例完成一个hello/hi的简单的网络聊天程序
Socket通常也称作"套接字",用于描述IP地址和端口,是一个通信链的句柄,可以用来实现不同虚拟机或不同计算机之间的通信,应用程序通常通过"套接字"向网络发出 ...
为编写网络爬虫程序安装Python3.5
1. 下载Python3.5.1安装包1.1 进入python官网,点击menu->downloads,网址:https://www.python.org/downloads/ 1.2 根据系统 ...

随机推荐

IPC介绍——10个ipcs例子
IPC介绍——10个ipcs例子 semaphorearrays2010performancesystemaccess ipcs是一个uinx/linux的命令.用于报告系统的消息队列.信号量.共享内 ...
9260与SAM-BA连接（转）
对于AT91SAM9260的bootloader的烧写,常常会遇到这样的问题:对于干净的NAND FLASH(即没有烧写过任何东西),AT91SAM9260与sam-ba很容易连接成功,但当烧写过bo ...
hive & hive beeline常用参数
Hive 1参数如下: usage: hive -d,--define <key=value> Variable substitution to apply to Hive command ...
[Django学习]模板
模板介绍作为Web框架,Django提供了模板,可以很便利的动态生成HTML 模版系统致力于表达外观,而不是程序逻辑模板的设计实现了业务逻辑(view)与显示内容(template)的分离,一个视 ...
【好文收藏】javascript中event对象详解
event代表事件的状态,例如触发event对象的元素.鼠标的位置及状态.按下的键等等. event对象只在事件发生的过程中才有效. event的某些属性只对特定的事件有意义.比如,fromEleme ...
关于Cocos2d-x发布游戏的时候遇到的问题和解决
发布经常会遇到各种各样的问题,发布失败会返回一些值,但是这些值并不是重点,要看发布过程中产生的日志才能真正找到问题所在.我在发布自己做的第一个游戏的时候,遇到了各种各样的问题,不过都一一解决,下面是问 ...
HttpClient学习之客户端HTTP编程入门
说明本文存在的原因,是想深入的学习下HttpClient.对应的网址是: http://hc.apache.org/httpcomponents-client-4.5.x/primer.html h ...
e682. 获得打印页的尺寸
Note that (0, 0) of the Graphics object is at the top-left of the actual page, which is outside the ...
const 与#define 的比较
const 与#define 的比较 C++ 语言可以用 const 来定义常量,也可以用 #define 来定义常量.但是前者比后者有更多的优点: (1) const 常量有数据类型,而宏常量没有 ...
perl 中的哈希赋值
在perl 中,通过代码动态的给哈希赋值,是最常见的应用场景,但是有些情况下,我们事先知道一些信息,当需要把这些信息存放进一个哈希的时候,直接给哈希赋值就好: 哈希的key不用说,就是一个字符串,关键 ...

简单的网络爬虫程序（Web Crawlers）

简单的网络爬虫程序（Web Crawlers）的更多相关文章

随机推荐

热门专题