用流从一个指定的网址抓取html代码

package cn.bdqn.collect.test;

import java.io.BufferedReader;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.net.URL;

import java.net.URLConnection;

public class TestGetHTML {

	public static void main(String[] args)throws Exception{

		String target="http://www.boohee.com/food/group/1?page=1";//首先获取第一个分类下的列表----路径

		//先把网址放在一个字符串中，再通过一个java的URL类转换成java程序可识别的网址

		URL url=new URL(target);//java.net下的url类是专门用来表示一个网址的,如果提交的网址不对会抛出一个异常

		//打开和这个网址的连接

		URLConnection conn=url.openConnection();

		//获得输入流，字节流

		InputStream is=conn.getInputStream();

		//字节流转换成字符流

		InputStreamReader isr=new InputStreamReader(is, "utf-8");//第一个参数是字节流，第二个参数是要转换成什么编码格式，可以去网页源代码查看

		//把转换流包装成缓冲流，缓冲流以行为单位一行一行的读17:45

		BufferedReader br=new BufferedReader(isr);

		StringBuilder sb=new StringBuilder();

		//用来以行为单位读取页面内容

		String str=null;

		while ((str=br.readLine())!=null) {

			sb.append(str);

			sb.append("\r\n");

		}

		//关闭缓冲流

		br.close();

		System.out.println(sb.toString());

	}

}

用流从一个指定的网址抓取html代码的更多相关文章

转：介绍一个好用的抓取dump的工具-ProcDump
介绍一个好用的抓取dump的工具-ProcDump Procdump是一个轻量级的Sysinternal团队开发的命令行工具, 它的主要目的是监控应用程序的CPU异常动向, 并在此异常时生成crash ...
python实现一个栏目的分页抓取列表页抓取
python实现一个栏目的分页抓取列表页抓取 #!/usr/bin/env python # coding=utf-8 import requests from bs4 import Beautifu ...
'/test.txt'; // 把抓取的代码写入该文件
将获得的代码直接写入某个文件代码如下:<?php $urls = array( 'http://www.sina.com.cn/', 'http://www.sohu.com/', 'ht ...
[Python]网络爬虫（二）：利用urllib2通过指定的URL抓取网页内容
版本号:Python2.7.5,Python3改动较大. 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地. 类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的 ...
[Java]使用HttpClient实现一个简单爬虫，抓取煎蛋妹子图
第一篇文章,就从一个简单爬虫开始吧. 这只虫子的功能很简单,抓取到”煎蛋网xxoo”网页(http://jandan.net/ooxx/page-1537),解析出其中的妹子图,保存至本地. 先放结果 ...
jmeter从上一个请求使用正则表达式抓取Set-Cookie值，在下一个请求中运用
工作中遇到的问题,登录请求,返回的Response Headers中有个参数Set-Cookie,需要抓取这个参数,运用到下一个请求中,见下图: 通过正则表达式抓取Set-Cookie的值,由于该值存 ...
python3一个简单的网页抓取
都是学PYTHON.怎么学都是学,按照基础学也好,按照例子增加印象也好,反正都是学 import urllib import urllib.request data={} data['word']=' ...
MFC WinInetHttp抓取网页代码内容
Windows Internet编程主要包括两方面: l 服务器端 l 客户端 WinInet编程 Internet客户端主要实现的功能,主要是通过Internet协议(HTTP.FTP等)获 ...
python爬虫抓取一个网站的所有网址链接
sklearn实战-乳腺癌细胞数据挖掘 https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campai ...

随机推荐

shutter截图工具
安装: 1.打开ubuntu software center,搜索shutter,安装. 使用:
Android SDK路径不能含有空格
错误, android sdk location shoud not contain whitespace,as this can cause problems with thte ndk tools
Eclipse new server : Cancnot create a server using the selected type
1.退出 eclipse 2.到[工程目录下]/.metadata/.plugins/org.eclipse.core.runtime 3.把org.eclipse.wst.server.core.p ...
ExtJS笔记 Form
A Form Panel is nothing more than a basic Panel with form handling abilities added. Form Panels can ...
JS判断终端设备跳转PC端、移动端相应的URL
<!DOCTYPE html> <html> <head> <meta charset=" utf-8"> <meta nam ...
LoadRunner11.00入门教程出现的问题
问题1.打不开浏览器解决办法:打开浏览器工具--Internet 选项--高级--取消启用第三方浏览器扩展. 顺带解决了,有两个浏览器问题. 两个浏览器:一个是自带的IE,一个是其他软件插件. 解决 ...
【java基础学习】数据库编程
数据库编程 import java.sql.*; public class JdbcDemo1{ public static void main(String[] args){ try{ //1.加载 ...
初步了解JSONP
一.JSON 与 JSONP JSON是一种基于文本的数据交换方式(数据描述格式),JSONP是一种非官方跨域数据交互协议. ajax的核心是通过XmlHttpRequest获取非本页内容,而json ...
C#编程之委托与事件四（一）【转】
C#编程之委托与事件(一) 本文试图在.net Framework环境下,使用C#语言来描述委托.事件的概貌.希望本文能有助于大家理解委托.事件的概念,理解委托.事件的用途,理解它的C#实现方 ...
采用CSS3设计的登录界面，动态效果（动画）
与上一篇的“采用CSS3设计的登陆界面”的相同,只是样式style添加了CSS3的动画元素. style内容如下: <style> html,body,div{ margin:0; pad ...

用流从一个指定的网址抓取html代码

用流从一个指定的网址抓取html代码的更多相关文章

随机推荐

热门专题