【java】抓取页面内容，提取链接（此方法可以http get无需账号密码的请求）

 package 网络编程;

 import java.io.BufferedReader;

 import java.io.BufferedWriter;

 import java.io.FileOutputStream;

 import java.io.IOException;

 import java.io.InputStreamReader;

 import java.io.OutputStreamWriter;

 import java.net.URL;

 public class TestBaidu {

     public static void main(String[] args) throws IOException {

         URL url=new URL("http://www.baidu.com");

         /*此方法会有乱码输出

         InputStream is=url.openStream();

         byte[] b=new byte[1024];

         int len=0;

         while((len=is.read(b))!=-1){

             System.out.println(new String(b,0,len));

         }

         */

         BufferedReader br=new BufferedReader(new InputStreamReader(url.openStream(),"utf-8"));

         BufferedWriter bw=new BufferedWriter(new OutputStreamWriter(new FileOutputStream("baidu.html"),"utf-8"));

         String str=null;

         while((str=br.readLine())!=null){

             bw.append(str);

             bw.newLine();

         }

             //System.out.print(str);

         bw.flush();

         bw.close();

         br.close();

     }

 }

抓取页面内容

 package 网络编程;

 import java.io.BufferedReader;

 import java.io.IOException;

 import java.io.InputStreamReader;

 import java.net.URL;

 import java.nio.charset.Charset;

 import java.util.regex.Matcher;

 import java.util.regex.Pattern;

 public class Get163URL {

     public static void main(String[] args) throws IOException {

         URL url=new URL("http://www.163.com");

         BufferedReader br=new BufferedReader(new InputStreamReader(url.openStream(),Charset.forName("gbk")));

         StringBuffer sb=new StringBuffer();

         String tmp=null;

         while((tmp=br.readLine())!=null){

             sb.append(tmp);

         }

 //        System.out.println(sb.toString());

         Pattern p=Pattern.compile("\"(http:\\/\\/.+?)\"");

         Matcher m=p.matcher(sb);

         while(m.find())

             System.out.println(m.group(1));

     }

 }

提出链接

 public class WikiDownload {

     static final String name = "username";

     static final String pwd = "password";

     public static void main(String[] args){

         CookieManager manager = new CookieManager();

         CookieHandler.setDefault(manager);

         String wikiUrl = "http://wiki.xxxxx.org/pages/viewpage.action?pageId=71709153";

         String loginUrl = "http://wiki.xxxxx.org/login.action?os_destination=%2Fpages%2Fviewpage.action%3FpageId%3D71709153";

         try{

             URL url = new URL(loginUrl);

             HttpURLConnection connection = (HttpURLConnection)url.openConnection();

             connection.setRequestProperty("accept", "*/*");

             connection.setRequestProperty("connection", "Keep-Alive");

             connection.setRequestProperty("user-agent",

                     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36");

             String line;

             connection.setDoInput(true);

             connection.setDoOutput(true);

             connection.setUseCaches(false);

             connection.setRequestMethod("POST");

             try(OutputStreamWriter writer = new OutputStreamWriter(connection.getOutputStream())){

                 writer.write("os_username=" + name

                         +"&os_password="+ pwd

                         + "&login=%E7%99%BB%E5%BD%95&os_destination="

                         + URLEncoder.encode(wikiUrl.split("http://wiki.xxxxx.org")[0],"utf-8"));

             }

             try(InputStreamReader reader = new InputStreamReader(connection.getInputStream())){

                 BufferedReader in = new BufferedReader(reader);

                 StringBuilder result= new StringBuilder("");

                 while ((line = in.readLine()) != null) {

                     result.append("\n");

                     result.append(line);

                 }

                 System.out.println(result);

             }

         }catch (Exception e){

             e.printStackTrace();

         }

     }

 }

获取需要登录的网页

【java】抓取页面内容，提取链接（此方法可以http get无需账号密码的请求）的更多相关文章

如何使用angularjs实现抓取页面内容
<html ng-app="myApp"> <head> <title>angularjs-ajax</title> <scr ...
PHP cURL库函数抓取页面内容
目录 1 为什么要用cURL? 2 启用cURL 3 基本结构 4 检查错误 5 获取信息 6 基于浏览器的重定向 7 用POST方法发送数据 8 文件上传 9 cURL批处理(multi cURL) ...
nodejs抓取页面内容，并分析有无某些内容的js文件
nodejs获取网页内容绑定data事件,获取到的数据会分几次相应,如果想全局内容匹配,需要等待请求结束,在end结束事件里把累积起来的全局数据进行操作! 举个例子,比如要在页面中找有没有www.ba ...
C#使用CSS选择器抓取页面内容
最近在查wpf绘图资料时,偶然看到Python使用CSS选择器抓取网页的功能.觉得很强,这里用C#也实现一下. 先介绍一下CSS选择器在 CSS 中,选择器是一种模式,用于选择需要添加样式的元素. ...
Java爬虫系列二：使用HttpClient抓取页面HTML
爬虫要想爬取需要的信息,首先第一步就要抓取到页面html内容,然后对html进行分析,获取想要的内容.上一篇随笔<Java爬虫系列一:写在开始前>中提到了HttpClient可以抓取页面内 ...
基于puppeteer模拟登录抓取页面
关于热图在网站分析行业中,网站热图能够很好的反应用户在网站的操作行为,具体分析用户的喜好,对网站进行针对性的优化,一个热图的例子(来源于ptengine) 上图中能很清晰的看到用户关注点在那,我们不 ...
Python抓取视频内容
Python抓取视频内容 Python 是一种面向对象.解释型计算机程序设计语言,由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991年.Python语法简洁而清晰,具 ...
爬虫抓取页面数据原理（php爬虫框架有很多）
爬虫抓取页面数据原理(php爬虫框架有很多 ) 一.总结 1.php爬虫框架有很多,包括很多傻瓜式的软件 2.照以前写过java爬虫的例子来看,真的非常简单,就是一个获取网页数据的类或者方法(这里的话 ...
用PHP抓取页面并分析
在做抓取前,记得把php.ini中的max_execution_time设置的大点,不然会报错的.

随机推荐

深入理解立即执行函数(function(){})();
( function(){-} )()和( function (){-} () )是两种javascript立即执行函数的常见写法,要理解立即执行函数,需要先理解一些函数的基本概念. 1,函数声明,函 ...
Linux下执行ls命令提示CMake Error错误
一.系统环境 Fedora10 二.出错情况执行ls命令出现如下错误提示: CMake Error: The source directory "/etc/--color=auto&quo ...
Lua脚本在C++下的舞步
我是一名C++程序员,所以在很多时候,不想过多的使用Lua的特性,因为个人感觉,Lua的语法要比C++的更加灵活.而我更希望,在函数调用的某些习惯上,遵循一些C++的规则.好了,废话少说,我们先来看一 ...
《java.util.concurrent 包源码阅读》15 线程池系列之ScheduledThreadPoolExecutor 第二部分
这篇文章主要说说DelayedWorkQueue. 在ScheduledThreadPoolExecutor使用DelayedWorkQueue来存放要执行的任务,因为这些任务是带有延迟的,而每次执行 ...
JavaWeb框架SSH_Struts2_(四)----->表达式语言OGNL
1. 表达式语言OGNL OGNL简介 OGNL基本语法常量操作符 OGNL表达式 OGNL基础 OGNL上下文 OGNL值栈 OGNL的访问 2. 具体内容 2.1 OGNL简介 OGNL(Ob ...
java版Web Socket，实现消息推送
# web socket是什么? WebSocket协议是基于TCP的一种新的网络协议. 它实现了浏览器与服务器全双工(full-duplex)通信,允许服务器主动发送信息给客户端. ## 用途实时 ...
谈谈微服务中的 API 网关（API Gateway）
前言又是很久没写博客了,最近一段时间换了新工作,比较忙,所以没有抽出来太多的时间写给关注我的粉丝写一些干货了,就有人问我怎么最近没有更新博客了,在这里给大家抱歉. 那么,在本篇文章中,我们就一起来探 ...
Mybatis分页插件PageHelper简单使用
一个好的讲解mybatis的博客地址http://www.jianshu.com/nb/5226994 引言对于使用Mybatis时,最头痛的就是写分页,需要先写一个查询count的select语句 ...
深入理解php内核编写扩展 II：参数、数组和ZVALs
原文:http://devzone.zend.com/article/1022-Extension-Writing-Part-II-Parameters-Arrays-and-ZVALs Part I ...
屏幕旋转时调用PopupWindow update方法更新位置失效的问题及解决方案
接到一个博友的反馈,在屏幕旋转时调用PopupWindow的update方法失效.使用场景如下:在一个Activity中监听屏幕旋转事件,在Activity主布局文件中有个按钮点击弹出一个Pop ...

【java】抓取页面内容，提取链接（此方法可以http get无需账号密码的请求）

【java】抓取页面内容，提取链接（此方法可以http get无需账号密码的请求）的更多相关文章

随机推荐

热门专题