【java】抓取页面内容，提取链接（此方法可以http get无需账号密码的请求）

 package 网络编程;

 import java.io.BufferedReader;

 import java.io.BufferedWriter;

 import java.io.FileOutputStream;

 import java.io.IOException;

 import java.io.InputStreamReader;

 import java.io.OutputStreamWriter;

 import java.net.URL;

 public class TestBaidu {

     public static void main(String[] args) throws IOException {

         URL url=new URL("http://www.baidu.com");

         /*此方法会有乱码输出

         InputStream is=url.openStream();

         byte[] b=new byte[1024];

         int len=0;

         while((len=is.read(b))!=-1){

             System.out.println(new String(b,0,len));

         }

         */

         BufferedReader br=new BufferedReader(new InputStreamReader(url.openStream(),"utf-8"));

         BufferedWriter bw=new BufferedWriter(new OutputStreamWriter(new FileOutputStream("baidu.html"),"utf-8"));

         String str=null;

         while((str=br.readLine())!=null){

             bw.append(str);

             bw.newLine();

         }

             //System.out.print(str);

         bw.flush();

         bw.close();

         br.close();

     }

 }

抓取页面内容

 package 网络编程;

 import java.io.BufferedReader;

 import java.io.IOException;

 import java.io.InputStreamReader;

 import java.net.URL;

 import java.nio.charset.Charset;

 import java.util.regex.Matcher;

 import java.util.regex.Pattern;

 public class Get163URL {

     public static void main(String[] args) throws IOException {

         URL url=new URL("http://www.163.com");

         BufferedReader br=new BufferedReader(new InputStreamReader(url.openStream(),Charset.forName("gbk")));

         StringBuffer sb=new StringBuffer();

         String tmp=null;

         while((tmp=br.readLine())!=null){

             sb.append(tmp);

         }

 //        System.out.println(sb.toString());

         Pattern p=Pattern.compile("\"(http:\\/\\/.+?)\"");

         Matcher m=p.matcher(sb);

         while(m.find())

             System.out.println(m.group(1));

     }

 }

提出链接

 public class WikiDownload {

     static final String name = "username";

     static final String pwd = "password";

     public static void main(String[] args){

         CookieManager manager = new CookieManager();

         CookieHandler.setDefault(manager);

         String wikiUrl = "http://wiki.xxxxx.org/pages/viewpage.action?pageId=71709153";

         String loginUrl = "http://wiki.xxxxx.org/login.action?os_destination=%2Fpages%2Fviewpage.action%3FpageId%3D71709153";

         try{

             URL url = new URL(loginUrl);

             HttpURLConnection connection = (HttpURLConnection)url.openConnection();

             connection.setRequestProperty("accept", "*/*");

             connection.setRequestProperty("connection", "Keep-Alive");

             connection.setRequestProperty("user-agent",

                     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36");

             String line;

             connection.setDoInput(true);

             connection.setDoOutput(true);

             connection.setUseCaches(false);

             connection.setRequestMethod("POST");

             try(OutputStreamWriter writer = new OutputStreamWriter(connection.getOutputStream())){

                 writer.write("os_username=" + name

                         +"&os_password="+ pwd

                         + "&login=%E7%99%BB%E5%BD%95&os_destination="

                         + URLEncoder.encode(wikiUrl.split("http://wiki.xxxxx.org")[0],"utf-8"));

             }

             try(InputStreamReader reader = new InputStreamReader(connection.getInputStream())){

                 BufferedReader in = new BufferedReader(reader);

                 StringBuilder result= new StringBuilder("");

                 while ((line = in.readLine()) != null) {

                     result.append("\n");

                     result.append(line);

                 }

                 System.out.println(result);

             }

         }catch (Exception e){

             e.printStackTrace();

         }

     }

 }

获取需要登录的网页

【java】抓取页面内容，提取链接（此方法可以http get无需账号密码的请求）的更多相关文章

如何使用angularjs实现抓取页面内容
<html ng-app="myApp"> <head> <title>angularjs-ajax</title> <scr ...
PHP cURL库函数抓取页面内容
目录 1 为什么要用cURL? 2 启用cURL 3 基本结构 4 检查错误 5 获取信息 6 基于浏览器的重定向 7 用POST方法发送数据 8 文件上传 9 cURL批处理(multi cURL) ...
nodejs抓取页面内容，并分析有无某些内容的js文件
nodejs获取网页内容绑定data事件,获取到的数据会分几次相应,如果想全局内容匹配,需要等待请求结束,在end结束事件里把累积起来的全局数据进行操作! 举个例子,比如要在页面中找有没有www.ba ...
C#使用CSS选择器抓取页面内容
最近在查wpf绘图资料时,偶然看到Python使用CSS选择器抓取网页的功能.觉得很强,这里用C#也实现一下. 先介绍一下CSS选择器在 CSS 中,选择器是一种模式,用于选择需要添加样式的元素. ...
Java爬虫系列二：使用HttpClient抓取页面HTML
爬虫要想爬取需要的信息,首先第一步就要抓取到页面html内容,然后对html进行分析,获取想要的内容.上一篇随笔<Java爬虫系列一:写在开始前>中提到了HttpClient可以抓取页面内 ...
基于puppeteer模拟登录抓取页面
关于热图在网站分析行业中,网站热图能够很好的反应用户在网站的操作行为,具体分析用户的喜好,对网站进行针对性的优化,一个热图的例子(来源于ptengine) 上图中能很清晰的看到用户关注点在那,我们不 ...
Python抓取视频内容
Python抓取视频内容 Python 是一种面向对象.解释型计算机程序设计语言,由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991年.Python语法简洁而清晰,具 ...
爬虫抓取页面数据原理（php爬虫框架有很多）
爬虫抓取页面数据原理(php爬虫框架有很多 ) 一.总结 1.php爬虫框架有很多,包括很多傻瓜式的软件 2.照以前写过java爬虫的例子来看,真的非常简单,就是一个获取网页数据的类或者方法(这里的话 ...
用PHP抓取页面并分析
在做抓取前,记得把php.ini中的max_execution_time设置的大点,不然会报错的.

随机推荐

unity3d资源打包总结
http://www.manew.com/blog-33734-12973.html unity 打包的时候会把下面几个文件资源打进apk或者ipa包里面 1. Asset下的所有脚本文件 2. As ...
Python学习笔记 set&&dict
dict 是个好东西啊,这个东东是类似于c++里面的map.其形式为 dict={key:value,key:value....} 这个东西好玩的地方主要在于 1.他的key值查找采用的是哈希算法,速 ...
react native android6+拍照闪退或重启的解决方案
前言 android 6+权限使用的时候需要动态申请,那么在使用rn的时候要怎么处理拍照权限问题呢?本文提供的是一揽子rn操作相册.拍照的解决方案,请看正文的提高班部分. 解决步骤 1.Android ...
Tomcat在修改代码后不会自动reload解决办法
1.找到使用的Tomcat安装目录conf配置文件夹下context.xml文件 2.找到<Context>节点,改为<Context reloadable="true&q ...
day01_HTML
今日任务网站信息页面案例网站图片信息页面案例网站友情链接页面案例网站首页案例网站后台页面案例教学目标了解什么是标记语言了解HTML的框架标签掌握HTML的主要标签(字体,图片,列表, ...
杭电ACM题单
杭电acm题目分类版本1 1002 简单的大数 1003 DP经典问题,最大连续子段和 1004 简单题 1005 找规律(循环点) 1006 感觉有点BT的题,我到现在还没过 1007 经典问题,最 ...
JavaScript实现动画效果
说到JavaScript实现动画效果,不得不想到两个函数,setTimeout和setInterval. setTimeout的常用的使用方法为 setTimeout(callback, delay) ...
【原创】python基于大数据现实双色球预测
前提准备:利用sql筛选出每个球出现概率最高的前5个数原理:先爬出所有的历史数据,然后模拟摇奖机出球的机制并大量模拟计算,直到出现列表中的某一个数后即停注意事项:由于计算过程数据量很大,需要加入内 ...
Asp.net Core中SignalR Core预览版的一些新特性前瞻,附源码(消息订阅与发送二进制数据)
目录 SignalR系列目录(注意,是ASP.NET的目录.不是Core的) 前言一晃一个月又过去了,上个月有个比较大的项目要验收上线.所以忙的脚不沾地.现在终于可以忙里偷闲,写一篇关于Signal ...
Idea Live Templates代码模板
一. 概念创建代码模板进行快速代码编写,如sout-->System.out.println();. 如我们经常要写logger的定义:private static final Logger ...

【java】抓取页面内容，提取链接（此方法可以http get无需账号密码的请求）

【java】抓取页面内容，提取链接（此方法可以http get无需账号密码的请求）的更多相关文章

随机推荐

热门专题