正则表达式抓取文件内容中的http链接地址


import java.io.BufferedReader;

import java.io.FileInputStream;

import java.io.FileNotFoundException;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.InputStreamReader;

import java.net.HttpURLConnection;

import java.net.MalformedURLException;

import java.net.URL;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

//正则表达式抓取网页数据


public class HtmlAddressCatch {
public static void main(String[] args) {

  String webaddress = "https://www.zhihu.com/people/Akira_Dunn";

  HtmlAddressCatch.getWebTextContent(webaddress);

  /*String localaddress = "D:\\test\\test.html";

  String targetaddress = "D:\\test\\http.txt";

  HtmlAddressCatch.getLocalTextContent(localaddress , targetaddress);*/

}


//给定http链接抓取地址


public static void getWebTextContent(String webaddress){	


try {


URL url = new URL(webaddress);


HttpURLConnection con = (HttpURLConnection)url.openConnection();


FileOutputStream file = new FileOutputStream("D:\text.txt");


InputStreamReader read = new InputStreamReader(con.getInputStream());//使用InputStreamReader是为了将InputStream字节流转换成为字符流，一次读取更多的字节


BufferedReader packetreader = new BufferedReader(read);//使用BufferedReader是为了在InputStreamReader的基础上一次读取更多的字节


int i=0;


String regex = "https?												


											正则表达式抓取文件内容中的http链接地址的更多相关文章	

								（未解决）flume监控目录，抓取文件内容推送给kafka，报错
		flume监控目录,抓取文件内容推送给kafka,报错: /export/datas/destFile/220104_YT1013_8c5f13f33c299316c6720cc51f94f7a0_2 ...
		
						jmeter从上一个请求使用正则表达式抓取Set-Cookie值，在下一个请求中运用
		工作中遇到的问题,登录请求,返回的Response Headers中有个参数Set-Cookie,需要抓取这个参数,运用到下一个请求中,见下图: 通过正则表达式抓取Set-Cookie的值,由于该值存 ...
		
						用正则表达式抓取网页中的ul 和 li标签中最终的值！
		            获取你要抓取的页面 const string URL = "http://www.hn3ddf.gov.cn/price/GetList.html?pageno=1& ...
		
						iOS开发——网络使用技术OC篇&网络爬虫－使用正则表达式抓取网络数据
		网络爬虫-使用正则表达式抓取网络数据 关于网络数据抓取不仅仅在iOS开发中有,其他开发中也有,也叫网络爬虫,大致分为两种方式实现 1:正则表达 2:利用其他语言的工具包:java/Python 先来看 ...
		
						PHP 正则表达式抓取网页内容。
		我想用php抓取爱奇艺生活类型视频网页里面的元素,应该如何去做呢? 首先我要非常熟悉正则表达式,关于正则表达式的学习,我会写一篇博客一直学习的. 直接举例子: 这是一个爱奇艺生活视频的界面的网址 $u ...
		
						Python抓取视频内容
		Python抓取视频内容 Python 是一种面向对象.解释型计算机程序设计语言,由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991年.Python语法简洁而清晰,具 ...
		
						用python+selenium抓取豆瓣读书中最受关注图书并按评分排序
		抓取豆瓣读书中的(http://book.douban.com/)最受关注图书,按照评分排序,并保存至txt文件中,需要抓取书籍的名称,作者,评分,体裁和一句话评 方法一: #coding=utf-8 ...
		
						如何让搜索引擎抓取AJAX内容？  转
		越来越多的网站,开始采用"单页面结构"(Single-page application). 整个网站只有一张网页,采用 Ajax 技术,根据用户的输入,加载不同的内容. 这种做法的 ...
		
						Scrapy 使用CrawlSpider整站抓取文章内容实现
		刚接触Scrapy框架,不是很熟悉,之前用webdriver+selenium实现过头条的抓取,但是感觉对于整站抓取,之前的这种用无GUI的浏览器方式,效率不够高,所以尝试用CrawlSpider来实 ...
		
		
	

随机推荐	

									MySQL命令大全：MySQL常用命令手册、MySQL命令行大全、查询工具
			1.连接Mysql 格式: mysql -h主机地址 -u用户名 -p用户密码 1.连接到本机上的MYSQL.首先打开DOS窗口,然后进入目录mysql\bin,再键入命令mysql -u root  ...
			
						<connectionStrings>    <appSettings>   读取方法
			C#中ConnectionStrings和AppSettings的区别 时间 2013-03-07 15:57:00  博客园精华区 原文  http://www.cnblogs.com/bindot ...
			
						今天开始Swift学习
			今天开始Swift学习  在此记录笔记  以备之后查阅! allenhuang
			
						MaxScale：实现MySQL读写分离与负载均衡的中间件利器
			1. MaxScale 是干什么的? 配置好了 MySQL 的主从复制结构后,我们希望实现读写分离,把读操作分散到从服务器中,并且对多个从服务器能实现负载均衡. 读写分离和负载均衡 是MySQL集群的 ...
			
						Java中ProcessBuilder应用实例
			系列说明 浅析Java.lang.Runtime类 浅析Java.lang.Process类 浅析Java.lang.ProcessBuilder类 可以使用java中的ProcessBuilder执 ...
			
						ssh 配置config 别名
			打开shell 当前用户 cd ~ cd .ssh vim config Host (别名) User root(git)   登陆远程shell的用户 HostName 10.0.0.1 ip地址  ...
			
						python字符串方法的简单使用
			学习python字符串方法的使用,对书中列举的每种方法都做一个试用,将结果记录,方便以后查询. (1) s.capitalize() ;功能:返回字符串的的副本,并将首字母大写.使用如下: >& ...
			
						LabVIEW如何调用C#Winform
			界面交互并不是Labview的强项,使用Labview创建UI时候总会受制于VI有限的控件,有限的皮肤和有限的控件事件.而当需要实现UI的多文档的窗口,窗口的浮动停靠,动画等功能时还需要花很大的功夫. ...
			
						input标签file的value属性IE兼容性问题
			在IE中input标签file的value属性是只读的,不能通过js来改变,如下代码在IE中就是无效的: var input = document.getElementById('file'); in ...
			
						对c++  public、protected、private关键字的理解
			首先要明确一下: 1.这三个关键字在两种地方会用到,一个是对类的成员变量和成员函数修饰时(比如私有的成员变量,受保护的成员变量·,公有的函数),还有一种是对继承方式的修饰(比如公有继承,保护继承).  ...
正则表达式抓取文件内容中的http链接地址

正则表达式抓取文件内容中的http链接地址的更多相关文章

随机推荐

热门专题