jsoup 提取 html 中的所有链接、图片和媒体

原文：http://www.open-open.com/code/view/1420729333515

package org.jsoup.examples;

import org.jsoup.Jsoup;

import org.jsoup.helper.Validate;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

import java.io.IOException;

/**

 * Example program to list links from a URL.

 */

public class ListLinks {

    public static void main(String[] args) throws IOException {

        Validate.isTrue(args.length == 1, "usage: supply url to fetch");

        String url = args[0];

        print("Fetching %s...", url);

        Document doc = Jsoup.connect(url).get();

        Elements links = doc.select("a[href]");

        Elements media = doc.select("[src]");

        Elements imports = doc.select("link[href]");

        print("\\nMedia: (%d)", media.size());

        for (Element src : media) {

            if (src.tagName().equals("img"))

                print(" * %s: <%s> %sx%s (%s)",

                        src.tagName(), src.attr("abs:src"), src.attr("width"), src.attr("height"),

                        trim(src.attr("alt"), 20));

            else

                print(" * %s: <%s>", src.tagName(), src.attr("abs:src"));

        }

        print("\\nImports: (%d)", imports.size());

        for (Element link : imports) {

            print(" * %s <%s> (%s)", link.tagName(),link.attr("abs:href"), link.attr("rel"));

        }

        print("\\nLinks: (%d)", links.size());

        for (Element link : links) {

            print(" * a: <%s>  (%s)", link.attr("abs:href"), trim(link.text(), 35));

        }

    }

    private static void print(String msg, Object... args) {

        System.out.println(String.format(msg, args));

    }

    private static String trim(String s, int width) {

        if (s.length() > width)

            return s.substring(0, width-1) + ".";

        else

            return s;

    }

}

jsoup 提取 html 中的所有链接、图片和媒体的更多相关文章

Java 提取Word中的文本和图片
本文将介绍通过Java来提取或读取Word文档中文本和图片的方法.这里提取文本和图片包括同时提取文档正文当中以及页眉.页脚中的的文本和图片. 使用工具:Free Spire.Doc for Java ...
poi提取docx中的文字和图片
package com.fry.poiDemo.dao; import java.io.File; import java.io.FileInputStream; import java.io.Fil ...
提取WORD中的所有InlineShape图片并保存成文件
InlineShape表示的类型其实不只是图片,还包括OLE, ACTIVE X等. 下面是MSDN中的定义:Represents an object in the text layer of a d ...
使用openxml提取word中的文本和图片并转为Html
使用openxml提取word中的文本和图片使用 openXml 提取 word 中的 Text 和 Drawing 使用 openXml 将 word 中的文本和图片转为Html 使用 openX ...
Jsoup解析Html中文文档
jsoup 简介Java 程序在解析 HTML 文档时,相信大家都接触过 htmlparser 这个开源项目,我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章,分别是:从 HTM ...
（java）Jsoup爬虫学习--获取网页所有的图片，链接和其他信息，并检查url和文本信息
Jsoup爬虫学习--获取网页所有的图片,链接和其他信息,并检查url和文本信息此例将页面图片和url全部输出,重点不太明确,可根据自己的需要输出和截取: import org.jsoup.Jsou ...
[爬虫学习笔记]用于提取网页中所有链接的 Extractor 模块
Extractor的工作是从下载的网页中将它包含的所有URL提取出来.这是个细致的工作,你需要考虑到所有可能的url的样式,比如网页中常常会包含相对路径的url,提取的时候需要将它转换 ...
在线提取PDF中图片和文字
无需下载软件,你就可以在线提取PDF中图片和文字,http://www.extractpdf.com/不仅可以获取本地PDF文档的图片和文字,还能获取远程PDF文档的图片和文字.如下图所示:结果本人测 ...
PHP提取字符串中的图片地址
PHP提取字符串中的图片地址 $str='<p><img border="0" src="upfiles/2009/07/1246430143_1.jp ...

随机推荐

关于Ubuntu上的服务文件
问题发现今天在给ubuntu系统安装ftp服务时,一件奇怪的事引起了我的注意.当我服务安装完成后,想要测试一下是否能控制服务,便输入如下命令: service vsftpd restart 它返回的 ...
Dreamoon and MRT
Dreamoon and MRT 题目链接: http://codeforces.com/group/gRkn7bDfsN/contest/212299/problem/B 只需要考虑相对位置,设a0 ...
【搜索】P1468 派对灯 Party Lamps
P1468 派对灯 Party Lamps 我们来分析一下对灯的操作 1.对所有灯的,这时吧所有灯看成一个整体 2.奇偶数的操作,这时可以把每两个数看成一个循环节 3.对3X+ 1的操作,这时可以把每 ...
二分 || UOJ 148 跳石头
L距离中有n块石头,位置在d[i], 移走m块,使从起点0跳到终点l时,每次跳跃的最小距离最大,求这个最小距离 *解法:想到二分(想不到),对要求的结果进行二分,于是对最小距离二分== #includ ...
ORA-03113: end-of-file on & ORA-07445
--------------ORA-03113: end-of-file on-------------- SQL> show parameter background_dump; NAME T ...
No-7.系统信息相关命令
系统信息相关命令本节内容主要是为了方便通过远程终端维护服务器时,查看服务器上当前系统日期和时间 / 磁盘空间占用情况 / 程序执行情况本小结学习的终端命令基本都是查询命令,通过这些命令对系统资源 ...
android 图片
1,setCompoundDrawables(Drawable left, Drawable top,Drawable right, Drawable bottom) 设置图片出现在textView, ...
Java 垃圾回收机制 (分代垃圾回收ZGC)
什么是自动垃圾回收? 自动垃圾回收是一种在堆内存中找出哪些对象在被使用,还有哪些对象没被使用,并且将后者删掉的机制.所谓使用中的对象(已引用对象),指的是程序中有指针指向的对象:而未使用中的对象(未引 ...
Java 一些常见问题（持续更新）
1. Java 内部类内部类有四种常见的类型:成员内部类.局部内部类.匿名内部类和静态内部类. 1.成员内部类:定义为另一个类的里面如下: class Circle { double radius ...
UVa-1585-得分
#include <stdio.h> #include <string.h> int main() { char s[100]; int T; scanf("%d&q ...

jsoup 提取 html 中的所有链接、图片和媒体

jsoup 提取 html 中的所有链接、图片和媒体的更多相关文章

随机推荐

热门专题