（java）Jsoup爬虫学习--获取网页所有的图片，链接和其他信息，并检查url和文本信息

Jsoup爬虫学习--获取网页所有的图片，链接和其他信息，并检查url和文本信息

此例将页面图片和url全部输出，重点不太明确，可根据自己的需要输出和截取；

import org.jsoup.Jsoup;

import org.jsoup.helper.Validate;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

import java.io.IOException;

public class ListLinks {

    public static void main(String[] args) throws IOException {

        //将url赋值，初始化

        String url = "http://news.ycombinator.com/";

        print("url is %s...", url);

        //获取页面内容

        Document doc = Jsoup.connect(url).get();

        //将a标签下的href元素取出

        Elements links = doc.select("a[href]");

        //将含src的元素取出 例如：src="s.gif"

        Elements media = doc.select("[src]");

        //将link标签下的href元素取出

        Elements imports = doc.select("link[href]");

        //输出含src的元素的个数

        print("\nMedia: (%d)", media.size());

        for (Element src : media) {

            //将tagname为img标签的取出，并输出

            if (src.tagName().equals("img"))

                //第一个为tagname,输出的为img标签；第二个为src等于号后面的参数值，为此处为url网址，第三个为图片宽，第四个为图片高，第五个为alt的参数值，此例为空

                print(" * %s: <%s> %sx%s (%s)",

                        src.tagName(), src.attr("abs:src"), src.attr("width"), src.attr("height"),

                        trim(src.attr("alt"), 20));

            else

                //若tagname不为img，则仅输出三项内容

                print(" * %s: <%s>", src.tagName(), src.attr("abs:src"));

        }

        //输出含link>href元素的个数

        print("\nImports: (%d)", imports.size());

        //循环每个link>href元素

        for (Element link : imports) {

            //第一个为tagname,输出的为link标签；第二个为href等于号后面的参数值，为此处为url网址;第三个为rel等号后面的参数值

            print(" * %s <%s> (%s)", link.tagName(),link.attr("abs:href"), link.attr("rel"));

        }

        //输出含a>href元素的个数

        print("\nLinks: (%d)", links.size());

        for (Element link : links) {

            //第一个为tagname,输出的为a标签；第二个为href等于号后面的参数值，为此处为url网址;第三个为link标签含的文本值，若超过35个字符则，截取前35个字符

            print(" * a: <%s>  (%s)", link.attr("abs:href"), trim(link.text(), 35));

        }

    }

    //重写print

    private static void print(String msg, Object... args) {

        System.out.println(String.format(msg, args));

    }

    //重写trim

    private static String trim(String s, int width) {

        if (s.length() > width)

            return s.substring(0, width-1) + ".";

        else

            return s;

    }

}

此处还用到了java占位符：

int year=2017;
int month=6;
int day=1;</P>
String str=String.format("今天是%d年%d月%d日，祝大家儿童节快乐！！！",
year, month, day);

代码中的String.format方法，用来使用占位符拼接字符串数据，具有类型效果的还有用于打印的：
System.out.printf("format string", Object...args)

其中的 %d 就表示一个十进制整数位置，这个位置会由后面参数补充后组成新的字符串

以下是所有的占位符及简要说明：
%s 字符串
%c 字符
%d 整数(十进制)
%x 整数(十六进制)
%o 整数(八进制)
%f 浮点型(十进制)
%a 浮点型(十六进制)
%e 指数类型9.38e+5
%g 通用浮点类型(f和e类型中较短的)
%n 换行\r\n
%% 百分号%

%tF 日期2017-05-09
%tT 时间08:52:59
%tA 星期一
%tZ 区时CTS
%tz 区时+0800
%tY 年份2017
%ty 年份17
%tm 月份05
%td 日期09
%tH 小时08
%tM 分钟52
%tS 秒钟59
%tL 毫秒999

（java）Jsoup爬虫学习--获取网页所有的图片，链接和其他信息，并检查url和文本信息的更多相关文章

（java）Jsoup爬虫学习--获取智联招聘（老网站）的全国java职位信息，爬取10页
Jsoup爬虫学习--获取智联招聘(老网站)的全国java职位信息,爬取10页,输出职位名称*****公司名称*****职位月薪*****工作地点*****发布日期 import java.io.I ...
Python爬虫学习——获取网页
通过GET请求获取返回的网页,其中加入了User-agent信息,不然会抛出"HTTP Error 403: Forbidden"异常, 因为有些网站为了防止这种没有User-ag ...
【Python项目】简单爬虫批量获取资源网站的下载链接
简单爬虫批量获取资源网站的下载链接项目链接:https://github.com/RealIvyWong/GotDownloadURL 1 由来自己在收集剧集资源的时候,这些网站的下载链接还要手动 ...
简单的Java网络爬虫（获取一个网页中的邮箱）
import java.io.BufferedReader; import java.io.FileNotFoundException; import java.io.FileReader; impo ...
Java 中利用正则表达式获取网页图片
import java.io.File;import java.io.FileOutputStream;import java.io.InputStream;import java.net.URL;i ...
Java jsoup获取网页中的图片
获取图片 package com.vfsd.net; import java.io.File; import java.io.FileOutputStream; import java.io.IOEx ...
java爬虫HttpURLConnect获取网页源码
public abstract class HttpsURLConnection extends HttpURLConnection HttpsURLConnection 扩展 HttpURLConn ...
爬虫学习--Day4(网页采集器的实现)
#UA: User-Agent {请求载体的身份标识}#(反爬机制)UA检测:门户网站的服务器回检测对应请求的载体身份标识,如果检测到请求的载体身份为某一款浏览器就说明该请求时一个正常的请求.但是,如 ...
爬虫学习----获取cookie
http://blog.csdn.net/samxx8/article/details/21535901 1.获取cookie import urllib import http.cookiejarc ...

随机推荐

AppCrawler安装使用
百度网盘: https://pan.baidu.com/s/1bpmR3eJ mac下安装appium 真机或者模拟器均可. 确保adb devices可以看到就行启动appium 启动appium ...
[转帖]Redis性能解析--Redis为什么那么快？
Redis性能解析--Redis为什么那么快? https://www.cnblogs.com/xlecho/p/11832118.html echo编辑整理,欢迎转载,转载请声明文章来源.欢迎添加e ...
【转帖】处理器史话 | 当Power架构的发展之路遭遇“滑铁卢”
处理器史话 | 当Power架构的发展之路遭遇“滑铁卢” https://www.eefocus.com/mcu-dsp/366740 (8)Power8:决定了 Power 平台的未来发展 2014 ...
Java开发笔记（一百四十）JavaFX的选择框
与Swing一样,JavaFX依然提供了三种选择框,它们是复选框CheckBox.单选按钮RadioButton.下拉框ComboBox,分别说明如下: 一.复选框CheckBox复选框允许同时勾选多 ...
Python基础 — eval 函数的作用
eval函数就是实现list.dict.tuple与str之间的相互转化str函数把list,dict,tuple转为为字符串 # 字符串转换成列表a = "[[1,2], [3,4], [ ...
robotFramework_Jquery语法
向您的页面添加 jQuery 库 jQuery 库位于一个 JavaScript 文件中,其中包含了所有的 jQuery 函数.那么我们怎么判断页面中是否使用了Jquery库呢? 如下图,当页面中引入 ...
[LOJ2002] [SDOI2017] 序列计数
题目链接 LOJ:https://loj.ac/problem/2002 洛谷:https://www.luogu.org/problemnew/show/P3702 Solution 考虑补集转换, ...
[洛谷P5431]【模板】乘法逆元2
题目大意:给定$n(n\leqslant5\times10^6)$个正整数$a_i$,和$k$.求:$$\sum_{i=1}^n\dfrac{k^i}{a_i}\pmod p$$题解:$$令P=\pr ...
redis GEO的使用
一.概念 redis的GEO特性在Redis3.2版本发布,这个功能可以将用户给定的地理位置信息储存起来,并对这些信息进行操作. GEO常用语LBS(Location Based Service),基 ...
Web SSH远程连接利器:gotty
Web SSH远程连接利器:gotty 这个东东能让你使用浏览器连接你远程的机器! 一. 环境准备下载https://github.com/yudai/gotty. 请先配置好 Golang 环境, ...

（java）Jsoup爬虫学习--获取网页所有的图片，链接和其他信息，并检查url和文本信息

（java）Jsoup爬虫学习--获取网页所有的图片，链接和其他信息，并检查url和文本信息的更多相关文章

随机推荐

热门专题