Android Studio下的简单网页解析

一.导入数据

导入前添加依赖
implementation 'org.jsoup:jsoup:1.11.3'
使用字符串导入
String html = "<html><head><title>这是一个title</title></head>"
+"<body><p>这里是一个html里的内容</p></body></html>";
Document document = Jsoup.parse(html);
从网址导入

导入okhttp3依赖

dependencies {
implementation fileTree(dir: 'libs', include: ['*.jar'])
implementation 'com.squareup.okhttp3:okhttp:4.6.0'
}

通过URL来获取网页文本数据

public static String getHtml() throws Exception {
OkHttpClient okHttpClient;
okHttpClient=new OkHttpClient();
Request request = new Request.Builder()
// .addHeader() <---在这个里面加Cookie,Host等
.url("https://www.baidu.com")
.build(); Response response = okHttpClient.newCall(request).execute();
String result = response.body().string();
return result; }

然后直接调用

Document document = Jsoup.parse(getHtml());
从文件中导入
String html = ReadFile.readToString("HTML文本.html");
Document document = Jsoup.parse(html);

二.数据解析

将Document类型的数据转化为Element类型
Element mElement = document.body(0);

这句话的意思在document里寻找到 <body> 标签,以Element类型返回里面的内容(包括<body>)

如果你需要获取的数据不存放在<body>里,则使用以下几种

1.getElementsByTag--->通过标签名寻找

例:寻找第一个<table>标签

Element mElement = document.getElementsByTag("table").eq(0).get(0);

2.getElementById--->通过ID寻找

例:寻找id="student"的标签

Element mElement = document.getElementsById("student").get(0);

3.getElementsByClass--->通过Class属性寻找

例:寻找Class="test"的标签

Element mElement = document.getElementsByClass("test").get(0);

4.getElementsByAttributeValue--->通过标签属性寻找

例:寻找Class="test"的标签

Element mElement = document1.getElementsByAttributeValue("Class","test").get(0);

三.数据处理

Element--->String

mElement.text()
//或者↓
mElement.html()

不同的是test返回的是标签里的内容,html返回的是html的格式的文本

例如下面

public static void getStr() throws Exception {
OkHttpClient okHttpClient;
okHttpClient = new OkHttpClient();
Request request = new Request.Builder()
.url("https://www.baidu.com")
.build(); Response response = okHttpClient.newCall(request).execute();
String result = response.body().string();
Document document = Jsoup.parse(result);
String s1 = document.getElementsByTag("noscript").text();
String s2 = document.getElementsByTag("noscript").html(); System.out.println("test()返回的:"+s1+"\n");
System.out.println("html()返回的:"+s2); }

返回的结果:

使用字符串方法来处理数据

字符串切割

String.split("\\s+");

根据下标切割字符串

String.substring(0,string.length()-1);

删除前后空格

String.trim();

字符串的内容替换

String.replace("原来的内容","替换的内容");

字符串类型的转化

int.toString;
//或者↓
String.valueof(int);

判断是否存在特定字

String.contains("特定字");

判断是否为空

String.isEmpty();

Android Studio下的简单网页解析的更多相关文章

  1. Android Studio下导出jar包和aar包

    Android Studio下导出jar包和aar包 jar包和aar包的区别 步骤 1. 创建Android工程 创建工程比较简单,不错复述 2. 创建一个Library(Module) 创建了一个 ...

  2. Android Studio下HierarchyViewer的使用

    什么是HierarchyViewer Hierarchy Viewer是随AndroidSDK发布的工具,位置在tools文件夹下,名为hierarchyviewer.bat.它是Android自带的 ...

  3. Android studio 下 JNI 开发实例

    在AS中进行 NDK 开发之前,我们先来简单的介绍几个大家都容易搞懵的概念: 到底什么是JNI,什么是NDK? 何为“交叉编译”? 先看什么是 JNI?JNI 的全称就是 Java Native In ...

  4. Android Studio下jni应用

    最近在将一个小应用从eclipse开发迁移到android studio,程序中有native代码实现,在eclipse是靠Android.mk这么个mk文件来组织编译的,但到android stud ...

  5. 解决Android Studio下Element layer-list must be declared问题

    近期将一个项目从Eclipse转到Android Studio. 项目中使用了环信demo中的一些xml资源,转换后发现color资源目录下诸如layer-list或者shape等标签报Element ...

  6. Android studio下gradle Robolectric单元测试配置

    android studio下gradle Robolectric单元测试配置 1.Robolectric Robolectric是一个基于junit之上的单元测试框架.它并不依赖于Android提供 ...

  7. Android studio 下JNI编程实例并生成so库

    Android studio 下JNI编程实例并生成so库 因为公司需要为Android相机做美颜等图像后期处理,需要使用JNI编程,最近学了下JNI,并且在Android Studio下实现了一个小 ...

  8. Android Studio下打jar包

    在我们使用Eclipse时,我们常常使用的第三方类库文件大多都是jar包形式,用起来很方便.但是jar包只能打包class文件,对于Android UI类库而言,我们常常需要打包资源文件,对于界面不多 ...

  9. Android Studio下多渠道打包

    Android Studio下实现多渠道打包 直接上步骤 步骤 1. 清单文件添加属性(以友盟统计为例) 在application标签下添加meta-data属性 <application -- ...

随机推荐

  1. 在嵌入式设备中实现webrtc的第三种方式③

    本系列的最后一篇,讲解收发音视频数据. 贴出最终效果: 其实很简单,直接调用writeFrame即可,如下图: 当然,这是部分代码,完整代码在下面,展开可见: 1 #include "com ...

  2. 直播软件开发之Java音视频解决方案:音视频基础知识

    概念 从信息论的观点来看,描述信源的数据是信息和数据冗余之和,即:数据=信息+数据冗余.音频信号在时域和频域上具有相关性,也即存在数据冗余.将音频作为一个信源,音频编码的实质是减少音频中的冗余. 拟信 ...

  3. 用微信小程序做一个小电商 sku

    效果展示图 功能点概述 图一功能点有 搜索 轮播图 商品展示 图二功能点 导航栏 加入购物车 图四功能点 评论点 图五购物车 复选框 ( 全选全不选 ) 即点即改 总计结算 功能详解 1.A(搜索) ...

  4. 10before_request钩子函数

    1,什么是钩子函数? 就是运行别人前都得先运行他: from flask import Flask app = Flask(__name__) @app.route('/') def hello_wo ...

  5. 洛谷 P2018 消息传递

    题目分析 贪心+树形DP 本来还以为要大费周折地换根,然后发现 \(n\) 很小,可以直接 \(O(n^2\log n)\) 枚举. 枚举每个节点作为根,用 \(f_x\) 表示走完以 \(x\) 为 ...

  6. TCP粘包问题的解决方案01——自定义包体

      粘包问题:应用层要发送数据,需要调用write函数将数据发送到套接口发送缓冲区.如果应用层数据大小大于SO_SNDBUF,那么,可能产生这样一种情况,应用层的数据一部分已经被发送了,还有一部分还在 ...

  7. go-zero之web框架

    go-zero 是一个集成了各种工程实践的 web 和 rpc 框架,其中rest是web框架模块,基于Go语言原生的http包进行构建,是一个轻量的,高性能的,功能完整的,简单易用的web框架 服务 ...

  8. 定位一个网络问题引起的ceph异常

    前言 有一个ceph环境出现了异常,状态就是恢复异常的慢,但是所有数据又都在走,只是非常的慢,本篇将记录探测出问题的过程,以便以后处理类似的问题有个思路 处理过程 问题的现象是恢复的很慢,但是除此以外 ...

  9. HDU100题简要题解(2050~2059)

    HDU2050 折线分割平面 题目链接 Problem Description 我们看到过很多直线分割平面的题目,今天的这个题目稍微有些变化,我们要求的是n条折线分割平面的最大数目.比如,一条折线可以 ...

  10. 精益求精!Spring Boot 知识点全面回顾,带你重新细读源码!

    约定优于配置 Build Anything with Spring Boot:Spring Boot is the starting point for building all Spring-bas ...