Android Studio下的简单网页解析
Android Studio下的简单网页解析
一.导入数据
导入前添加依赖
implementation 'org.jsoup:jsoup:1.11.3'
使用字符串导入
String html = "<html><head><title>这是一个title</title></head>"
+"<body><p>这里是一个html里的内容</p></body></html>";
Document document = Jsoup.parse(html);
从网址导入
导入okhttp3依赖
dependencies {
implementation fileTree(dir: 'libs', include: ['*.jar'])
implementation 'com.squareup.okhttp3:okhttp:4.6.0'
}
通过URL来获取网页文本数据
public static String getHtml() throws Exception {
OkHttpClient okHttpClient;
okHttpClient=new OkHttpClient();
Request request = new Request.Builder()
// .addHeader() <---在这个里面加Cookie,Host等
.url("https://www.baidu.com")
.build();
Response response = okHttpClient.newCall(request).execute();
String result = response.body().string();
return result;
}
然后直接调用
Document document = Jsoup.parse(getHtml());
从文件中导入
String html = ReadFile.readToString("HTML文本.html");
Document document = Jsoup.parse(html);
二.数据解析
将Document类型的数据转化为Element类型
Element mElement = document.body(0);
这句话的意思在document里寻找到 <body> 标签,以Element类型返回里面的内容(包括<body>)
如果你需要获取的数据不存放在<body>里,则使用以下几种
1.getElementsByTag--->通过标签名寻找
例:寻找第一个<table>标签
Element mElement = document.getElementsByTag("table").eq(0).get(0);
2.getElementById--->通过ID寻找
例:寻找id="student"的标签
Element mElement = document.getElementsById("student").get(0);
3.getElementsByClass--->通过Class属性寻找
例:寻找Class="test"的标签
Element mElement = document.getElementsByClass("test").get(0);
4.getElementsByAttributeValue--->通过标签属性寻找
例:寻找Class="test"的标签
Element mElement = document1.getElementsByAttributeValue("Class","test").get(0);
三.数据处理
Element--->String
mElement.text()
//或者↓
mElement.html()
不同的是test返回的是标签里的内容,html返回的是html的格式的文本
例如下面
public static void getStr() throws Exception {
OkHttpClient okHttpClient;
okHttpClient = new OkHttpClient();
Request request = new Request.Builder()
.url("https://www.baidu.com")
.build();
Response response = okHttpClient.newCall(request).execute();
String result = response.body().string();
Document document = Jsoup.parse(result);
String s1 = document.getElementsByTag("noscript").text();
String s2 = document.getElementsByTag("noscript").html();
System.out.println("test()返回的:"+s1+"\n");
System.out.println("html()返回的:"+s2);
}
返回的结果:

使用字符串方法来处理数据
字符串切割
String.split("\\s+");
根据下标切割字符串
String.substring(0,string.length()-1);
删除前后空格
String.trim();
字符串的内容替换
String.replace("原来的内容","替换的内容");
字符串类型的转化
int.toString;
//或者↓
String.valueof(int);
判断是否存在特定字
String.contains("特定字");
判断是否为空
String.isEmpty();
Android Studio下的简单网页解析的更多相关文章
- Android Studio下导出jar包和aar包
Android Studio下导出jar包和aar包 jar包和aar包的区别 步骤 1. 创建Android工程 创建工程比较简单,不错复述 2. 创建一个Library(Module) 创建了一个 ...
- Android Studio下HierarchyViewer的使用
什么是HierarchyViewer Hierarchy Viewer是随AndroidSDK发布的工具,位置在tools文件夹下,名为hierarchyviewer.bat.它是Android自带的 ...
- Android studio 下 JNI 开发实例
在AS中进行 NDK 开发之前,我们先来简单的介绍几个大家都容易搞懵的概念: 到底什么是JNI,什么是NDK? 何为“交叉编译”? 先看什么是 JNI?JNI 的全称就是 Java Native In ...
- Android Studio下jni应用
最近在将一个小应用从eclipse开发迁移到android studio,程序中有native代码实现,在eclipse是靠Android.mk这么个mk文件来组织编译的,但到android stud ...
- 解决Android Studio下Element layer-list must be declared问题
近期将一个项目从Eclipse转到Android Studio. 项目中使用了环信demo中的一些xml资源,转换后发现color资源目录下诸如layer-list或者shape等标签报Element ...
- Android studio下gradle Robolectric单元测试配置
android studio下gradle Robolectric单元测试配置 1.Robolectric Robolectric是一个基于junit之上的单元测试框架.它并不依赖于Android提供 ...
- Android studio 下JNI编程实例并生成so库
Android studio 下JNI编程实例并生成so库 因为公司需要为Android相机做美颜等图像后期处理,需要使用JNI编程,最近学了下JNI,并且在Android Studio下实现了一个小 ...
- Android Studio下打jar包
在我们使用Eclipse时,我们常常使用的第三方类库文件大多都是jar包形式,用起来很方便.但是jar包只能打包class文件,对于Android UI类库而言,我们常常需要打包资源文件,对于界面不多 ...
- Android Studio下多渠道打包
Android Studio下实现多渠道打包 直接上步骤 步骤 1. 清单文件添加属性(以友盟统计为例) 在application标签下添加meta-data属性 <application -- ...
随机推荐
- Linux 系统编程 学习:06-基于socket的网络编程1:有关概念
Linux 系统编程 学习:006-基于socket的网络编程1:有关概念 背景 上一讲 进程间通信:System V IPC(2)中,我们介绍了System IPC中关于信号量的概念,以及如何使用. ...
- GANSS 87C键盘在Linux无法正常使用的解决办法
前几天在狗东入手可以一把GANSS的87C键盘,满心欢喜拆开来用却发现在开发电脑(Deepin和ubuntu)上F1-F12都不能正常使用,这对一个搞web开发的人来说,无疑是要了我的老命,无奈找各种 ...
- CI框架导入 excel
整合PHP Excel和PHPexcelReader到 librarys下面 两个excel整合成一个excel <?php class Excel extends Control ...
- Inception系列之Batch-Normalization
训练深度神经网络非常复杂,因为在训练过程中,随着先前各层的参数发生变化,各层输入的分布也会发生变化,图层输入分布的变化带来了一个问题,因为图层需要不断适应新的分布,因此训练变得复杂,随着网络变得更深, ...
- ImpalaTest
package com.niewj.demo; import java.sql.Connection; import java.sql.DriverManager; import java.sql.R ...
- CSS浮动好文章
http://www.cnblogs.com/iyangyuan/archive/2013/03/27/2983813.html 看完上面这篇文章,我哭了.写的真好,我这块更菜.
- UNP——第四章,TCP套接字编程
1.socket 函数 首先被调用的函数,用于选择通信协议. socket调用成功后,得到的套接字为主动套接字CLOSED状态. PF 和 AF 的关系 PF的是协议族,AF是地址族,理论上一个PF包 ...
- sql sever 2008基础知识
下面是一些总结,如果执行时发现错误,可以查看错误消息进行解决,也可上网查资料 数据库的组成: 主数据文件:有且只有一个,扩展名为.mdf. 次数据文件:可以没有,也可以有任意个.扩展名为.ndf. 日 ...
- linux之NTP服务
1. NTP服务(网络时间协议) Network Time Protocol(NTP)是用来使计算机时间同步化的一种协议,它可以提供高精准度的时间校正(LAN上与标准间差小于1毫秒,WAN上几十毫秒) ...
- windows下命令行设置静态IP
windows 10 预览版出现无法设置静态IP的bug,只能通过命令行进行设置,开启powershell,然后执行下列的命令即可 下面的"以太网 3" 为你设置的网卡的网卡名称, ...