Android Jsoup 爬取网页数据
一不小心一个月又过去了,事实上近期还是小忙小忙的,废话不多说。直接进入今天的主题吧。
Jsoup – Java HTML Parser, with best of DOM, CSS, and jquery.。看这个介绍就知道。这个就是方便咱们 Java 和Android 来解析 HTML 的。
HTML 标签
要去爬别人的 HTML 标签的话,首先你肯定得有一定的 HTML 的基础知识吧。
比方说经常使用的标签。标签的相关属性,这个就不多说了,有相关问题都能够在 www.w3school.com.cn 的站点解决一下。
载入网页
最简单的,直接载入一个网页:
Document document = Jsoup.connect("https://www.google.com").get();
那看到最后的 get() 方法聪明滴你一定就猜到另一个相应的 post() 方法了吧。
另外,http 请求的相关操作都是能够设置的。包括 header 请求參数。请求超时等等。除此之外,本地的文件(IO流)等都是能够直接解析的哈。
Document document = Jsoup.connect("https://android-arsenal.com")
.timeout(5000)
.cookie("cookie", "cxxx")
.header("xx", "xx")
.userAgent("")
.get();
基本标签解析
之后咱们就得到了一个 Document 的对象了。这个对象就是对整个请求网页的封装。相关内容都能够在里面获取。
来吧,增加我们有以下一段html标签须要解析:
A single adapter for the whole project.
- Now you do not need to implement adapters for RecyclerView.
- You can easily use several types of cells in a single list.
- Using this library will protect you from the appearance of any business logic in an adapter.
Mar 17, 2017
<div class="project-info clearfix">
<div class="header">
<div class="title">
<a href="/details/1/5442">RendererRecyclerViewAdapter</a>
<a class="tags" href="/tag/199">Recycler Views</a>
</div>
<a class="badge free" href="/free">Free</a>
<a class="badge new" href="/recent">New</a>
</div>
<div class="desc">
<p>A single adapter for the whole project.</p>
<ul>
<li>Now you do not need to implement adapters for RecyclerView.</li>
<li>You can easily use several types of cells in a single list.</li>
<li>Using this library will protect you from the appearance of any business logic in an adapter.</li>
</ul>
</div>
<div class="ftr l"><i class="fa fa-calendar"></i> Mar 17, 2017</div>
</div>
Jsoup 里面对于标签的寻找使用的方法是 select() 方法。这种方法不要太强大了。咱们一步一步的来。
比方我们要在茫茫标签中找到 <div class="project-info clearfix"> 的话,拿这里就是应该 findElementByClass() ,那么在 Jsoup 中是怎么定义这一块的呢?

哈哈,非常easy嘛,那就是 document.select("div.project-info clearfix") 咯,当然不是这样子的。等等 class 属性里面这个空格是什么意思啊?是不是一脸懵逼?这里终于的写法是 document.select("div.project-info.clearfix") 空格须要用 . 来处理。
Elements select = document.select("div.project-info.clearfix");
这里得到是一个集合。
我们接下来就须要遍历这个集合,然后把里面的每个标签都拔出来。
title 部分的解析,这里是一个 <div> 里面嵌套了一个 <a> 的标签。这里就涉及到了解析 <a> 标签了。这里我们须要相应的 href,也须要相应的 text , Jsoup 提供了相应的两个方法 attr() 和 text() 。
Elements elements = e.select("div.title");
if (!elements.isEmpty()) {
for (Element tittle : elements) {
Element first = tittle.select("a[href]").first();
if (first != null) {
title = first.text();
titleUrl = first.attr("href");
System.out.println("名称:" + title);
System.out.println("详细地址:" + titleUrl);
}
Elements select1 = tittle.select("a.tags");
if (!select1.isEmpty()) {
tag = select1.text();
tagUrl = select1.attr("href");
System.out.println("tags:" + tag);
System.out.println("tagUrl:" + tagUrl);
}
}
}
嵌套解析
到这里。 <div> 和 <a> 标签的介绍基本搞定。接下来就是 <div class="desc"> 的解析了。
<div class="desc">
<p>A single adapter for the whole project.</p>
<ul>
<li>Now you do not need to implement adapters for RecyclerView.</li>
<li>You can easily use several types of cells in a single list.</li>
<li>Using this library will protect you from the appearance of any business logic in an adapter.</li>
</ul>
</div>
这里又多了 <ul> 和 <li> 了。事实上道理是几乎相同的,可是这里它们既没有 class 也没有 id 。那这个我们应该这么去解析呢?
这里还是要回到 select() 方法,这里就须要使用到指定层级的方法了。

Elements select1 = e.select("div.desc > p");
String s = select1.toString();
对于 <dt> <dd> 相关的标签,就能够使用 + 相关的连接符了。比如我想要仅仅解析 Tag 以下的相应的 Tag 名称和相关的 url,这个应该怎么写呢?
<dt>Tag</dt>
<dd><a href="/tag/9">Background Processing</a></dd>
<dt>License</dt>
<dd><a href="http://opensource.org/licenses/Apache-2.0" rel="nofollow" target="_blank">Apache License, Version 2.0</a>
</dd>
代码就是这种,这里一不小心就又引出了 select() 方法的嵌套高级写法。
Elements select4 = element.select("dt:contains(Tag) + dd");

事实上不用太多解释啦。截图里面描写叙述的非常清楚了。最后一个是能够支持正则的匹配。
同级相邻解析
另一种情况就是我们须要的标签没有详细的 id 或者 class,而且它没有直接相应的父标签或者某种固定的嵌套关系,比如以下这种情况:
ImmediateLooperScheduler" data-snippet-id="ext.2bc5ebe9840f0e244465396f590a3cf3" data-snippet-saved="false" data-codota-status="done"><a id="favoriteButton" href="#" class="fa fa-star-o favorite tshadow" title="Add to favorites"></a>
<a href="/details/1/5244">ImmediateLooperScheduler</a> <div id="githubInfoValue">
这里我们仅仅须要解析到第二个
<a>标签,那么须要怎么处理呢?这里就须要使用到nextElementSibling()的方法了。Element ssa = h1.select("a#favoriteButton").first();
Element element = ssa.nextElementSibling();
String title = element.text();
模糊解析
![]()
imageMogr2/auto-orient/strip%7CimageView2/2/w/1240" alt="属性限制.png" title="">
有时候我们仅仅知道这个
<div>是以 什么开头或者是以什么结尾或者又是里面包括了某个单词的,那么这个时候就须要使用模糊查找了。在
Jsoup中定义了这些情况的相关select()写法,当中。以什么开头。是使用a[href^=http],以什么结尾使用a[href$=.jpg],包括什么就是使用a[href*=/search/]。javascript 解析
刚刚说的都是普通标签及其内容,假设我要获取js相关的标签以及内容呢?事实上也不难,仅仅是最后不是使用text()的方法。而是使用data()的方法了。
就是
Jsoup最基本的就是写好这个select()方法,final Elements script = document.select("script"); String js = script.first().data();
相关实战
Android-Arsenal 这个站点不造大家伙儿有听说过没?这里给我们Android开发人员提供了了一个信息交流展示平台。实时更新一些Android相关的App,开发库、以及Demo。然后。我看到它也有自己的client,所以一时好奇也打算下载下来看看。结果,client就是直接载入的网页,关键是广告满天飞。这个就让人不好受了(话说回来,人家不打广告赚点儿钱做这个平台干嘛呢。)
所以灵机一动。为什么我不自己搞一个
Android-Arsenal的client呢?这样方便在手机上看到最新的东西嘛。所以就做了一个client。而使用的就是Jsoup来爬去的相应的网页。然后就把相应ads的标签都过滤了,所以是非常清爽的啦。当然功能也仅仅是先实现了一部分。喜欢的朋友能够点个星星或者下载使用哟。
最后来一波效果图:
项目地址:https://github.com/lovejjfg/Android-Arsenal
![]()
imageMogr2/auto-orient/strip%7CimageView2/2/w/1240" alt="4.jpg" title="">
—- Edit By Joe At 2017 03 18 —-
Android Jsoup 爬取网页数据的更多相关文章
- 使用webdriver+urllib爬取网页数据(模拟登陆,过验证码)
urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...
- python之爬取网页数据总结(一)
今天尝试使用python,爬取网页数据.因为python是新安装好的,所以要正常运行爬取数据的代码需要提前安装插件.分别为requests Beautifulsoup4 lxml 三个插件 ...
- python爬虫——爬取网页数据和解析数据
1.网络爬虫的基本概念 网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序.只要浏览器能够做的事情,原则上,爬虫都能够做到. 2 ...
- Jsoup抓取网页数据完成一个简易的Android新闻APP
前言:作为一个篮球迷,每天必刷NBA新闻.用了那么多新闻APP,就想自己能不能也做个简易的新闻APP.于是便使用Jsoup抓取了虎扑NBA新闻的数据,完成了一个简易的新闻APP.虽然没什么技术含量,但 ...
- 使用 Python 爬取网页数据
1. 使用 urllib.request 获取网页 urllib 是 Python 內建的 HTTP 库, 使用 urllib 可以只需要很简单的步骤就能高效采集数据; 配合 Beautiful 等 ...
- 03:requests与BeautifulSoup结合爬取网页数据应用
1.1 爬虫相关模块命令回顾 1.requests模块 1. pip install requests 2. response = requests.get('http://www.baidu.com ...
- 使用XPath爬取网页数据
我们以我的博客为例,来爬取我所有写过的博客的标题. 首先,打开我的博客页面,右键“检查”开始进行网页分析.我们选中博客标题,再次右键“检查”即可找到标题相应的位置,我们继续点击右键,选择Copy,再点 ...
- Selenium+Tesseract-OCR智能识别验证码爬取网页数据
1.项目需求描述 通过订单号获取某系统内订单的详细数据,不需要账号密码的登录验证,但有图片验证码的动态识别,将获取到的数据存到数据库. 2.整体思路 1.通过Selenium技术,无窗口模式打开浏览器 ...
- 使用puppeteer爬取网页数据实践小结
简单介绍Puppeteer Puppeteer是一个Node库,它通过DevTools协议提供高级API来控制Chrome或Chromium.Puppeteer默认以无头方式运行,但可以配置为有头方式 ...
随机推荐
- 使用 CocoaPods 给微信集成 SDK 打印收发消息
使用 CocoaPods 给微信集成 SDK 打印收发消息 推荐序 本文介绍的是一套逆向工具,可以在非越狱手机上给任意应用增加插件.在文末的示例中,作者拿微信举例,展示出在微信中打印收发消息的功能. ...
- 基于tcpdump的Android智能移动终端数据包捕获完整解决方案
如何在Android智能手机上捕获数据包? 本文由CSDN-蚍蜉撼青松[主页:http://blog.csdn.net/howeverpf]原创,转载请注明出处! 当前Android系统越来越流行,无 ...
- uwsgi -- unavailable modifier requested: 0 -- 的解决办法
nginx 报错 upstream prematurely closed connection while reading response header from upstream 说明是上游服务器 ...
- c与c++相互调用机制分析与实现
c++通常被称为Better c,多数是因为c++程序可以很简单的调用c函数,语法上基本实现兼容.最常用的调用方式就是c++模块调用c实现的dll导出函数,很简单的用法,使用extern " ...
- ffmpeg转码参数设置
ffmpeg用了很久了,也没有想写点什么. 刚接触ffmpeg也是有大量的不理解的地方,不过慢慢的了解多了基本上都是可以使用的. 本文主要介绍如何使用ffmpeg.exe进行转码.编译好的ffmpeg ...
- 大量的源文件添加到Android.mk的问题
LOCAL_PATH := $(call my-dir) include $(CLEAR_VARS) LOCAL_MODULE := game_shared LOCAL_MODULE_FILENAME ...
- Python+SparkStreaming+kafka+写入本地文件案例(可执行)
从kafka中读取指定的topic,根据中间内容的不同,写入不同的文件中. 文件按照日期区分. #!/usr/bin/env python # -*- coding: utf-8 -*- # @Tim ...
- Leetcode:Interleaving String 解题报告
Interleaving StringGiven s1, s2, s3, find whether s3 is formed by the interleaving of s1 and s2. For ...
- Ubuntu 14.04快速搭建SVN服务器及日常使用
1.介绍 Subversion是一个自由,开源的版本控制系统,这个版本库就像一个普通的文件服务器,不同的是,它可以记录每一次文件和目录的修改情况.这样就可以很方面恢复到以前的版本,并可以查看数据更改 ...
- delphi调用webservice (.NET C#版)
uses XMLIntf, XMLDoc; XML to XTR文件转换 .File-->open打开你要分析的XML文件 .在左边选择你要分析的接点,双击加到中间的转换列表中 .Create- ...




