使用Jsoup 抓取页面的数据

　需要使用的是jsoup-1.7.3.jar包如果需要看文档我下载请借一步到官网：http://jsoup.org/　　

这里贴一下我用到的 Java工程的测试代码

package com.javen.Jsoup;

import java.io.IOException;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

public class JsoupTest {

    static String url="http://www.cnblogs.com/zyw-205520/archive/2012/12/20/2826402.html";

    /**

     * @param args

     * @throws Exception

     */

    public static void main(String[] args) throws Exception {

        // TODO Auto-generated method stub

        BolgBody();

        //test();

        //Blog();

        /*

         * Document doc = Jsoup.connect("http://www.oschina.net/")

         * .data("query", "Java") // 请求参数 .userAgent("I ’ m jsoup") // 设置

         * User-Agent .cookie("auth", "token") // 设置 cookie .timeout(3000) //

         * 设置连接超时时间 .post();

         */// 使用 POST 方法访问 URL

        /*

         * // 从文件中加载 HTML 文档 File input = new File("D:/test.html"); Document doc

         * = Jsoup.parse(input,"UTF-8","http://www.oschina.net/");

         */

    }

    /**

     * 获取指定HTML 文档指定的body

     * @throws IOException

     */

    private static void BolgBody() throws IOException {

        // 直接从字符串中输入 HTML 文档

        String html = "<html><head><title> 开源中国社区 </title></head>"

                + "<body><p> 这里是 jsoup 项目的相关文章 </p></body></html>";

        Document doc = Jsoup.parse(html);

        System.out.println(doc.body());

        // 从 URL 直接加载 HTML 文档

        Document doc2 = Jsoup.connect(url).get();

        String title = doc2.body().toString();

        System.out.println(title);

    }

    /**

     * 获取博客上的文章标题和链接

     */

    public static void article() {

        Document doc;

        try {

            doc = Jsoup.connect("http://www.cnblogs.com/zyw-205520/").get();

            Elements ListDiv = doc.getElementsByAttributeValue("class","postTitle");

            for (Element element :ListDiv) {

                Elements links = element.getElementsByTag("a");

                for (Element link : links) {

                    String linkHref = link.attr("href");

                    String linkText = link.text().trim();

                    System.out.println(linkHref);

                    System.out.println(linkText);

                }

            }

        } catch (IOException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

    }

    /**

     * 获取指定博客文章的内容

     */

    public static void Blog() {

        Document doc;

        try {

            doc = Jsoup.connect("http://www.cnblogs.com/zyw-205520/archive/2012/12/20/2826402.html").get();

            Elements ListDiv = doc.getElementsByAttributeValue("class","postBody");

            for (Element element :ListDiv) {

                System.out.println(element.html());

            }

        } catch (IOException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

    }

}

下面来介绍android中使用Jsoup异步解析网页的数据 请注意：这里很容易遇到一个乱码的问题

配置文件：AndroidManifest.xml中加权限 <uses-permission android:name="android.permission.INTERNET"></uses-permission>
layout的布局文件

<LinearLayout xmlns:android="http://schemas.android.com/apk/res/android"

    xmlns:tools="http://schemas.android.com/tools"

    android:layout_width="match_parent"

    android:layout_height="match_parent"

    android:orientation="vertical" >

    <WebView

        android:id="@+id/webView"

        android:layout_width="fill_parent"

        android:layout_height="200dp" />

    <ScrollView

        android:layout_width="wrap_content"

        android:layout_height="wrap_content" >

        <TextView

            android:id="@+id/textView"

            android:layout_width="wrap_content"

            android:layout_height="wrap_content"

            android:text="@string/hello_world" />

    </ScrollView>

</LinearLayout>

主要异步加载数据的代码

package com.javen.aaa;

import java.io.BufferedReader;

import java.io.IOException;

import java.io.InputStreamReader;

import java.net.URL;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

import android.app.Activity;

import android.app.Dialog;

import android.app.ProgressDialog;

import android.os.AsyncTask;

import android.os.Bundle;

import android.util.Log;

import android.webkit.WebView;

import android.widget.TextView;

public class MainActivity extends Activity {

    private WebView webView;

    private TextView textView;

    private static final int DIALOG_KEY = ;

    @Override

    protected void onCreate(Bundle savedInstanceState) {

        super.onCreate(savedInstanceState);

        setContentView(R.layout.main);

        webView = (WebView) findViewById(R.id.webView);

        textView=(TextView) findViewById(R.id.textView);

        try {

            ProgressAsyncTask asyncTask=new ProgressAsyncTask(webView,textView);

            asyncTask.execute();

        } catch (Exception e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

    }

    public  String test() {

        StringBuffer buffer=new StringBuffer();

        Document doc;

        try {

            doc = Jsoup.connect("http://www.cnblogs.com/zyw-205520/").get();

            Elements ListDiv = doc.getElementsByAttributeValue("class","postTitle");

            for (Element element :ListDiv) {

                Elements links = element.getElementsByTag("a");

                for (Element link : links) {

                    String linkHref = link.attr("href");

                    String linkText = link.text().trim();

                    buffer.append("linkHref=="+linkHref);

                    buffer.append("linkText=="+linkText);

                    System.out.println(linkHref);

                    System.out.println(linkText);

                }

            }

        } catch (IOException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

        return buffer.toString();

    }

        // 弹出"查看"对话框

        @Override

        protected Dialog onCreateDialog(int id) {

            switch (id) {

            case DIALOG_KEY: {

                ProgressDialog dialog = new ProgressDialog(this);

                dialog.setMessage("获取数据中  请稍候...");

                dialog.setIndeterminate(true);

                dialog.setCancelable(true);

                return dialog;

            }

            }

            return null;

        }

        public static String readHtml(String myurl) {

            StringBuffer sb = new StringBuffer("");

            URL url;

            try {

                url = new URL(myurl);

                BufferedReader br = new BufferedReader(new InputStreamReader(url.openStream(), "gbk"));

                String s = "";

                while ((s = br.readLine()) != null) {

                    sb.append(s + "\r\n");

                }

            } catch (Exception e) {

                e.printStackTrace();

            }

            return sb.toString();

        }

    class ProgressAsyncTask extends AsyncTask<Integer, Integer, String> {

        private WebView webView;

        private TextView textView;

        public ProgressAsyncTask(WebView webView,TextView textView) {

            super();

            this.webView=webView;

            this.textView=textView;

        }

        /**

         * 这里的Integer参数对应AsyncTask中的第一个参数 这里的String返回值对应AsyncTask的第三个参数

         * 该方法并不运行在UI线程当中，主要用于异步操作，所有在该方法中不能对UI当中的空间进行设置和修改

         * 但是可以调用publish Progress方法触发onProgressUpdate对UI进行操作

         */

        @Override

        protected String doInBackground(Integer... params) {

            String str =null;

            Document doc = null;

            try {

//                String url ="http://www.cnblogs.com/zyw-205520/p/3355681.html";

//

//                doc= Jsoup.parse(new URL(url).openStream(),"utf-8", url);

//                //doc = Jsoup.parse(readHtml(url));

//                //doc=Jsoup.connect(url).get();

//                str=doc.body().toString();

                doc = Jsoup.connect("http://www.cnblogs.com/zyw-205520/archive/2012/12/20/2826402.html").get();

                Elements ListDiv = doc.getElementsByAttributeValue("class","postBody");

                for (Element element :ListDiv) {

                    str=element.html();

                    System.out.println(element.html());

                }

                Log.d("doInBackground", str.toString());

                System.out.println(str);

                //你可以试试GBK或UTF-8

            } catch (Exception e) {

                // TODO Auto-generated catch block

                e.printStackTrace();

            }

            return str.toString() ;

            //return test();

        }

        /**

         * 这里的String参数对应AsyncTask中的第三个参数（也就是接收doInBackground的返回值）

         * 在doInBackground方法执行结束之后在运行，并且运行在UI线程当中 可以对UI空间进行设置

         */

        @Override

        protected void onPostExecute(String result) {

            webView.loadData(result, "text/html;charset=utf-8", null);

            textView.setText(result);

            removeDialog(DIALOG_KEY);

        }

        // 该方法运行在UI线程当中,并且运行在UI线程当中 可以对UI空间进行设置

        @Override

        protected void onPreExecute() {

            showDialog(DIALOG_KEY);

        }

        /**

         * 这里的Intege参数对应AsyncTask中的第二个参数

         * 在doInBackground方法当中，，每次调用publishProgress方法都会触发onProgressUpdate执行

         * onProgressUpdate是在UI线程中执行，所有可以对UI空间进行操作

         */

        @Override

        protected void onProgressUpdate(Integer... values) {

        }

    }

}

使用Jsoup 抓取页面的数据的更多相关文章

使用java开源工具httpClient及jsoup抓取解析网页数据
今天做项目的时候遇到这样一个需求,需要在网页上展示今日黄历信息,数据格式如下公历时间:2016年04月11日星期一农历时间:猴年三月初五天干地支:丙申年壬辰月癸亥日宜:求子祈福开光 ...
java Jsoup 抓取页面数据
List<ImageBean> imgList = new ArrayList<ImageBean>(); ImageBean image = null; String ima ...
jsoup抓取网页内容
java项目有时候我们需要别人网页上的数据,怎么办?我们可以借助第三方架包jsou来实现,jsoup的中文文档,那怎么具体的实现呢?那就跟我一步一步来吧最先肯定是要准备好这个第三方架包啦,下载地址, ...
爬虫抓取页面数据原理（php爬虫框架有很多）
爬虫抓取页面数据原理(php爬虫框架有很多 ) 一.总结 1.php爬虫框架有很多,包括很多傻瓜式的软件 2.照以前写过java爬虫的例子来看,真的非常简单,就是一个获取网页数据的类或者方法(这里的话 ...
Jsoup抓取网页数据完成一个简易的Android新闻APP
前言:作为一个篮球迷,每天必刷NBA新闻.用了那么多新闻APP,就想自己能不能也做个简易的新闻APP.于是便使用Jsoup抓取了虎扑NBA新闻的数据,完成了一个简易的新闻APP.虽然没什么技术含量,但 ...
jsoup抓取网页+具体解说
jsoup抓取网页+具体解说 Java 程序在解析 HTML 文档时,相信大家都接触过 htmlparser 这个开源项目.我以前在 IBM DW 上发表过两篇关于 htmlparser 的文章.各自 ...
用PHP抓取页面并分析
在做抓取前,记得把php.ini中的max_execution_time设置的大点,不然会报错的.
使用Office 365抓取PM2.5数据
近日微软发布了Microsoft Flow,一个类似IFTTT自动化任务触发工具.例如,我们可以设置这样一个触发事件和对应的处理过程:当有人在微博上@我的时候,发一封邮件通知我:当我关注的博主有新文章 ...
php抓取页面的几种方式
在做一些天气预报或者RSS订阅的程序时,往往需要抓取非本地文件,一般情况下都是利用php模拟浏览器的访问,通过http请求访问url地址, 然后得到html源代码或者xml数据,得到数据我们不能直接 ...

随机推荐

Java关于链表的增加、删除、获取长度、打印数值的实现
package com.shb.java; public class Demo8 { public Node headNode = null; /** * @param args * @date 20 ...
SQL Server数据库性能优化（二）之索引优化
参考文献 http://isky000.com/database/mysql-performance-tuning-index 原文作者是做mysql 优化的但是我觉得在索引方面 ...
从表中删除重复记录的sql
--有一个表,假设是这样的 CREATE TABLE Test ( field1 ) primary key, field2 )); --假设field1上有索引. 要删除表中所有field1重复的记 ...
Spark分析笔记
前言第一章 Spark简介本章将对Spark做一个介绍,以及它的一些基本概念 Spark是什么? Spark生态系统BDAS Spark架构 Spark分布式与单机多核架构的异同 Spark的企业 ...
echo(),print(),print_r(),var_dump的区别？
常见的输出语句 echo()可以一次输出多个值,多个值之间用逗号分隔.echo是语言结构(language construct),而并不是真正的函数,因此不能作为表达式的一部分使用. print()函 ...
sprint2 项目的粗略展示
C# Cookie工具类
/// <summary> /// Cookies赋值 /// </summary> /// <param name="strName">主键& ...
Temporary ASP.NET 拒绝访问
CS0016: 未能写入输出文件“c:\Windows\Microsoft.NET\Framework\v4.0.30319\Temporary ASP.NET Files\root\dd813f66 ...
linux定时执行任务
(1)Linux下如何定时执行php脚本?(2)Linux下如何设置定时任务?(3)Crontab定时执行程序核心提示:键入 crontab -e 编辑crontab服务文件分为两种情况:(还有一 ...
10-JS数组
数组的定义和创建数组是值得有序集合.JavaScript数组是无类型的. 数组对象的作用是:使用单独的变量名来存储一系列的值. 数组的创建有两种向数组赋值的方法(你可以添加任意多的值,就像你可以定 ...

使用Jsoup 抓取页面的数据

使用Jsoup 抓取页面的数据的更多相关文章

随机推荐

热门专题