【Jsoup爬取网页内容】

思路：根据给定URL分析其源码，得到所需的网页内容的位置，制定规则采集或下载之

采集的图片和文字示例：

tags:
tag:brazil
tag:dog
tag:pet
tag:pointyfaceddog
tag:Pets Around the World
imageUrl:http://farm2.staticflickr.com/1241/1050065123_9739d1283a_z.jpg

：

import java.io.BufferedWriter;

import java.io.File;

import java.io.FileOutputStream;

import java.io.FileWriter;

import java.io.IOException;

import java.io.InputStream;

import java.net.URL;

import java.net.URLConnection;

import org.jsoup.*;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

/**

 * @author ZTX

 * jsoup下载测试

 */

public class TestSoup {

  //待采集网址

    private static String url = "http://www.flickr.com/photos/9339954@N03/1050065123/in/photolist-2AMRM6-3JesJx-4n7zTL-4sVi7P-4t3yt6-4Ay5SR-4SV4Dz-57LhgB-5g78Rp-5huiYa-5jmQqP-5qawPz-5qaAFP-5qeRNy-5qf2gd-5qfdSQ-5qfe33-5qfKSf-5wYskN-5XxHra-5YcEX1-64zW7q-66U2Lp-67nNta-6aJgvN-6eFSCL-6fiVqR-6ghPXc-6nFAhA-6oZZso-6uQTsi-6vizoJ-6Dpn3e-6EuENc-6QK6TG-6Z4BBW-7347jr-7347nt-7347ra-7347ta-754FLt-78SRmT-7jdxPt-7vNc4q-h3h9sV-9JA3zQ-h3oJ39-h3gL6w-hrN3DF-ek7Tkt-9JA8ns";

  //采集的图片存放路径

    private static String imgPath = "./download/img.jpg";

    public static void main(String []args){

        // 采集和下载

	 getHTML(url);

	 downloadImg(getFlickrImgUrl(url),imgPath);

    }

    /**

     * @param url

     * 根据网址采集网页HTML文字内容

     */

    private static void getHTML(String url) {

	// 使用jsoup选择器语法，链接传递过来的url，并赋值给Document

        Document doc;

	try {

	    doc = Jsoup.connect(url).get();

	    Element tagsUL = doc.getElementById("thetags");//tags ul

	    Elements tags =tagsUL.getElementsByTag("li");

	    System.out.println("tags:");

	    for(Element i:tags) {

                 String tag=i.tagName();

                 System.out.println("tag:"+i.text());

	    }

	} catch (IOException e) {

	    e.printStackTrace();

	}

    }

    /**

     * 根据图片网址下载图片

     * 2013-12-15 20:41:54

     * @param realurl

     */

    private static void downloadImg(String imageUrl,String imgPath) {

	try {

	    //下载

	    URL   downloadUrl   =   new   URL( imageUrl);

	    URLConnection   uc   =   downloadUrl.openConnection();

	    InputStream   is   =   uc.getInputStream();

	    File   file   =   new   File( imgPath);

	    FileOutputStream   out   =   new   FileOutputStream(file);

	    int   i=0;

	    while   ((i=is.read())!=-1)   {

	    out.write(i);

	    }

	    is.close();

	} catch (IOException e) {

	    e.printStackTrace();

	}

    }

    /**

     * 根据网址得到图片URL

     * 2013-12-15 20:41:17

     * @param url

     * @return

     * @throws IOException

     */

    private static String getFlickrImgUrl(String url) {

	Document doc = null;

	try {

	    doc = Jsoup.connect(url).get();

	} catch (IOException e) {

	    e.printStackTrace();

	}

	String imageUrl = doc

		.getElementById("main-photo-container")

		.getElementsByTag("img")

		.first()

		.absUrl("src");

	System.out.println("imageUrl:"+imageUrl);

	return imageUrl;

    }

}

【Jsoup爬取网页内容】的更多相关文章

如何使用Jsoup爬取网页内容
前言: 这是一篇迟到很久的文章了,人真的是越来越懒,前一阵用jsoup实现了一个功能,个人觉得和selenium的webdriver原理类似,所以今天正好有时间,就又来更新分享了. 实现场景: 爬取博 ...
java爬取网页内容简单例子（2）——附jsoup的select用法详解
[背景] 在上一篇博文java爬取网页内容简单例子(1)——使用正则表达式里面,介绍了如何使用正则表达式去解析网页的内容,虽然该正则表达式比较通用,但繁琐,代码量多,现实中想要想出一条简单的正则表 ...
java爬虫爬取网页内容前，对网页内容的编码格式进行判断的方式
近日在做爬虫功能,爬取网页内容,然后对内容进行语义分析,最后对网页打标签,从而判断访问该网页的用户的属性. 在爬取内容时,遇到乱码问题.故需对网页内容编码格式做判断,方式大体分为三种:一.从heade ...
Jsoup爬取带登录验证码的网站
今天学完爬虫之后想的爬一下我们学校的教务系统,可是发现登录的时候有验证码.因此研究了Jsoup爬取带验证码的网站: 大体的思路是:(需要注意的是__VIEWSTATE一直变化,所以我们每个页面都需要重 ...
jsoup爬取某网站安全数据
jsoup爬取某网站安全数据 package com.vfsd.net; import java.io.IOException; import java.sql.SQLException; impor ...
java爬虫入门--用jsoup爬取汽车之家的新闻
概述使用jsoup来进行网页数据爬取.jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuer ...
Selenium+PhantomJs 爬取网页内容
利用Selenium和PhantomJs 可以模拟用户操作,爬取大多数的网站.下面以新浪财经为例,我们抓取新浪财经的新闻版块内容. 1.依赖的jar包.我的项目是普通的SSM单间的WEB工程.最后一个 ...
使用Jsoup 爬取网易首页所有的图片
package com.enation.newtest; import java.io.File; import java.io.FileNotFoundException; import java. ...
python的requests模块爬取网页内容
注意:处理需要用户名密码认证的网站,需要auth字段. # -*- coding:utf-8 -*- import requests headers = { "User-Agent" ...

随机推荐

AdaBoost原理，算法实现
前言: 当做重要决定时,大家可能综合考虑多个专家而不是一个人的意见.机器学习处理问题也是如此,这就是元算法背后的思路.元算法是对其他算法进行组合的一种方式,前几天看了一个称作adaboost方法的介绍 ...
GCC选项-Xlinker和-Wl区别
写下给自己备忘,在一次使用GCC的过程中发现了原来传递给链接器ld可以同时使用Xlinker和Wl两种命令,这两个命令都可以正确传递给ld作为使用,现在总结下两者的区别. Xlinker后面跟的参数第 ...
Gtest打桩函数
假设Client的定义如下 class Client { ...... public: virtual bool GetData(std::string& data); ...... }; 我 ...
css sprites精灵技术：Html将所有图片放在一张图片上
使用最近做的某项目常见页面作为联系素材: 分析:1.切图:步骤条可以切成四种图,即黄灰.红黄.红.灰. 2.html:需要五个li标签,每个包含一个图片及文字. 将要取得图片放到同一张图片上,从左到右 ...
转：Ext GridPanel根据条件显示复选框
Ext GridPanel实现复选框选择框: var selectModel = new Ext.grid.CheckboxSelectionModel({ singleSelect : false ...
python消息队列snakemq使用总结
Python 消息队列snakemq总结最近学习消息总线zeromq,在网上搜了python实现的消息总线模块,意外发现有个消息队列snakemq,于是拿来研究一下,感觉还是很不错的,入手简单使用也 ...
趣味C程序100.9 绘制杨辉三角
说明:1.本问题来源于<C语言经典.趣味.实用程序设计编程百例精解>,所有程序为本人自己编写.与原程序不同之处作有标记. 2.本系列所有程序均使用codeblocks编译,操作系统为Win ...
Codeforces Round #Pi (Div. 2)
上次比完赛就准备写了, 结果懒癌发作了, 拖到了现在. Problem_A: 题意: 在一条x轴上有n座城市, 每个城市之间的距离就是它们对应坐标的距离, 现在求出每个城市到其他城市的最近距离和最远距 ...
关于执行ST_Geometry的st_centroid函数时报ORA-28579错误的问题
环境 SDE版本:10./10.2/10.2.1/10.2.2 Oracle版本:11g R2 11.2.0.1 Windows版本:Windows Server 2008 R2 问题描述及原因以全 ...
[CF Round #294 div2] E. A and B and Lecture Rooms 【树上倍增】
题目链接:E. A and B and Lecture Rooms 题目大意给定一颗节点数10^5的树,有10^5个询问,每次询问树上到xi, yi这两个点距离相等的点有多少个. 题目分析若 x= ...

【Jsoup爬取网页内容】

【Jsoup爬取网页内容】的更多相关文章

随机推荐

热门专题