Jsoup解析获取品花社图片

emmmm,闲着没事,想起了之前一个学长做的品花社的APP,刚好之前有了解Jsoup这个Java解析HTML的库,便花了三四个小时写了这个东西,把网站上大大小小的MM的图片都一股脑的爬到本地并做了简单的分装。

项目只是学习一下Jsoup的使用和网页解析相关知识,没其他意思。

全部的图片体积大概会是4个多G,修改代码里的MAX_PAGES_NUM变量值即可。

项目地址:https://github.com/Ganart/SpiderMM36D

关于品花社是什么,自己点进去看吧:http://www.mm36d.com/

结果看图吧:

代码在这儿:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.*;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;

public class SpiderMM36D {

    static class SmallImg {
        String id;
        String url;
    }
    //截止到2018年6月21,这个值最大为102,
    static int MAX_APGES_NUM = 1;
    static String url = "http://www.mm36d.com/home/0/";
    //eg:http://www.mm36d.com/belle/0/0/id/2
    static String detailUrl = "http://www.mm36d.com/belle/0/0/";
    static List<String> oneMMDetailUrls = new ArrayList<>();
    static List<SmallImg> allImgObjects = new ArrayList<>();

    public static void main(String[] args) throws IOException {

        for (int i =1; i<=MAX_APGES_NUM;i++){
            gainOnePageElement(i);
        }
        System.out.println("完成图片链接解析,开始下载图片");
        for (int i=0;i<allImgObjects.size();i++){
            downloadSmallImg(allImgObjects.get(i));
            System.out.println("任务进度:"+((float)(i+1)/allImgObjects.size()));
        }

    }

    //获取小图
    public static void gainOnePageElement(int index){
        Document document = null;
        Elements elements = null;
        try {
            document = Jsoup.connect(url+index).get();
            if (document != null) {
                elements = document.getElementsByClass("re-size1-img");
                for (Element element:elements){
                    allImgObjects.add
                            (subMMImgUrl(element.getElementsByTag("img").toString()));
                }
            }
        } catch (IOException e) {
            e.printStackTrace();
        }finally {
            document = null;
            elements = null;
        }
    }

    //剪辑出图片的URL和id
    public static SmallImg subMMImgUrl(String tag){
        String head = "<img class=\"lazy\" data-original=\"";
        String withoutHead = tag.substring(head.length());
        String cleanUrl = withoutHead.substring(0,withoutHead.indexOf("\""));
        SmallImg smallImg = new SmallImg();
        smallImg.url = cleanUrl;
        String id = tag.substring(tag.indexOf("(")+1,tag.indexOf(")"));
        smallImg.id = id;
        return smallImg;
    }

    //剪辑出图片的url
    public static String subDetailImgUlr(String tag){
        String head = "<img class=\"lazy\" data-original=\"";
        String withoutHead = tag.substring(head.length());
        String cleanUrl = withoutHead.substring(0,withoutHead.indexOf("\""));
        return cleanUrl;
    }

    //下载小图
    public static void downloadSmallImg(SmallImg smallImg){
        if (smallImg.url.equals("")){
            return;
        }
        try {
            URL imgUrl = new URL(smallImg.url);
            String url = smallImg.url;
            BufferedInputStream bis = new BufferedInputStream
                    (imgUrl.openConnection().getInputStream());
            byte[] imgArray = new byte[2048*2048];
            int len = 0;
            File file = new File("E:\\SpiderMM36D\\mmImgs\\"+smallImg.id);
            file.mkdir();
            BufferedOutputStream bos =
                    new BufferedOutputStream
                            (new FileOutputStream(file.getAbsolutePath()+"\\"
                                    +smallImg.id+url.substring(url.lastIndexOf("."))));
            while ((len=bis.read(imgArray))!=-1){
                bos.write(imgArray,0,len);
            }
            bos.flush();
            bos.close();
            bis.close();
            gainDetailPageElement(smallImg.id);
            oneMMDetailUrls.clear();
        } catch (MalformedURLException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    //下载大图
    public static void downloadBigImg(String id,String picUrl,int i){
        if (picUrl.equals("")){
            return;
        }
        try {
            URL imgUrl = new URL(picUrl);
            BufferedInputStream bis = new BufferedInputStream
                    (imgUrl.openConnection().getInputStream());
            byte[] imgArray = new byte[4096*4096];
            int len = 0;
            File file = new File("E:\\SpiderMM36D\\mmImgs\\"+id);
            file.mkdir();
            BufferedOutputStream bos =
                    new BufferedOutputStream
                            (new FileOutputStream
                                    (file.getAbsolutePath()+"\\"+id+"_"+i+
                                            picUrl.substring(picUrl.lastIndexOf("."))));
            while ((len=bis.read(imgArray))!=-1){
                bos.write(imgArray,0,len);
            }
            bos.flush();
            bos.close();
            bis.close();
        } catch (MalformedURLException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    //每个MM对应的详情页
    public static void gainDetailPageElement(String id){
        Document document = null;
        Elements elements = null;
        try {
            document = Jsoup.connect(detailUrl+id+"/2").get();
            if (document != null) {
                elements = document.getElementsByClass("re-sizemm");
                for (Element element:elements){
                    oneMMDetailUrls.add
                            (subDetailImgUlr
                                    (element.getElementsByTag
                                            ("img").toString()));
                }
                for (int j = 0;j<oneMMDetailUrls.size();j++){
                    downloadBigImg(id,oneMMDetailUrls.get(j),j);
                }
            }
        } catch (IOException e) {
            e.printStackTrace();
        }finally {
            document = null;
            elements = null;
        }
    }

}

Jsoup解析获取品花社图片的更多相关文章

  1. Java解析word,获取文档中图片位置

    前言(背景介绍): Apache POI是Apache基金会下一个开源的项目,用来处理office系列的文档,能够创建和解析word.excel.ppt格式的文档. 其中对word文档的处理有两个技术 ...

  2. (java)Jsoup爬虫学习--获取网页所有的图片,链接和其他信息,并检查url和文本信息

    Jsoup爬虫学习--获取网页所有的图片,链接和其他信息,并检查url和文本信息 此例将页面图片和url全部输出,重点不太明确,可根据自己的需要输出和截取: import org.jsoup.Jsou ...

  3. [java] jsoup 解析网页获取省市区域信息

    到国家统计局抓取数据, 到该class下解析数据 /** * jsoup解析网页 * @author xwolf * @date 2016-12-13 18:11 * @since V1.0.0 */ ...

  4. Jsoup问题---获取http协议请求失败 org.jsoup.UnsupportedMimeTypeException: Unhandled content type. Must be text/*, application/xml, or application/xhtml+xml.

    Jsoup问题---获取http协议请求失败 1.问题:用Jsoup在获取一些网站的数据时,起初获取很顺利,但是在访问某浪的数据是Jsoup报错,应该是请求头里面的请求类型(ContextType)不 ...

  5. Android利用Jsoup解析html 开发网站客户端小记。

    这些天业余时间比较多,闲来无事,想起了以前看过开发任意网站客户端的一篇文章,就是利用jsoup解析网站网页,通过标签获取想要的内容.好了废话不多说,用到的工具为 jsoup-1.7.2.jar包,具体 ...

  6. jsoup解析HTML及简单实例

    jsoup 中文参考文献    http://www.open-open.com/jsoup/ 本文将利用jsoup,简单实现网络抓取的功能,并给出一个小实例,该实例效果为:获取作者本人在博客园写的所 ...

  7. jsoup解析HTML

    Connection conn = Jsoup.connect(String url); conn.data("txtBill", key);// 设置关键字查询字段 Docume ...

  8. 一步步教你为网站开发Android客户端---HttpWatch抓包,HttpClient模拟POST请求,Jsoup解析HTML代码,动态更新ListView

    本文面向Android初级开发者,有一定的Java和Android知识即可. 文章覆盖知识点:HttpWatch抓包,HttpClient模拟POST请求,Jsoup解析HTML代码,动态更新List ...

  9. Jsoup 解析 HTML

    Jsoup 文档 方法 要取得一个属性的值,可以使用Node.attr(String key) 方法 对于一个元素中的文本,可以使用Element.text()方法 对于要取得元素或属性中的HTML内 ...

随机推荐

  1. 深入理解 Java 多线程核心知识

    多线程相对于其他 Java 知识点来讲,有一定的学习门槛,并且了解起来比较费劲.在平时工作中如若使用不当会出现数据错乱.执行效率低(还不如单线程去运行)或者死锁程序挂掉等等问题,所以掌握了解多线程至关 ...

  2. 外网访问内网MariaDB数据库

    外网访问本地MariaDB数据库 本地安装了MariaDB数据库,只能在局域网内访问,怎样从公网也能访问内网MariaDB数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动Mar ...

  3. Jenkins 配置git

    点击"新建任务"创建一个自用风格的项目 点击"源码管理",选择 git 系统管理 --> Global Tool Configuration<为访问 ...

  4. Xgboost_sklearn代码Demo

    Demo: 显示特征的重要程度:图形化展示: from numpy import loadtxt from xgboost import XGBClassifier from xgboost impo ...

  5. MQ(队列消息的入门)

    消息中间件利用高效可靠的消息传递机制进行平台无关的数据交流,并基于数据通信来进行分布式系统的集成,通过提供消息传递和消息排队模型,它可以在分布式环境下拓展进程间的通信,对于消息中间件,常见的角色大致也 ...

  6. flutter packages.

    connectivity This plugin allows Flutter apps to discover network connectivity and configure themselv ...

  7. OpenCV自带dnn的Example研究(2)— colorization

    这个博客系列,简单来说,今天我们就是要研究 6个文件,看看在最新的OpenCV中,它们是如何发挥作用的. 在配置使用的过程中,需要注意使用较高版本的VS避免编译器兼容问题:由于DNN程序的运行依赖于训 ...

  8. 图像旋转、伸缩的自写matlab实现

    一.图像的旋转 今天的代码不是自己写的,缺少一些时间.但是认认真真推导了一下旋转的公式,代码的思想与原博博主一致,致敬! 愚以为,自己来实现图像旋转算法的关键点有二:其一,确定旋转后的图像边界.其二, ...

  9. Client not ready yet.....

    提示Client not ready yet.....程序安装上就提示停止了 Logcat无提示 只有run里边提示  Client not ready yet....... 我尝试了  Clean ...

  10. 2019充值新骗局手游折扣App靠谱程度一览表

    随着互联网的快速发展,游戏产业也迎来了盛开的春天.特别是进入网络游戏时代后,来自世界各地的朋友,甚至来自地球村的朋友一起玩游戏.在这个阶段,游戏制作者还专注于设计副本,活动,皮肤和充值.无论你是否关心 ...