JAVA爬取百度贴吧图片

package com.wang.xiaowei.utils;

import com.sun.image.codec.jpeg.JPEGCodec;

import com.sun.image.codec.jpeg.JPEGImageEncoder;

import org.apache.http.HttpEntity;

import org.apache.http.client.config.RequestConfig;

import org.apache.http.client.methods.HttpGet;

import org.apache.http.impl.client.CloseableHttpClient;

import org.apache.http.impl.client.HttpClients;

import org.apache.http.util.EntityUtils;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

import javax.imageio.ImageIO;

import java.awt.*;

import java.awt.image.BufferedImage;

import java.io.File;

import java.io.FileOutputStream;

import java.io.InputStream;

import java.io.OutputStream;

import java.net.URL;

import java.text.SimpleDateFormat;

import java.util.Date;

import java.util.HashMap;

import java.util.Map;

import java.util.UUID;

/**

 * @author WXW on 2017/11/22.

 */

public class TieBaImageDownload {

    private static final RequestConfig REQUEST_CONFIG = RequestConfig.custom()

            .setSocketTimeout(15000)

            .setConnectTimeout(15000)

            .setConnectionRequestTimeout(15000)

            .build();

    /**贴吧主路径*/

    private static final String TB_BASE_URL = "https://tieba.baidu.com";

    /**用于存放url*/

    private static Map<String,String> URL_MAP;

    /**图片保存的路径*/

    private static final String IMAGE_SAVE_DIRECT = "E:/baiduimage/";

    /**HttpClient对象*/

    private static CloseableHttpClient httpClient = null;

    /**每页有多少条帖子*/

    private static final int EVERY_PAGE_COUNT_SIZE = 50;

    /**水印图片路径*/

    private static final String WATER_IMAGE_PATH = "E://baiduimage//3.png";

    /**透明度*/

    private static final float WATER_IMAGE_ALPHA = 0.5F;

    /**X间距*/

    private static final int WATER_IMAGE_MARGIN_Y = 100;

    /**Y间距*/

    private static final int WATER_IMAGE_MARGIN_X = 100;

    /**水印图片选中角度*/

    private static final int WATER_IMAGE_RADIANS = 30;

    /**

     * 获取指定贴吧的全部内容

     * @param key 贴吧关键字

     * @param maxPage 最大页码

     * @param onlySeeLz 是否只看楼主

     * @param addWaterImage 是否添加水印

     * @throws Exception e

     */

    public static void getHttpUrl(String key,int maxPage,boolean onlySeeLz,boolean addWaterImage) throws  Exception{

        //初始化httpclient对象

        httpClient = HttpClients.createDefault();

        //开始按照页面爬取内容

        while(maxPage > 0){

            System.out.println("=============正在处理第"+maxPage+"页===================");

            //每页有50条数据

            int pageIndex = (maxPage - 1) * EVERY_PAGE_COUNT_SIZE;

            //路径

            String spaderUrl = TB_BASE_URL + "/f?kw=" + key + "&ie=utf-8&pn="+ pageIndex;

            System.out.println("spaderUrl====    "+spaderUrl);

            String responseContent = getHtmlContent(spaderUrl);

            processHtml(responseContent,onlySeeLz);

            maxPage--;

        }

        httpClient.close();

        downLoadImage(addWaterImage);

    }

    /***

     * 根据url获取页面源码内容

     * @param url url

     * @return 页面源码内容

     * @throws Exception e

     */

    private static String getHtmlContent(String url) throws Exception {

        //get方式获取页面内容

        HttpGet get = new HttpGet(url);

        get.setConfig(REQUEST_CONFIG);

        HttpEntity entity = httpClient.execute(get).getEntity();

        return EntityUtils.toString(entity, "UTF-8");

    }

    /***

     * 处理html内容

     * @param responseContent html内容

     * @param onlySeeLz 是否只看楼主

     * @throws Exception e

     */

    private static void processHtml(String responseContent,boolean onlySeeLz) throws Exception {

        Document doc = Jsoup.parse(responseContent);

        //获取所有 class=j_th_tit 的 a标签;帖子的具体连接

        Elements urls = doc.select("a.j_th_tit");

        for (Element e : urls){

            //帖子标题

            String tText = e.text();

            //帖子连接

            String tUrl = e.attr("href");

            tUrl = TB_BASE_URL + "" + tUrl;

            //只看楼主

            if(onlySeeLz){

                tUrl = tUrl + "?see_lz=1";

            }

            //将获取到的帖子url放入Map

            URL_MAP.put(tText,tUrl);

        }

    }

    /***

     * 获取每个帖子内容中的图片信息

     * @param addWaterImage 是否加水印

     * @throws Exception e

     */

    private static void downLoadImage(boolean addWaterImage) throws Exception {

        for (String str : URL_MAP.values()){

            //帖子的url

            System.out.println("帖子的url===   "+str);

            Document doc = Jsoup.connect(str).get();

            //帖子中 class=img.BDE_Image的元素

            Elements images = doc.select("img.BDE_Image");

            for (Element e : images){

                //获取图片url

                String imageUrl = e.attr("src");

                System.out.println("imageUrl============ "+imageUrl);

                saveImage(imageUrl,addWaterImage);

            }

        }

    }

    /**

     * 将图片保存到本地

     * @param imageUrl imageUrl

     * @param addWaterImage addWaterImage

     * @throws Exception e

     */

    private static void saveImage(String imageUrl,boolean addWaterImage) throws  Exception{

        //每天创建一个目录

        SimpleDateFormat sdf = new SimpleDateFormat("yyyyMMdd");

        String filePath = sdf.format(new Date());

        File imageFile = new File(IMAGE_SAVE_DIRECT+"//"+filePath);

        if(!imageFile.exists()){

            if (imageFile.mkdirs()){

                System.out.println("---------创建目录成功-------------");

            }

        }

        //随机生成图片名称

        String fileName = UUID.randomUUID().toString().replaceAll("-","");

        URL url = new URL(imageUrl);

        InputStream is = url.openStream();

        OutputStream os = new FileOutputStream(IMAGE_SAVE_DIRECT+"//"+filePath + "//" + fileName +".jpg");

        if(addWaterImage){

            addWaterImage(url,os);

        }

        if(!addWaterImage){

            saveImageWithoutWaterImage(is,os);

        }

    }

    private static void saveImageWithoutWaterImage(InputStream is,OutputStream os) throws  Exception{

        byte[] buff = new byte[1024];

        int readed;

        while ((readed = is.read(buff)) != -1) {

            os.write(buff, 0, readed);

        }

        is.close();

        os.close();

    }

    /***

     * 打印水印

     * @param sourceImagePath 原图片路径

     * @param os os

     * @throws Exception e

     */

    private static void addWaterImage(URL sourceImagePath,OutputStream os) throws  Exception{

        //根据图片路径生成图片对象。获取图片的宽度高度

        Image image = ImageIO.read(sourceImagePath);

        int width = image.getWidth(null);

        int height = image.getHeight(null);

        //根据图片的宽高，生成画布，将原图画到画布

        BufferedImage bufferedImage = new BufferedImage(width, height, BufferedImage.TYPE_INT_RGB);

        Graphics2D graphics2d = bufferedImage.createGraphics();

        graphics2d.drawImage(image, 0, 0, width, height, null);

        //水印图片

        Image waterImage = ImageIO.read(new File(WATER_IMAGE_PATH));

        int waterImageWidth = waterImage.getWidth(null);

        int waterImageHeight = waterImage.getHeight(null);

        //水印透明设置

        graphics2d.setComposite(AlphaComposite.getInstance(AlphaComposite.SRC_ATOP, WATER_IMAGE_ALPHA));

        //旋转 rotate(选中度数，圆心x坐标，圆心y坐标)

        graphics2d.rotate(Math.toRadians(WATER_IMAGE_RADIANS), bufferedImage.getWidth()/2, bufferedImage.getHeight()/2);

        // 循环打印水印图片

        int waterImageX = -width / 2;

        while(waterImageX < width * 1.5){

            int waterImageY = -height / 2;

            while(waterImageY < height * 1.5){

                graphics2d.drawImage(waterImage, waterImageX, waterImageY, null);

                waterImageY += waterImageHeight + WATER_IMAGE_MARGIN_Y;

            }

            waterImageX += waterImageWidth + WATER_IMAGE_MARGIN_X;

        }

        graphics2d.dispose();

        //创建图像编码工具类

        JPEGImageEncoder en = JPEGCodec.createJPEGEncoder(os);

        //使用图像编码工具类，输出缓存图像到目标文件

        en.encode(bufferedImage);

        os.close();

    }

    public static void main(String[] args){

        try {

            URL_MAP = new HashMap<>();

            boolean onlySeeLz = true;

            String key = "柳岩";

            int maxPage = 1;

            boolean addWaterImage = true;

            getHttpUrl(key,maxPage,onlySeeLz,addWaterImage);

        } catch (Exception e) {

            e.printStackTrace();

        }

    }

}

JAVA爬取百度贴吧图片的更多相关文章

Java爬取百度图片Google图片Bing图片
先看看抓取的结果. 8个Java类: Startup.java - main函数 ImageCrawler.java - Crawler基类 BaiduImageCrawler.java - 百度图片 ...
Python简易爬虫爬取百度贴吧图片
通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地.(Python版本为3.6.0) 一.获取整个页面数据 def getHtml(url): page=urllib.requ ...
【Python】Python简易爬虫爬取百度贴吧图片
通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地.(Python版本为3.6.0) 一.获取整个页面数据 def getHtml(url): page=urllib.requ ...
java爬取百度首页源代码
爬虫感觉挺有意思的,写一个最简单的抓取百度首页html代码的程序.虽然简单了一点,后期会加深的. package test; import java.io.BufferedReader; import ...
Python: 爬取百度贴吧图片
练习之代码片段,以做备忘: # encoding=utf8 from __future__ import unicode_literals import urllib, urllib2 import ...
Python爬取百度贴吧图片
一.获取URL Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据.首先,我们定义了一个getHtml()函数: urllib.urlopen()方 ...
Python每日一练(3):爬取百度贴吧图片
import requests,re #先把要访问URL和头部准备好 url = 'http://tieba.baidu.com/p/2166231880' head = { 'Accept': '* ...
百度图片爬虫-python版-如何爬取百度图片?
上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...

随机推荐

Maven常用dependency记录
1.servlet配置 <dependency> <groupId>junit</groupId> <artifactId>junit</arti ...
Yii中的CComponent应用实例
首先我们先了解一下如何创建一个CComponent,手册讲述如下: CComponent 是所有组件类的基类. CComponent 实现了定义.使用属性和事件的协议. 属性是通过getter方法或/ ...
ajax思维导图
java.lang.UnsupportedClassVersionError: com/my/test/TestUser : Unsupported major.minor version 52.0
问题原因: 1.执行代码的jdk版本低于编译的jdk版本 2.项目用JDK1.8运行过,现在又在本地的eclipse等开发工具或者本地环境变量为低版本的jdk1.7或者jdk1.6下运行,ecli ...
linux进程原语之fork()
一.用法解析: fork()这个函数,可以说是名如其人了,众所周知fork这个单词本意为叉子,老外取学术名字的时候总会有一些象形的想法,于是就有了下图~ fork()函数是计算机程序设计中的分叉函数. ...
TCP和UDP最完整的区别
TCP与UDP基本区别 1.基于连接与无连接 2.TCP要求系统资源较多,UDP较少: 3.UDP程序结构较简单 4.流模式(TCP)与数据报模式(UDP); 5.TCP保证数据正确性 ...
vij 1097 贪心
合并果子描述在一个果园里,多多已经将所有的果子打了下来,而且按果子的不同种类分成了不同的堆.多多决定把所有的果子合成一堆. 每一次合并,多多可以把两堆果子合并到一起,消耗的体力等于两堆果子的重量之 ...
Mac自带的本地服务器的使用
1. 打开终端,开启Apache: //开启apache: sudo apachectl start //重启apache: sudo apachectl restart //关闭apache: su ...
L1-038 新世界
这道超级简单的题目没有任何输入. 你只需要在第一行中输出程序员钦定名言“Hello World”,并且在第二行中输出更新版的“Hello New World”就可以了. 输入样例: 无输出样例: H ...
Wii Party U 游戏简介

JAVA爬取百度贴吧图片

JAVA爬取百度贴吧图片的更多相关文章

随机推荐

热门专题