httpclient爬取性感美图

依赖httpclient4.2,Jsop

SemeiziCrawler.java

package kidbei.learn.crawler;

import java.io.File;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.InputStream;

import java.io.OutputStream;

import java.io.StringWriter;

import java.util.ArrayList;

import java.util.Iterator;

import java.util.List;

import org.apache.commons.io.IOUtils;

import org.apache.http.HttpEntity;

import org.apache.http.HttpResponse;

import org.apache.http.client.methods.HttpGet;

import org.apache.http.impl.client.DefaultHttpClient;

import org.apache.http.util.EntityUtils;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

/**

 * http://sejie.wanxun.org/post/2012-09-25/40039413449

 * @author Administrator

 *

 */

public class SemeiziCrawler {

    private static final String BASEHOST = "http://sejie.wanxun.org/";

    private static DefaultHttpClient client = ConnectionManager.getHttpClient();

    static String url = "http://sejie.wanxun.org/post/2012-09-25/40039413449";

    private static String IMGPATH = "D:\\sexpicture\\色戒美眉图"+File.separator+StringUtil.getDate();

    static int STARTPAGE = 1;

    static int PAGECOUNT = 100;

    public static void main(String[] args) {

        File f = new File(IMGPATH);

        if(!f.exists()){

            f.mkdirs();

        }

        String host = BASEHOST ;

        for(int i=STARTPAGE;i<PAGECOUNT;i++){

            if(i != 1){

                host = BASEHOST+"page/"+i;

            }

            System.out.println("进入第"+i+"页");

            String pageContext = getResultByUrl(host);

//          System.out.println(pageContext);

            List<String>articleURLS = getArticleURL(pageContext);

            for(String articleURL:articleURLS){

                String articleContext = getResultByUrl(articleURL);

                List<String> ImgURLS = getImgURLS(articleContext);

                for(String ImgURL:ImgURLS){

                    savepic(ImgURL);

                }

            }

        }

//      String articleContext = getResultByUrl(url);

//      List<String> strs = getImgURLS(articleContext);

//      for(String str:strs){

//          System.out.println(str);

//      }

    }

    /**

     * 根据url获取页面

     * @param url

     * @return

     */

    public static String getResultByUrl(String url){

        System.out.println("打开网页"+url);

        HttpGet get = new HttpGet(url);

        HttpEntity entity = null;

        HttpResponse response = null;

        try {

            response = client.execute(get);

            entity = response.getEntity();

            if(entity != null){

                InputStream is = entity.getContent();

                StringWriter sw = new StringWriter();

                IOUtils.copy(is, sw, "UTF-8");

                is.close();

                sw.close();

                return sw.toString();

            }

        } catch (Exception e) {

            System.out.println("网页打开出错");

            return null;

        }finally{

            get.abort();

            try {

                EntityUtils.consume(entity);

            } catch (IOException e) {

                e.printStackTrace();

            }

        }

        return null;

    }

    /**

     * 找出当前页面中所有帖子的地址

     * @param pageStr  网页字符串

     * @return

     */

    public static List<String> getArticleURL(String pageContext){

        if(pageContext == null){

            return null;

        }

        List<String> articleURLS = new ArrayList<String>();

        System.out.println("寻找帖子...........");

        try {

            Document doc = Jsoup.parseBodyFragment(pageContext);

            Elements es = doc.select("div.post");

            es = es.select("div[class=post-item type-photo]");

            es = es.select("div.meta a:containsOwn(全文)");

            for(Element e:es){

                articleURLS.add(e.attr("href"));

            }

        } catch (Exception e) {

            e.printStackTrace();

            return null;

        }

        return articleURLS;

    }

    /**

     * 获取帖子的图片地址

     * @param articleURLS

     * @return

     */

    public static List<String> getImgURLS(String articleContext){

        List<String>ImgURLS = new ArrayList<String>();

        if(articleContext == null){

            return null;

        }

        System.out.println("获取图片地址-----------");

        Document doc = Jsoup.parse(articleContext);

        Elements es = doc.select("a[target=_blank] img[src]");

         for(Iterator<Element> i=es.iterator();i.hasNext();){

                Element e = i.next();

                ImgURLS.add(e.attr("src"));

             }

        return ImgURLS;

    }

    /**

     * 保存图片

     * @param ImgURL

     */

    public static void savepic(String ImgURL){

        if(ImgURL == null){

            return ;

        }

        HttpGet get = new HttpGet(ImgURL);

        String[] strs = ImgURL.split("/");

        String fileName = strs[strs.length-1];

        String savePath = IMGPATH+File.separator+fileName;

        HttpEntity entity = null;

        try {

            HttpResponse response = client.execute(get);

            entity = response.getEntity();

            System.out.println("保存图片>>>>.>>>>>>"+fileName);

            InputStream is = entity.getContent();

            OutputStream os = new FileOutputStream(savePath);

            IOUtils.copy(is, os);

            IOUtils.closeQuietly(os);

            IOUtils.closeQuietly(is);

        } catch (Exception e) {

            e.printStackTrace();

            System.out.println("图片保存失败");

            return ;

        }

    }

}

StringUtil.java

package kidbei.learn.crawler;

import java.io.File;

import java.text.SimpleDateFormat;

import java.util.Date;

import java.util.Random;

public class StringUtil {

    public static String getRandomString(){

        StringBuffer generateRandStr = new StringBuffer();

        Random rand = new Random();

        int length = 6;

        char ch;

        for(int i=0;i<length;i++)

        {

         int randNum = Math.abs(rand.nextInt())%26+97; // 产生97到122的随机数(a-z的键位值)

            ch = ( char ) randNum;

            generateRandStr.append( ch );

        }

        return generateRandStr.toString();

    }

    public static String getSavePath(String IMGPATH,String fileName){

        SimpleDateFormat sdf = new SimpleDateFormat("yyyyMMdd");

        String date = sdf.format(new Date()).toString();

        if(!(fileName.endsWith(".jpg"))){

            fileName = fileName + ".jpg";

        }

        String randStr = StringUtil.getRandomString();

        return IMGPATH+File.separator+date+File.separator+randStr+fileName;

    }

    public static String getDate(){

        SimpleDateFormat sdf = new SimpleDateFormat("yyyyMMdd");

        return sdf.format(new Date()).toString();

    }

}

ConnectionManager.java

package kidbei.learn.crawler;

import org.apache.http.conn.scheme.PlainSocketFactory;

import org.apache.http.conn.scheme.Scheme;

import org.apache.http.conn.scheme.SchemeRegistry;

import org.apache.http.conn.ssl.SSLSocketFactory;

import org.apache.http.impl.client.DefaultHttpClient;

import org.apache.http.impl.conn.PoolingClientConnectionManager;

import org.apache.http.params.BasicHttpParams;

import org.apache.http.params.CoreConnectionPNames;

import org.apache.http.params.CoreProtocolPNames;

import org.apache.http.params.HttpParams;

public class ConnectionManager {

    static final int TIMEOUT = 20000;//连接超时时间

    static final int SO_TIMEOUT = 20000;//数据传输超时

    static String UA = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1" +

            " (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1";

    public static DefaultHttpClient getHttpClient(){

        SchemeRegistry schemeRegistry = new SchemeRegistry();

        schemeRegistry.register(

                new Scheme("http",80,PlainSocketFactory.getSocketFactory()));

        schemeRegistry.register(

                new Scheme("https", 443, SSLSocketFactory.getSocketFactory()));

        PoolingClientConnectionManager  cm = new PoolingClientConnectionManager(schemeRegistry);

        cm.setMaxTotal(500);

        cm.setDefaultMaxPerRoute(200);

        HttpParams params = new BasicHttpParams();

        params.setParameter(CoreConnectionPNames.CONNECTION_TIMEOUT,TIMEOUT);

        params.setParameter(CoreConnectionPNames.SO_TIMEOUT, SO_TIMEOUT);

        params.setParameter(CoreProtocolPNames.USER_AGENT, UA);

        DefaultHttpClient client = new DefaultHttpClient(cm,params);

        return client;

    }

}

本文转自：http://www.oschina.net/code/snippet_257479_14524#23843

httpclient爬取性感美图的更多相关文章

scrapy实战--爬取最新美剧
现在写一个利用scrapy爬虫框架爬取最新美剧的项目. 准备工作: 目标地址:http://www.meijutt.com/new100.html 爬取项目:美剧名称.状态.电视台.更新时间 1.创建 ...
爬虫实战2：爬头条网美图--Ajax图片加载处理
完整代码经测试可成功运行,目的是抓取头条网输入街拍后的图片,涉及的知识点如下 1. md5加密使用方法方法1:不创建实例对象,直接使用 >>> from hashlib impor ...
Android 性感美图在线浏览APP
周末无聊,遂整理了下近来常用的几个开源库,无意间又发现了一些开放接口,于是乎决定融合在一起,做个简单的"性感美图"浏览的APP,名字呢,就叫"性感沙滩",效果如 ...
Python爬取 | 唯美女生图片
这里只是代码展示,且复制后不能直接运行,需要配置一些设置才行,具体请查看下方链接介绍: Python爬取 | 唯美女生图片 from selenium import webdriver from fa ...
python 爬取天猫美的评论数据
笔者最近迷上了数据挖掘和机器学习,要做数据分析首先得有数据才行.对于我等平民来说,最廉价的获取数据的方法,应该是用爬虫在网络上爬取数据了.本文记录一下笔者爬取天猫某商品的全过程,淘宝上面的店铺也是类似 ...
练习： bs4 简单爬取 + matplotlib 折线图显示（关键词，职位数量、起薪）
要看一种技术在本地的流行程度,最简单的就是找招聘网站按关键词搜索. 比如今天查到的职位数量是vue 1296个,react 1204个,angular 721个.国际上比较流行的是react,本地市场 ...
用python写一个爬虫——爬取性感小姐姐
忍着鼻血写代码今天写一个简单的网上爬虫,爬取一个叫妹子图的网站里面所有妹子的图片. 然后试着先爬取了三页,大概有七百多张图片吧!各个诱人的很,有兴趣的同学可以一起来爬一下,大佬级程序员勿喷,简单爬虫 ...
Scrapy框架学习（四）爬取360摄影美图
我们要爬取的网站为http://image.so.com/z?ch=photography,打开开发者工具,页面往下拉,观察到出现了如图所示Ajax请求, 其中list就是图片的详细信息,接着观察到每 ...
python 爬取京东手机图
初学urllib,高手勿喷... import re import urllib.request #函数:每一页抓取的30张图片 def craw(url,page): imagelist = []# ...

随机推荐

mysql sql维护常用命令
mysql修改表名,列名,列类型,添加表列,删除表列 alter table test rename test1; --修改表名 alter table test add column name v ...
React v16-alpha 从virtual dom 到 dom 源码简读
一.物料准备 1.克隆react源码, github 地址:https://github.com/facebook/react.git 2.安装gulp 3.在react源码根目录下: $npm in ...
iOS 的UIWindow 类研究
今日发现如果想做出漂亮的界面效果,就需要仔细研究一下UIWindow这个类.现在还不清楚为什么要有这么一个UIWindow类,它跟UIView的根本区别是什么?和Android中的什么类比较相像.先做 ...
php5.4.3连接SQLite3
我使用的是WAMP2.2菜单-PHP-PHP extensions勾选php_sqlite3<?php$conn = new SQLite3("c:/wamp/www/test.db& ...
Linux中编译、安装nginx
Nginx ("engine x") 是一个高性能的HTTP和反向代理服务器,也是一个IMAP/POP3/SMTP 代理服务器. Nginx 是由Igor Sysoev为俄罗斯访问 ...
自定义viewgroup实现ArcMenu
最终效果如下实现思路通过效果图,会有几个问题: a.动画效果如何实现可以看出动画是从顶点外外发射的,可能有人说,那还不简单,默认元素都在定点位置,然后TraslateAnimation就好了:这 ...
php 工厂模式
<body> <?php //设计模式:工厂模式 /* class YunSuan { public $a; public $b; function Jia() { return ( ...
Java Hour 44 Hibernate
其实要学习的东西很多,奈何人的精力和时间终归是有限的. 这里先暂且放下struts2 相关的东西,当然这里也先寄存这不少相关的好书,等我来看. 44.1 Hibernate 是一个好项目目标在于成为 ...
mingw64环境搭建
转自:http://www.cr173.com/soft/132367.html MinGW64位版,默认编译出来是64位的,需要编译32位请使用-m32 参数!mingw是一款gnu工具集合是Min ...
分享一款超棒的jQuery旋钮插件 - jQuery knob
转自:http://www.cnblogs.com/gbin1/archive/2012/05/08/2489908.html 在线演示本地下载如果你也在寻找一款生成漂亮旋钮(knob)的jQu ...

httpclient爬取性感美图

httpclient爬取性感美图的更多相关文章

随机推荐

热门专题