jsoup抓取豆瓣美女

package com.huowolf;

import java.io.BufferedOutputStream;

import java.io.File;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.InputStream;

import java.io.OutputStream;

import java.net.URL;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

public class Demo4 {

	private static final String url = "http://www.dbmeinv.com/?p=";

	private static final String picPath = "d:/picTest";

	private static String USER_AGENT="Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0";

	public static void main(String[] args) {

		System.out.println("下载完的图片位于d:/picTest");

		for (int i = 0; i < 50; i++) {

				try {

				Document doc = Jsoup.connect(url+i).userAgent(USER_AGENT).timeout(3000).data("pager_offset", i+1+"").post();

				Elements img = doc.select("img");

				for (Element ele : img) {

					String src = ele.absUrl("src");

					//System.out.println(src);

					getImage(src);

				}

			} catch (IOException e) {

				e.printStackTrace();

			}

		}

		System.out.println("这些足够多了。");

		System.out.println("图片下载完毕。");

	}

	private static void getImage(String src) {

		int indexName = src.lastIndexOf("/");

		String name = src.substring(indexName, src.length());

		//System.out.println(name);

		InputStream in = null;

		OutputStream out = null;

		try {

			URL url = new URL(src);

			in = url.openStream();

			//创建目录

			File files = new File(picPath);

			if(!files.exists())

				files.mkdirs();

			out = new BufferedOutputStream(new FileOutputStream(files+name));

			for(int b;(b=in.read())!=-1;)

				out.write(b);

		} catch (Exception e) {

			e.printStackTrace();

		}finally{

			try {

				out.close();

				in.close();

			} catch (IOException e) {

				e.printStackTrace();

			}

		}

	}

}

程序已打包，拿去双击就可以执行，下载地址：http://pan.baidu.com/s/1mgKiQiG

执行结果图：

jsoup抓取豆瓣美女的更多相关文章

用python+selenium抓取豆瓣读书中最受关注图书并按评分排序
抓取豆瓣读书中的(http://book.douban.com/)最受关注图书,按照评分排序,并保存至txt文件中,需要抓取书籍的名称,作者,评分,体裁和一句话评方法一: #coding=utf-8 ...
用python+selenium抓取豆瓣电影中的正在热映前12部电影并按评分排序
抓取豆瓣电影(http://movie.douban.com/nowplaying/chengdu/)中的正在热映前12部电影,并按照评分排序,保存至txt文件 #coding=utf-8 from ...
python抓取性感尤物美女图
由于是只用标准库,装了python3运行本代码就能下载到多多的美女图... 写出代码前面部分的时候,我意识到自己的函数设计错了,强忍继续把代码写完. 测试发现速度一般,200K左右的下载速度,也没有很 ...
python2.7抓取豆瓣电影top250
利用python2.7抓取豆瓣电影top250 1.任务说明抓取top100电影名称依次打印输出 2.网页解析要进行网络爬虫,利用工具(如浏览器)查看网页HTML文件的相关内容是很有必要,我使用 ...
Python：python抓取豆瓣电影top250
一直对爬虫感兴趣,学了python后正好看到某篇关于爬取的文章,就心血来潮实战一把吧. 实现目标:抓取豆瓣电影top250,并输出到文件中 1.找到对应的url:https://movie.douba ...
Python小爬虫——抓取豆瓣电影Top250数据
python抓取豆瓣电影Top250数据 1.豆瓣地址:https://movie.douban.com/top250?start=25&filter= 2.主要流程是抓取该网址下的Top25 ...
Python3 抓取豆瓣电影Top250
利用 requests 抓取豆瓣电影 Top 250: import re import requests def main(url): global num headers = {"Use ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
Scrapy爬虫入门系列4抓取豆瓣Top250电影数据
豆瓣有些电影页面需要登录才能查看. 目录 [隐藏] 1 创建工程 2 定义Item 3 编写爬虫(Spider) 4 存储数据 5 配置文件 6 艺搜参考创建工程 scrapy startproj ...

随机推荐

elasticsearch ik中文分词器安装
特殊说明:灰色文字用来辅助理解的. 安装IK中文分词器我在百度上搜索了下,大多介绍的都是用maven打包下载下来的源码,这种方法也行,但是不够方便,为什么这么说? 首先需要安装maven吧?其次需要 ...
Set常用子类特点
HashSet: 重写 hashCode和equals方法特点:无序,唯一底层结构是: ...
PPT文化
PPT文化,yes or no? 知识是有体系的,有的时候刚接触的时候可以推导技术 ,汇报.吹牛都可以应用上,并且可以让别人想想. 但是实际应用技术,就需要涉及很多详细的技术细节,如果少掉一个看似极 ...
GDB 调试PYTHON
http://www.cnblogs.com/dkblog/p/3806277.html
在MyEclipse上安装svn插件
最近需要用到myeclipse做一个商城的项目开发,用svn作为项目的版本控制软件.但是在myeclipse上安装svn插件就是装不好,反复折腾了好几次都安装不成功.网上提供的安装办法有两种,一是:在 ...
ExtJS创建选项卡
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...
【spring cloud】spring cloud zuul 路由网关
GitHub源码地址:https://github.com/AngelSXD/springcloud 版本介绍: <properties> <project.build.source ...
精选 5 个漂亮的 CSS3 图片滑过特效
这篇文章将为大家分享5款漂亮的CSS3图片滑过特效,比如滑过后显示图片的详细文字介绍,又比如滑过后对图片进行淡入淡出的效果等等.让我们一起来看看,喜欢的朋友赶紧收藏. 1.非常酷的CSS3图片说明效果 ...
基于CXF框架下的SOAP Webservice服务端接口开发
最近对webservice 进行入门学习,网上也是找了很多的学习资料.总得感觉就是这了解点,那了解点.感觉不够系统,不够容易入门.差不多断断续续看了一个星期了,今天小有成果,把客户端,服务端都搞定了. ...
使用Adt自带的工具进行Android自己主动化測试（三）
在这个系列的上一篇文章中,我们介绍了MonkeyRunner,并提到假设依据坐标来编写自己主动化脚本的话存在着一定的局限性(点击文末"阅读原文"能够打开这篇文章查看).这篇文章将进 ...

jsoup抓取豆瓣美女

jsoup抓取豆瓣美女的更多相关文章

随机推荐

热门专题