jsoup抓取豆瓣美女

package com.huowolf;

import java.io.BufferedOutputStream;

import java.io.File;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.InputStream;

import java.io.OutputStream;

import java.net.URL;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

public class Demo4 {

	private static final String url = "http://www.dbmeinv.com/?p=";

	private static final String picPath = "d:/picTest";

	private static String USER_AGENT="Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0";

	public static void main(String[] args) {

		System.out.println("下载完的图片位于d:/picTest");

		for (int i = 0; i < 50; i++) {

				try {

				Document doc = Jsoup.connect(url+i).userAgent(USER_AGENT).timeout(3000).data("pager_offset", i+1+"").post();

				Elements img = doc.select("img");

				for (Element ele : img) {

					String src = ele.absUrl("src");

					//System.out.println(src);

					getImage(src);

				}

			} catch (IOException e) {

				e.printStackTrace();

			}

		}

		System.out.println("这些足够多了。");

		System.out.println("图片下载完毕。");

	}

	private static void getImage(String src) {

		int indexName = src.lastIndexOf("/");

		String name = src.substring(indexName, src.length());

		//System.out.println(name);

		InputStream in = null;

		OutputStream out = null;

		try {

			URL url = new URL(src);

			in = url.openStream();

			//创建目录

			File files = new File(picPath);

			if(!files.exists())

				files.mkdirs();

			out = new BufferedOutputStream(new FileOutputStream(files+name));

			for(int b;(b=in.read())!=-1;)

				out.write(b);

		} catch (Exception e) {

			e.printStackTrace();

		}finally{

			try {

				out.close();

				in.close();

			} catch (IOException e) {

				e.printStackTrace();

			}

		}

	}

}

程序已打包，拿去双击就可以执行，下载地址：http://pan.baidu.com/s/1mgKiQiG

执行结果图：

jsoup抓取豆瓣美女的更多相关文章

用python+selenium抓取豆瓣读书中最受关注图书并按评分排序
抓取豆瓣读书中的(http://book.douban.com/)最受关注图书,按照评分排序,并保存至txt文件中,需要抓取书籍的名称,作者,评分,体裁和一句话评方法一: #coding=utf-8 ...
用python+selenium抓取豆瓣电影中的正在热映前12部电影并按评分排序
抓取豆瓣电影(http://movie.douban.com/nowplaying/chengdu/)中的正在热映前12部电影,并按照评分排序,保存至txt文件 #coding=utf-8 from ...
python抓取性感尤物美女图
由于是只用标准库,装了python3运行本代码就能下载到多多的美女图... 写出代码前面部分的时候,我意识到自己的函数设计错了,强忍继续把代码写完. 测试发现速度一般,200K左右的下载速度,也没有很 ...
python2.7抓取豆瓣电影top250
利用python2.7抓取豆瓣电影top250 1.任务说明抓取top100电影名称依次打印输出 2.网页解析要进行网络爬虫,利用工具(如浏览器)查看网页HTML文件的相关内容是很有必要,我使用 ...
Python：python抓取豆瓣电影top250
一直对爬虫感兴趣,学了python后正好看到某篇关于爬取的文章,就心血来潮实战一把吧. 实现目标:抓取豆瓣电影top250,并输出到文件中 1.找到对应的url:https://movie.douba ...
Python小爬虫——抓取豆瓣电影Top250数据
python抓取豆瓣电影Top250数据 1.豆瓣地址:https://movie.douban.com/top250?start=25&filter= 2.主要流程是抓取该网址下的Top25 ...
Python3 抓取豆瓣电影Top250
利用 requests 抓取豆瓣电影 Top 250: import re import requests def main(url): global num headers = {"Use ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
Scrapy爬虫入门系列4抓取豆瓣Top250电影数据
豆瓣有些电影页面需要登录才能查看. 目录 [隐藏] 1 创建工程 2 定义Item 3 编写爬虫(Spider) 4 存储数据 5 配置文件 6 艺搜参考创建工程 scrapy startproj ...

随机推荐

Caffe2(3)----下载现成的模型并使用
Caffe2训练好的模型可在Model Zoo下载,下载的命令很简单,接下来以下载和使用squeezenet为例,进行简单说明. 1.浏览可下载的模型已有模型都放在github上,地址:https: ...
Jenkins搭建.NET自动编译测试与发布环境
本文地址: http://blog.csdn.net/wangjia184/article/details/18365553 操作系统Windows, 确保需要的.NET Framework已经安装 ...
Lucene新版本号对ConjunctionScorer的优化
Lucene 4.0版本号的DocIdSetIterator中没有cost方法,而4.7.0则有这种方法,表示遍历整个DocIdSet的代价,对于DocsEnum就是其长度了,对于Scorer就能够是 ...
arcgis连接excel出现数据库失败外部数据库驱动程序意外错误
微软搞事情,删除以下更新就行:win7 KB4041678 KB4041681SERVER 2008 R2 KB4041678 KB4041681WIN10 KB4041676 KB4041691SE ...
【centOS】centos7 查看和关闭防火墙
查看防火墙状态 firewall-cmd --state running代表防火墙正在运行停止firewall systemctl stop firewalld.service 禁止firewall ...
Struts2 S标签数目字格式化成金额输出（保留两位小数）
JSP: <s:property value="%{formatDouble(price)}" /> Action:添加 //格式化数字显示 public String ...
mac下使用brew安装java等应用
可以使用brew安装很多应用,比如java,idea,iterms,sublime brew tap caskroom/versions 将会安装新的brew仓库源brew cask install ...
Objective-C:对象之间循环引用会造成死循环
对象之间的循环引用两个对象A.B,有可能会出现一种特殊的情况:A中包含B的实例变量:B中又包含A的实例变量,如果两个实例变量都是强引用(A有B实例变量的所有权,B也有A的实例变量的所有 ...
go语言基础之结构体成员的使用普通变量
1.结构体成员的使用普通变量示例: package main //必须有个main包 import "fmt" //定义一个结构体类型 type Student struct { ...
PowerDesigner导入SQL脚本
方法/步骤打开PowerDesigner,鼠标单击File菜单: 选择:Reverse Enginer,然后在他的子菜单选择Database...; 选择好DBMS(数据库管理系统) ...

jsoup抓取豆瓣美女

jsoup抓取豆瓣美女的更多相关文章

随机推荐

热门专题