Java爬虫

作为一位Java爬虫的初学者，分享一下自己的心得。
所用到的jar包

org.codehaus.jettison.jar

jsoup-1.7.3.jar

个人认为爬虫的实现机制：
获取Docume对象—>获取节点—>输出或者持久化

获取页面的图片地址

获取Docume对象—>获取Img元素—>输出地址

 package com.cn.basic;

 import java.io.IOException;

 import org.jsoup.Jsoup;

 import org.jsoup.nodes.Document;

 import org.jsoup.nodes.Element;

 import org.jsoup.select.Elements;

 public class ImageDemo1 {

     public static void Get_Url(String htmlUrl, String path) {

         try {

             Document doc = Jsoup.connect(htmlUrl).get();

             Element body = doc.body();

             Elements elements = body.select("img");

             String src = "";

             for (Element element : elements) {

                 src = element.attr("src");

                 System.out.println(path + src);

             }

             System.out.println("elements-size: " + elements.size());

         } catch (IOException e) {

             e.printStackTrace();

         }

     }

     public static void main(String[] args) {

         String url = "http://pic.netbian.com/4kkatongdongman/index_2.html";

         String path = "http://pic.netbian.com";

         Get_Url(url, path);

     }

 }

将图片写入本地

获取Docume对象—>获取Img元素—>将图片保存本地

 package com.cn.basic;

 import java.io.ByteArrayOutputStream;

 import java.io.File;

 import java.io.FileOutputStream;

 import java.io.IOException;

 import java.io.InputStream;

 import java.net.HttpURLConnection;

 import java.net.URL;

 import java.util.Date;

 import org.jsoup.Jsoup;

 import org.jsoup.nodes.Document;

 import org.jsoup.nodes.Element;

 import org.jsoup.select.Elements;

 public class ImageDemo2 {

     public static void saveImage(String htmlUrl, String path) {

         try {

             Document doc = Jsoup.connect(htmlUrl).get();

             Element body = doc.body();

             Elements elements = body.select("img");

             String outputFilePath="E:/pythonTest/javaPython/imgs/";

             String src = "";

             HttpURLConnection conn = null;

             InputStream inStream = null;

             byte[] data = null;

             String filePath = null;

             FileOutputStream outStream = null;

             Long startTime=new Date().getTime();

             for (Element element : elements) {

                 src = element.attr("src");

                 System.out.println(path + src);

                 // new一个URL对象

                 if (!src.contains(".jpg")) {

                     continue;

                 }

                 URL url = new URL(path + src);

                 // 打开链接

                 conn = (HttpURLConnection) url.openConnection();

                 // 设置请求方式为"GET"

                 conn.setRequestMethod("GET");

                 // 超时响应时间为5秒

                 conn.setConnectTimeout(5 * 1000);

                 // 通过输入流获取图片数据

                 inStream = conn.getInputStream();

                 // 得到图片的二进制数据，以二进制封装得到数据，具有通用性

                 data = readInputStream(inStream);

                 // new一个文件对象用来保存图片，默认保存当前工程根目录

                 filePath = outputFilePath + System.currentTimeMillis() + ".jpg";

                 // 创建输出流

                 outStream = new FileOutputStream(new File(filePath));

                 // 写入数据

                 outStream.write(data);

                 // 关闭输出流

                 outStream.close();

             }

             System.out.println(elements.size());

             System.out.println("读写速度："+(new Date().getTime()-startTime)+"毫秒");

         } catch (IOException e) {

             e.printStackTrace();

         } catch (Exception e) {

             e.printStackTrace();

         }

     }

     public static byte[] readInputStream(InputStream inStream) throws Exception {

         ByteArrayOutputStream outStream = new ByteArrayOutputStream();

         // 创建一个Buffer字符串

         byte[] buffer = new byte[1024];

         // 每次读取的字符串长度，如果为-1，代表全部读取完毕

         int len = 0;

         // 使用一个输入流从buffer里把数据读取出来

         while ((len = inStream.read(buffer)) != -1) {

             // 用输出流往buffer里写入数据，中间参数代表从哪个位置开始读，len代表读取的长度

             outStream.write(buffer, 0, len);

         }

         // 关闭输入流

         inStream.close();

         // 把outStream里的数据写入内存

         return outStream.toByteArray();

     }

     public static void main(String[] args) {

         String url = "http://pic.netbian.com/4kkatongdongman/index_2.html";

         String path = "http://pic.netbian.com";

         saveImage(url, path);

     }

 }

Java爬虫的更多相关文章

webmagic的设计机制及原理-如何开发一个Java爬虫
之前就有网友在博客里留言,觉得webmagic的实现比较有意思,想要借此研究一下爬虫.最近终于集中精力,花了三天时间,终于写完了这篇文章.之前垂直爬虫写了一年多,webmagic框架写了一个多月,这方 ...
JAVA爬虫挖取CSDN博客文章
开门见山,看看这个教程的主要任务,就去csdn博客,挖取技术文章,我以<第一行代码–安卓>的作者为例,将他在csdn发表的额博客信息都挖取出来.因为郭神是我在大学期间比较崇拜的对象之一.他 ...
爬虫6：多页面增量Java爬虫-sina主页
之前写过很多单页面python爬虫,感觉python还是很好用的,这里用java总结一个多页面的爬虫,迭代爬取种子页面的所有链接的页面,全部保存在tmp路径下. 1 序言实现这个爬虫需要两个数据结构 ...
推荐几个优秀的java爬虫项目
java爬虫项目大型的: Nutch apache/nutch · GitHub 适合做搜索引擎,分布式爬虫是其中一个功能. Heritrix internetarchive/heritrix3 ...
Java爬虫搜索原理实现
permike 原文 Java爬虫搜索原理实现没事做,又研究了一下爬虫搜索,两三天时间总算是把原理闹的差不多了,基本实现了爬虫搜索的原理,本次实现还是俩程序,分别是按广度优先和深度优先完成的,广度优 ...
JAVA爬虫 WebCollector
JAVA爬虫 WebCollector 爬虫简介: WebCollector是一个无须配置.便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫. 爬虫 ...
爬虫入门手写一个Java爬虫
本文内容涞源于罗刚老师的书籍 << 自己动手写网络爬虫一书 >> ; 本文将介绍 1: 网络爬虫的是做什么的? 2: 手动写一个简单的网络爬虫; 1: 网络爬虫是做 ...
JAVA爬虫实践（实践三：爬虫框架webMagic和csdnBlog爬虫）
WebMagic WebMagic是一个简单灵活的Java爬虫框架.基于WebMagic,你可以快速开发出一个高效.易维护的爬虫. 采用HttpClient可以实现定向的爬虫,也可以自己编写算法逻辑来 ...
MinerUtil.java 爬虫工具类
MinerUtil.java 爬虫工具类 package com.iteye.injavawetrust.miner; import java.io.File; import java.io.File ...

随机推荐

Beta阶段冲刺日志集合贴
[Beta]Daily Scrum Meeting--Day1:http://www.cnblogs.com/RunningGuys/p/6890738.html [Beta]Daily Scrum ...
团队作业8 ----第二次项目冲刺(Beta阶段)博客汇总
一.冲刺计划安排团队作业8--Beta版本冲刺计划及安排二.七天冲刺汇总 [Beta]第一次Daily Scrum Meeting [Beta]第二次Daily Scrum Meeting [Be ...
201521123102 《Java程序设计》第8周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结集合与泛型相关内容. 2. 书面作业本次作业题集集合 1.List中指定元素的删除(题目4-1) 1.1 实验总结在实验中,Sc ...
ecshop商城系统登录出现登录闪退问题
症状:ecshop商城系统提示登录成功,而且状态也是登录,一刷新,自动退出了,真坑爹解决方案: 1.点着点着经常无故退出,感觉session被清空了.查找原因:ecshop中有用ip地址来验证,而公 ...
Windows下chm转换为html的超简单方法
摘要:通过调用Windows命令,将chm 文件转换为html 文件概述:很多程序员朋友都会遇到这样的问题,看一个离线版的帮助文档(chm文件),总会产生一个索引文件(该文件的chw文件), 而且有 ...
mybatis-generato的功能扩展
项目代码地址:https://github.com/whaiming/java-generator 我在原有的基础上扩展了和修改了一些功能: 1.增加获取sqlServer数据库字段注释功能 2.Ma ...
【京东账户】——Mysql/PHP/Ajax爬坑之用户登录
一.引言实现京东的账户项目,功能模块之一,用户登录.要用到的是Apach环境,Mysql.PHP以及Ajax. 二.依据功能创建库.表.记录创建库:jd 创建表:登录表添加三条记录 CREATE ...
jmeter3.3测试需要登录的接口（java）
1.新建线程组-略过 2.右键线程组->添加->配置元件->HTTP授权管理器 3.右键线程组->添加->配置元件->HTTP信息头管理器 4.右键线程组-> ...
AES加解密算法Qt实现
[声明] (1) 本文源码在一位未署名网友源码基础上,利用Qt编程,实现了AES加解密算法,并添加了文件加解密功能.在此表示感谢!该源码仅供学习交流,请勿用于商业目的. (2) 图片及描述除图1外 ...
01背包java实现（入门到精通）
一.什么是01背包 01背包是在M件物品取出若干件放在空间为W的背包里,每件物品的体积为W1,W2至Wn,与之相对应的价值为P1,P2至Pn.01背包是背包问题中最简单的问题.01背包的约束条件是给定 ...

Java爬虫

Java爬虫的更多相关文章

随机推荐

热门专题