Java做爬虫也很方便

首先我们封装一个Http请求的工具类，用HttpURLConnection实现，也可以用HttpClient, 或者直接用Jsoup来请求。

工具类实现比较简单，就一个get方法，读取请求地址的响应内容，这边我们用来抓取网页的内容，没有使用代理，在真正的抓取过程中，当你大量请求某个网站的时候，对方会有一系列的策略来禁用你的请求，这个时候代理就排上用场了，通过代理设置不同的IP来抓取数据。

public class HttpUtils {

    public static String get(String url) {

        try {

            URL getUrl = new URL(url);

            HttpURLConnection connection = (HttpURLConnection) getUrl.openConnection();

            connection.setRequestMethod("GET");

            connection.setRequestProperty("Accept", "*/*");

            connection.setRequestProperty(

                    "User-Agent",

                    "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; CIBA)");

            connection.setRequestProperty("Accept-Language", "zh-cn");

            connection.connect();

            BufferedReader reader = new BufferedReader(

                    new InputStreamReader(connection.getInputStream(), "utf-8"));

            String line;

            StringBuffer result = new StringBuffer();

            while ((line = reader.readLine()) != null){

                result.append(line);

            }

            reader.close();

            return result.toString();

        } catch (Exception e) {

            e.printStackTrace();

        }

        return null;

    }

}

接下来我们随便找一个有图片的网页，来试试抓取功能

public static List<String> getImageSrc(String html) {

        // 获取img标签正则

        String IMGURL_REG = "<img.*src=(.*?)[^>]*?>";

        // 获取src路径的正则

        String IMGSRC_REG = "http:\"?(.*?)(\"|>|\\s+)";

        Matcher matcher = Pattern.compile(IMGURL_REG).matcher(html);

        List<String> listImgUrl = new ArrayList<>();

        while (matcher.find()) {

            Matcher m = Pattern.compile(IMGSRC_REG).matcher(matcher.group());

            while (m.find()) {

                listImgUrl.add(m.group().substring(0, m.group().length() - 1));

            }

        }

        return listImgUrl;

    }

    public static void main(String[] args) {

        String url = "http://coder520.com/";

        String html = HttpUtils.get(url);

        List<String> imgUrls = getImageSrc(html);

        for (String imgSrc : imgUrls) {

            System.out.println(imgSrc);

        }

    }

首先将网页的内容抓取下来，然后用正则的方式解析出网页的标签，再解析img的地址。

执行程序我们可以得到下面的内容：

http://ophdr3ukd.bkt.clouddn.com/logo.png

http://ophdr3ukd.bkt.clouddn.com/SSM.jpg

http://ophdr3ukd.bkt.clouddn.com/%E5%8D%95%E8%BD%A6.jpg

通过上面的地址我们就可以将图片下载到本地了，下面我们写个图片下载的方法：

public static void main(String[] args) throws IOException {

        String url = "http://coder520.com/";

        String html = HttpUtils.get(url);

        List<String> imgUrls = getImageSrc(html);

        File dir = new File("img");

        if (!dir.exists()) {

            dir.mkdir();

        }

        for (String imgSrc : imgUrls) {

            System.out.println(imgSrc);

            String fileName = imgSrc.substring(imgSrc.lastIndexOf("/") + 1);

            Files.copy(new URL(imgSrc).openStream(), Paths.get("img/" + fileName));

        }

    }

运行程序图片就被下载下来了

这样就很简单的实现了一个抓取并且提取图片的功能了，看起来还是比较麻烦哈，要写正则之类的，下面给大家介绍一种更简单的方式，如果你熟悉jQuery的话对提取元素就很简单了，这个框架就是Jsoup。

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

添加jsoup的依赖：

        <dependency>

            <groupId>org.jsoup</groupId>

            <artifactId>jsoup</artifactId>

            <version>1.11.3</version>

        </dependency>

使用jsoup之后提取的代码只需要简单的几行即可：

public static void main(String[] args) throws IOException {

//        String url = "http://coder520.com/";

//        String html = HttpUtils.get(url);

//        List<String> imgUrls = getImageSrc(html);

//

//        File dir = new File("img");

//        if (!dir.exists()) {

//            dir.mkdir();

//        }

//

//        for (String imgSrc : imgUrls) {

//            System.out.println(imgSrc);

//            String fileName = imgSrc.substring(imgSrc.lastIndexOf("/") + 1);

//            Files.copy(new URL(imgSrc).openStream(), Paths.get("img/" + fileName));

//        }

        String url = "http://coder520.com/";

        String html = HttpUtils.get(url);

        File dir = new File("img");

        if (!dir.exists()) {

            dir.mkdir();

        }

        Document doc = Jsoup.parse(html);

        // 提取img标签

        Elements imgs = doc.getElementsByTag("img");

        for (Element img : imgs) {

            // 提取img标签的src属性

            String imgSrc = img.attr("src");

            if (imgSrc.startsWith("//")) {

                imgSrc = "http:" + imgSrc;

            }

            System.out.println(imgSrc);

            String fileName = imgSrc.substring(imgSrc.lastIndexOf("/") + 1);

            Files.copy(new URL(imgSrc).openStream(), Paths.get("img/" + fileName));

        }

    }

通过Jsoup.parse创建一个文档对象，然后通过getElementsByTag的方法提取出所有的图片标签，循环遍历，通过attr方法获取图片的src属性,然后下载图片。

下面我们再来升级一下，做成一个小工具，提供一个简单的界面，输入一个网页地址，点击提取按钮，然后把图片自动下载下来，我们可以用swing写界面。

public class App {

    public static void main(String[] args) {

        JFrame frame = new JFrame();

        frame.setResizable(false);

        frame.setSize(425,400);

        frame.setDefaultCloseOperation(JFrame.EXIT_ON_CLOSE);

        frame.setLayout(null);

        frame.setLocationRelativeTo(null);

        JTextField jTextField = new JTextField();

        jTextField.setBounds(100, 44, 200, 30);

        frame.add(jTextField);

        JButton jButton = new JButton("提取");

        jButton.setBounds(140, 144, 100, 30);

        frame.add(jButton);

        frame.setVisible(true);

        jButton.addActionListener(new ActionListener() {

            @Override

            public void actionPerformed(ActionEvent e) {

                String url = jTextField.getText();

                if (url == null || url.equals("")) {

                    JOptionPane.showMessageDialog(null, "请填写抓取地址");

                    return;

                }

                File dir = new File("img");

                if (!dir.exists()) {

                    dir.mkdir();

                }

                String html = HttpUtils.get(url);

                Document doc = Jsoup.parse(html);

                Elements imgs = doc.getElementsByTag("img");

                for (Element img : imgs) {

                    String imgSrc = img.attr("src");

                    if (imgSrc.startsWith("//")) {

                        imgSrc = "http:" + imgSrc;

                    }

                    try {

                        System.out.println(imgSrc);

                        String fileName = imgSrc.substring(imgSrc.lastIndexOf("/") + 1);

                        Files.copy(new URL(imgSrc).openStream(), Paths.get("img/" + fileName));

                    } catch (MalformedURLException e1) {

                        e1.printStackTrace();

                    } catch (IOException e1) {

                        e1.printStackTrace();

                    }

                }

                JOptionPane.showMessageDialog(null, "抓取完成");

            }

        });

    }

}

输入地址，点击提取按钮即可下载图片。

Java做爬虫也很方便的更多相关文章

java网络爬虫基础学习（一）
刚开始接触java爬虫,在这里是搜索网上做一些理论知识的总结主要参考文章:gitchat 的java 网络爬虫基础入门,好像要付费,也不贵,感觉内容对新手很友好. 一.爬虫介绍网络爬虫是一个自动提 ...
学 Java 网络爬虫，需要哪些基础知识？
说起网络爬虫,大家想起的估计都是 Python ,诚然爬虫已经是 Python 的代名词之一,相比 Java 来说就要逊色不少.有不少人都不知道 Java 可以做网络爬虫,其实 Java 也能做网络爬 ...
Java网络爬虫笔记
Java网络爬虫笔记 HttpClient来代替浏览器发起请求. select找到的是元素,也就是elements,你想要获取具体某一个属性的值,还是要用attr("")方法.标签 ...
java正则表达式之java小爬虫
这个java小爬虫, 功能很简单,只有一个,抓取网上的邮箱.用到了javaI/O,正则表达式. public static void main(String[] args) throws IOExce ...
【转】44款Java 网络爬虫开源软件
原帖地址 http://www.oschina.net/project/lang/19?tag=64&sort=time 极简网络爬虫组件 WebFetch WebFetch 是无依赖极简网页 ...
用HttpClient和用HttpURLConnection做爬虫发现爬取的代码少了的问题
最近在学习用java来做爬虫但是发现不管用那种方式都是爬取的代码比网页的源码少了很多在网上查了很多都说是inputStream的缓冲区太小而爬取的网页太大导致读取出来的网页代码不完整,但是后面发现并不 ...
Java基础-爬虫实战之爬去校花网网站内容
Java基础-爬虫实战之爬去校花网网站内容作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 爬虫这个实现点我压根就没有把它当做重点,也没打算做网络爬虫工程师,说起爬虫我更喜欢用Pyt ...
java做web项目比较多
WEB就是轻量级:如果要炫,FLEX或即将普及的html5.0都能做到像C/S那样. java做web项目比较多:如果是桌面程序,还是走C/S比较成熟. 如果是B/S架构的,后台还是JAVA,前台可以 ...
【转】Java做服务器开发语言
版权声明:本文为博主原创文章,未经博主允许不得转载. 随着游戏市场的兴起,特别是网页游戏.手机游戏的崛起,对游戏开发技术的需求越来越多.网络游戏开发是一个庞大的体系,总体来说是客户端与服务器端.客户端 ...

随机推荐

[20190611]记录一下github的基本用法
本文记录如何使用github创建项目并上传代码,因为有一段时间没用github了,中途又重装了系统,今天重新使用一下. 然后特地做简要记录: 1. 创建SSH Key SSH Key指一般在C:\Us ...
ios 11 12以后下拉刷新不回位的解决方法
原因: iOS11弃用了automaticallyAdjustsScrollViewInsets属性,新增contentInsetAdjustmentBehavior来替代它 //解决方案添加如下 ...
机器学习经典算法之SVM
SVM 的英文叫 Support Vector Machine,中文名为支持向量机.它是常见的一种分类方法,在机器学习中,SVM 是有监督的学习模型. 什么是有监督的学习模型呢?它指的是我们需要事先对 ...
nginx只允许域名访问网址，禁止ip访问
修改nginx配置文件在server段里插入如下正则: if ( $host != 'www.baidu.com') { return 403; } 说明:如果访问讨还不是www.baidu.co ...
HDU 4352 XHXJ's LIS （数位DP，状压）
题意: 前面3/4的英文都是废话.将一个正整数看成字符串,给定一个k,问区间[L,R]中严格的LIS=k的数有多少个? 思路: 实在没有想到字符0~9最多才10种,况且也符合O(nlogn)求LIS的 ...
洛谷 P2176 [USACO14FEB]路障Roadblock
题目描述每天早晨,FJ从家中穿过农场走到牛棚.农场由 N 块农田组成,农田通过 M 条双向道路连接,每条路有一定长度.FJ 的房子在 1 号田,牛棚在 N 号田.没有两块田被多条道路连接,以适当的路 ...
CF Gym 100187A Potion of Immortality （思路，最坏情况的最小损失）
根据兔子试药情况可以缩小范围,如果死了,不在试过的药里面,如果活着,在试过的药里. 最糟的情况: 两个原则 1.能确定魔药所在的范围的尽量大,2.死得兔子尽量多. 如果当前不知道情况的药n为k的二倍以 ...
python_87_shelve模块
'shelve模块是一个简单的key,value将内存数据通过文件持久化的模块,可以持久化任何pickle可支持的python数据格式(只支持pickle)' #序列化,将数据写入文件 import ...
sklearn 学习之分类树
概要基于 sklearn 包自带的 iris 数据集,了解一下分类树的各种参数设置以及代表的意义. iris 数据集介绍 iris 数据集包含 150 个样本,对应数据集的每行数据,每行数据包含 ...
LINQ与反射
string file = @"C:\Windows\winsxs\x86_netfx35linq-system.core_31bf3856ad364e35_6.1.7601.17514_n ...

Java做爬虫也很方便

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

Java做爬虫也很方便的更多相关文章

随机推荐

热门专题