Java爬虫爬取网站电影下载链接

之前有看过一段时间爬虫，了解了爬虫的原理，以及一些实现的方法，本项目完成于半年前，一直放在那里，现在和大家分享出来。

网络爬虫简单的原理就是把程序想象成为一个小虫子，一旦进去了一个大门，这个小虫子就像进入了新世界一样，只要符合他的口味的东西就会放在自己的袋子里，但是他还不满足，只要见到可以打开的门，他都要进去看看，里面有没有他想要的东西有就装起来，直到每个门里都看了一遍，确定没有了之后，他才肯放弃，这样下来，他的袋子已经装满了想要的东西。

上述内容表述起来就是：网络爬虫就是一个自动提取网页内容的程序，这个程序的行为像一个虫子似的，爬来爬去。一般的网络爬虫都有一个或者多个网页的url作为开始，从开始的网页上获取url，并把符合条件的内容保存下来，这样一直进行下去，直到条件不符合的时候，程序执行结束。

以下只是简单的一个爬虫，爬取一个下载网站上的迅雷下载链接，用到了两个辅助队列，一个存链接作为判断当前链接是否已经打开过，另一个是进行操作的队列，存进去的链接都会进行操作。最后获取到的下载链接存在set集合中，以保证链接不会重复。

-------------------------------以下是一个分析源码的过程，后期发现这个编码没有用上---------------------------------------------------------------------

由于在网页上显示的只是一串文字，当用户点击后，他的链接会经过url编码，编码成迅雷能够识别的链接，网站上使用的是javascript的url编码，java自带了一个url编码，和网站上的不一致，我们需要java的url编码的源码，通过分析源码其实很难简单地发现对什么字符编码，对什么不进行编码，和javascript的url编码比较之后，对其进行改造，经过比对，发现java的编码，对'@','[',']',':','/'不处理，只需要增加他们进去就行

static {

    dontNeedEncoding = new BitSet(256);

    int i;

    for (i = 'a'; i <= 'z'; i++) {

        dontNeedEncoding.set(i);

    }

    for (i = 'A'; i <= 'Z'; i++) {

        dontNeedEncoding.set(i);

    }

    for (i = '0'; i <= '9'; i++) {

        dontNeedEncoding.set(i);

    }

    dontNeedEncoding.set(' '); /* encoding a space to a + is done

                                * in the encode() method */

    dontNeedEncoding.set('-');

    dontNeedEncoding.set('_');

    dontNeedEncoding.set('.');

    dontNeedEncoding.set('*');

    dfltEncName = AccessController.doPrivileged(

        new GetPropertyAction("file.encoding")

    );

}

改造后的url编码类，去掉了没有用的语句，增加对对'@','[',']',':','/'特殊字符的编码

package url;

import java.io.UnsupportedEncodingException;

import java.io.CharArrayWriter;

import java.net.URLEncoder;

import java.nio.charset.Charset;

import java.nio.charset.IllegalCharsetNameException;

import java.nio.charset.UnsupportedCharsetException;

import java.util.BitSet;

public class URLEncoders {

   static BitSet dontNeedEncoding;

   static final int caseDiff = ('a' - 'A');

   static String dfltEncName = null;

   static {

      dontNeedEncoding = new BitSet(256);

      int i;

      for (i = 'a'; i <= 'z'; i++) {

         dontNeedEncoding.set(i);

      }

      for (i = 'A'; i <= 'Z'; i++) {

         dontNeedEncoding.set(i);

      }

      for (i = '0'; i <= '9'; i++) {

         dontNeedEncoding.set(i);

      }

      dontNeedEncoding.set(' '); /*

                            * encoding a space to a + is done in the

                            * encode() method

                            */

      dontNeedEncoding.set('-');

      dontNeedEncoding.set('_');

      dontNeedEncoding.set('.');

      dontNeedEncoding.set('*');

      dontNeedEncoding.set('@');

      dontNeedEncoding.set('[');

      dontNeedEncoding.set(']');

      dontNeedEncoding.set(':');

      dontNeedEncoding.set('/');

   }

   @Deprecated

   public static String encode(String s) {

      String str = null;

      try {

         str = encode(s, dfltEncName);

      } catch (UnsupportedEncodingException e) {

      }

      return str;

   }

   public static String encode(String s, String enc)

         throws UnsupportedEncodingException {

      boolean needToChange = false;

      StringBuffer out = new StringBuffer(s.length());

      Charset charset;

      CharArrayWriter charArrayWriter = new CharArrayWriter();

      if (enc == null)

         throw new NullPointerException("charsetName");

      try {

         charset = Charset.forName(enc);

      } catch (IllegalCharsetNameException e) {

         throw new UnsupportedEncodingException(enc);

      } catch (UnsupportedCharsetException e) {

         throw new UnsupportedEncodingException(enc);

      }

      for (int i = 0; i < s.length();) {

         int c = (int) s.charAt(i);

         if (dontNeedEncoding.get(c)) {

            if (c == ' ') {

               c = '+';

               needToChange = true;

            }

            out.append((char) c);

            i++;

         } else {

            do {

               charArrayWriter.write(c);

               if (c >= 0xD800 && c <= 0xDBFF) {

                  if ((i + 1) < s.length()) {

                     int d = (int) s.charAt(i + 1);

                     if (d >= 0xDC00 && d <= 0xDFFF) {

                        charArrayWriter.write(d);

                        i++;

                     }

                  }

               }

               i++;

            } while (i < s.length()

                  && !dontNeedEncoding.get((c = (int) s.charAt(i))));

            charArrayWriter.flush();

            String str = new String(charArrayWriter.toCharArray());

            byte[] ba = str.getBytes(charset);

            for (int j = 0; j < ba.length; j++) {

               out.append('%');

               char ch = Character.forDigit((ba[j] >> 4) & 0xF, 16);

               if (Character.isLetter(ch)) {

                  ch -= caseDiff;

               }

               out.append(ch);

               ch = Character.forDigit(ba[j] & 0xF, 16);

               if (Character.isLetter(ch)) {

                  ch -= caseDiff;

               }

               out.append(ch);

            }

            charArrayWriter.reset();

            needToChange = true;

         }

      }

      return (needToChange ? out.toString() : s);

   }

}

所以当我研究好了以上的编码之后才发现，迅雷会识别未经过编码的链接，三种链接迅雷都可以下载，如下图：

所以以上就当是提高了一下分析源码的能力……

爬虫代码并没有做任何的优化，可以说效率非常低，程序用到了递归，并且在程序运行的过程中打开的链接会形成一个环形，也就是打开一个链接，之后程序执行的过程中会再次找到这个链接，所以这条路线就断了。

程序在执行过程中，如果当前访问的网址时间过长，会抛出异常，也会影响效率。

从运行时间和有效链接可以看出效率很低

其实爬虫的代码很简单，从网页获取代码，对其进行解析这么一个过程

主程序：并没有调用其他的方法，那个编码类也没有用上

package function;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

import queue.Queue;

import java.io.IOException;

import java.util.HashSet;

import java.util.Iterator;

import java.util.Set;

import java.util.TreeSet;

import java.util.regex.Pattern;

public class Crawler {

   public static Queue q1 = new Queue();

   public static Queue q2 = new Queue();

   public static Set<String> set = new TreeSet<String>();

   public static int i = 0;

   public static void main(String[] args) {

      Document doc = null;

      try {

         long begin = System.currentTimeMillis();

         doc = Jsoup.connect("http://www.dytt8.net/index.htm").get();

         Elements links = doc.select("a[href]");

         for (Element link : links) {

            String linkHref = link.attr("href");

            Pattern pattern = Pattern.compile("^/html/+(.)+.html");

            Pattern pattern0 = Pattern

                  .compile("http://www.dytt8.net/html/+(.)+.html");

            Pattern pattern1 = Pattern.compile("^ftp://+((.)+)+");

            if (pattern.matcher(linkHref).matches() == true

                  || pattern0.matcher(linkHref).matches() == true) {

               q1.insertQueue(linkHref);

               q2.insertQueue(linkHref);

               open("http://www.dytt8.net" + q1.outQueue());

            }

         }

         Iterator<String> it = set.iterator();

         // while(it.hasNext()){

         // String url=(String)it.next();

         // int last=url.lastIndexOf(".");

         // int last1=url.lastIndexOf("]");

         // // System.out.print(url.substring(last1+1, last)+"     ");

         // System.out.println(URLEncoders.encode(url,"utf-8"));

         // }

         System.out.println("一共爬取" + q2.size() + "条链接");

         long end = System.currentTimeMillis();

         System.out.println("用时" + (end - begin) + "ms");

         System.out.println("一共" + set.size() + "条下载链接");

      } catch (IOException e) {

         // TODO Auto-generated catch block

         e.printStackTrace();

      }

   }

   public static void open(String url) {

      Document doc = null;

      try {

         doc = Jsoup.connect(url).get();

         Elements links = doc.select("a[href]");

         for (Element link : links) {

            String linkHref = link.attr("href");

            Pattern pattern = Pattern.compile("^/html/+(.)+.html");

            Pattern pattern0 = Pattern

                  .compile("http://www.dytt8.net/html/+(.)+.html");

            Pattern pattern1 = Pattern.compile("^ftp://+((.)+)+");

            if (pattern.matcher(linkHref).matches() == true

                  || pattern0.matcher(linkHref).matches() == true) {

               q1.insertQueue(linkHref);

               q2.insertQueue(linkHref);

               if (q2.contains(linkHref) == false) {

                  open("http://www.dytt8.net" + q1.outQueue());

               }

            } else if (pattern1.matcher(linkHref).matches() == true) {

               System.out.println(linkHref);

               set.add(linkHref);

            }

         }

      } catch (IOException e) {

         // TODO Auto-generated catch block

         e.printStackTrace();

      }

   }

}

试着弄了一下github，所以把这个非常不完美的项目放在了上面，就当练手，项目地址：https://github.com/Ai-yoo/Java_Applaction.git

Java爬虫爬取网站电影下载链接的更多相关文章

写一个python 爬虫爬取百度电影并存入mysql中
目标是利用python爬取百度搜索的电影在类型地区年代各个标签下电影的名字评分和图片连接以及电影连接首先我们先在mysql中建表 create table liubo4( id in ...
如何使用robots禁止各大搜索引擎爬虫爬取网站
ps:由于公司网站配置的测试环境被百度爬虫抓取,干扰了线上正常环境的使用,刚好看到每次搜索淘宝时,都会有一句由于robots.txt文件存在限制指令无法提供内容描述,于是便去学习了一波 1.原来一般来 ...
Python爬虫爬取豆瓣电影之数据提取值xpath和lxml模块
工具:Python 3.6.5.PyCharm开发工具.Windows 10 操作系统.谷歌浏览器目的:爬取豆瓣电影排行榜中电影的title.链接地址.图片.评价人数.评分等网址:https:// ...
python 爬虫&爬取豆瓣电影top250
爬取豆瓣电影top250from urllib.request import * #导入所有的request,urllib相当于一个文件夹,用到它里面的方法requestfrom lxml impor ...
java爬虫爬取网页内容前，对网页内容的编码格式进行判断的方式
近日在做爬虫功能,爬取网页内容,然后对内容进行语义分析,最后对网页打标签,从而判断访问该网页的用户的属性. 在爬取内容时,遇到乱码问题.故需对网页内容编码格式做判断,方式大体分为三种:一.从heade ...
webmagic 二次开发爬虫爬取网站图片
webmagic的是一个无须配置.便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫. webmagic介绍编写一个简单的爬虫 webmagic的使用文档:http://w ...
python3 爬虫---爬取豆瓣电影TOP250
第一次爬取的网站就是豆瓣电影 Top 250,网址是:https://movie.douban.com/top250?start=0&filter= 分析网址'?'符号后的参数,第一个参数's ...
一个简单java爬虫爬取网页中邮箱并保存
此代码为一十分简单网络爬虫,仅供娱乐之用. java代码如下: package tool; import java.io.BufferedReader; import java.io.File; im ...
java爬虫爬取的html内容中空格（ ）变为问号“?”的解决方法
用java编写的爬虫,使用xpath爬取内容后,发现网页源码中的全部显示为?(问号),但是使用字符串的replace("?", ""),并不能替换,网上找了一 ...

随机推荐

requests+多进程poll+pymongo实现抓取小说
今天看着有个很吸引人的小说作品信息:一家只在深夜开门营业的书屋,欢迎您的光临.作为东野奎吾<深夜食堂>漫画的fans,看到这个标题按捺不住我的好奇心........ 所以我又抓下来了,总共 ...
JDBC底层原理
Class.forName(“com.mysql.jdbc.Driver”)是强制JVM将com.mysql.jdbc.Driver这个类加载入内存,并将其注册到DriverManager类,然后根 ...
mysql常用基础操作语法（十一）~~字符串函数【命令行模式】
注:sql的移植性比较强,函数的移植性不强,一般为数据库软件特有,例如mysql有mysql的函数,oracle有oracle的函数. 1.concat连接字符串: 从上图中可以看出,直接使用sele ...
CameraLink通信接口的一般定义
CameraLink是从Channel link技术上发展而来的,基于视频应用发展而来的通信接口,在机器视觉系统中广泛应用. 2000年10月美国NI.摄像头供应商和其他图像采集公司联合推出了Came ...
【mongodb系统学习之七】mongodb的关闭
七.mongodb的关闭: 1).直接根据进程id杀死mongodb进程,如图(注意,kill -9要慎用,这个是强制关闭进程,可能导致文件损坏,尽量不要用,可以直接kill不加参数): 2).如果不 ...
USB转串口驱动代码分析
1.USB插入时,创建设备 [plain] view plaincopy DriverObject->DriverExtension->AddDevice = USB2COM_PnPAdd ...
C#超级实用的一种类型—匿名类型
顾名思义匿名类型就是没有名字的类型.当一个新的匿名对象定义与前面已经存在的类型定义的内部变量类型相同时,编译器就会只生成一个类定义,而不是各一个.匿名类型对象中仍然可以再包含匿名对象. 在C#3.0 ...
android界面设计之布局管理
谈到android界面设计,各种布局样式不得不提!传统的布局方式有6种,我们会一一介绍. 在android studio2.2版本之后出现了一款超棒的布局方式,真正意义上的所见即所得,后面我们也会讲到 ...
winfrom如何在listview中添加控件
private Button btn = new Button(); private void Form1_Load(object sender, EventArgs e) { ListViewIte ...
String.valueOf(Thread.currentThread().getContextClassLoader().getResource("")) 获取项目的绝对路径（shiro项目中来的八）
一,上代码 String.valueOf(Thread.currentThread().getContextClassLoader().getResource("")) file: ...

Java爬虫爬取网站电影下载链接

Java爬虫爬取网站电影下载链接的更多相关文章

随机推荐

热门专题