Java之网络爬虫WebCollector2.1.2+selenium2.44+phantomjs2.1.1

一、简介

版本匹配： WebCollector2.12 + selenium2.44.0 + phantomjs 2.1.1

动态网页爬取: WebCollector + selenium + phantomjs

说明：这里的动态网页指几种可能：1）需要用户交互，如常见的登录操作；2）网页通过JS / AJAX动态生成，如一个html里有<div id="test"></div>，通过JS生成<div id="test"><span>aaa</span></div>。

这里用了WebCollector 2进行爬虫，这东东也方便，不过要支持动态关键还是要靠另外一个API -- selenium 2（集成htmlunit 和 phantomjs）.

二、示例

/**

 * Project Name:padwebcollector

 * File Name:DiscussService.java

 * Package Name:com.pad.service

 * Date:2018年7月25日下午4:59:44

 * Copyright (c) 2018 All Rights Reserved.

 *

*/  

package com.pad.service;  

import java.util.ArrayList;

import java.util.List;

import org.openqa.selenium.By;

import org.openqa.selenium.WebDriver;

import org.openqa.selenium.WebElement;

import org.openqa.selenium.phantomjs.PhantomJSDriver;

import cn.edu.hfut.dmic.webcollector.crawler.DeepCrawler;

import cn.edu.hfut.dmic.webcollector.model.Links;

import cn.edu.hfut.dmic.webcollector.model.Page;

import com.pad.entity.DiscussInfo;

import com.pad.impl.DiscussInfoImpl;

public class DiscussService extends DeepCrawler {

    public DiscussService(String crawlPath) {

        super(crawlPath);

        // TODO Auto-generated constructor stub

    }

    @Override

    public Links visitAndGetNextLinks(Page page) {

        // TODO Auto-generated method stub

        WebDriver driver = getWebDriver(page);

        Analysis analysis = new Analysis();

        List<DiscussInfo> discusslist = new ArrayList();

        List<WebElement> list = driver.findElements(By.className("content"));

        int i = 1;

        String r_msg = "观望";

        for(WebElement el : list) {

            if(!"".equals(el.getText().trim())){

                r_msg = analysis.analysis(el.getText());

            }

            DiscussInfo info = new DiscussInfo();

            info.setLine_no(String.valueOf(i));

            info.setResult_msg(r_msg);

            info.setContent_msg(el.getText());

            discusslist.add(info);

            System.out.println(i+" "+el.getText());

            i++;

        }

        driver.close();

        driver.quit();

        DiscussInfoImpl impl = new DiscussInfoImpl();

        impl.saveData(discusslist);

        return null;

    }

    public static WebDriver getWebDriver(Page page) {

        System.setProperty("phantomjs.binary.path", "D:\\******\\phantomjs.exe");

        WebDriver driver = new PhantomJSDriver();

        driver.get(page.getUrl());

        return driver;

    }

    public static void main(String[] args) {

        DiscussService dis=new DiscussService("discuss");   
　　　　 dis.addSeed("https://*******/index/0000012");

        try {

        dis.start(1);

    } catch (Exception e) {

        e.printStackTrace();

    }

    }

}

注意：WebCollector2.12 和WebCollector2.7区别类 extends 继承分别为 DeepCrawler 和 BreadthCrawler；

Java之网络爬虫WebCollector2.1.2+selenium2.44+phantomjs2.1.1的更多相关文章

java之网络爬虫介绍
文章大纲一.网络爬虫基本介绍二.java常见爬虫框架介绍三.WebCollector实战四.项目源码下载五.参考文章一.网络爬虫基本介绍 1. 什么是网络爬虫网络爬虫(又被称为网页蜘蛛, ...
使用Java实现网络爬虫
网络爬虫网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 另外一些不常使用的名字还有蚂蚁.自动索引.模 ...
基于java的网络爬虫框架(实现京东数据的爬取，并将插入数据库)
原文地址http://blog.csdn.net/qy20115549/article/details/52203722 本文为原创博客,仅供技术学习使用.未经允许,禁止将其复制下来上传到百度文库等平 ...
Jsoup-基于Java实现网络爬虫-爬取笔趣阁小说
注意!仅供学习交流使用,请勿用在歪门邪道的地方!技术只是工具!关键在于用途! 今天接触了一款有意思的框架,作用是网络爬虫,他可以像操作JS一样对网页内容进行提取初体验Jsoup <!-- Ma ...
Java版网络爬虫基础（转）
网络爬虫不仅仅可以爬取网站的网页,图片,甚至可以实现抢票功能,网上抢购,机票查询等.这几天看了点基础,记录下来. 网页的关系可以看做是一张很大的图,图的遍历可以分为深度优先和广度优先.网络爬虫采取的广 ...
Java版网络爬虫基础
网络爬虫不仅仅可以爬取网站的网页,图片,甚至可以实现抢票功能,网上抢购,机票查询等.这几天看了点基础,记录下来. 网页的关系可以看做是一张很大的图,图的遍历可以分为深度优先和广度优先.网络爬虫采取的广 ...
用Java实现网络爬虫
myCrawler.java package WebCrawler; import java.io.File; import java.util.ArrayList; import java.util ...
java实现网络爬虫
import java.io.IOException; import java.util.HashSet; import java.util.Set; import java.util.r ...
JAVA平台上的网络爬虫脚本语言 CrawlScript
JAVA平台上的网络爬虫脚本语言 CrawlScript 网络爬虫即自动获取网页信息的一种程序,有很多JAVA.C++的网络爬虫类库,但是在这些类库的基础上开发十分繁琐,需要大量的代码才可以完成一个 ...

随机推荐

Vscode 修改为中文语言
1 官网下载最新版的vscode : https://code.visualstudio.com/Download 2 安装之后, 按键 F1 搜索框输入 language 选择 config ...
【Android N 7.1.1】处于锁屏界面时可以转屏
frameworks/base/packages/SystemUI/src/com/android/systemui/statusbar/phone/StatusBarWindowManager.ja ...
window自带字体
一.在默认情况下, Windows 默认提供下列字体: Windows 95/98/98SE 宋体.黑体.楷体_GB2312.仿宋_GB2312 Windows XP/2000/2003/ME/NT ...
C# 关于调用office com组件导出Excel
服务器环境: 环境为win2008 r2,系统为64位,程序是C#的winform.因为需要处理数据,然后生成Excel,耗时太长,就使用了多线程.winform程序是由计划任务启动,每天晚上去跑. ...
ios Quartz 各种绘制图形用法
摘要: CoreGraphics的功能非常强大,可以绘制各种图形:今天学习一下怎么绘制简单的点线面,记录学习. 一.导入coreGraphics.framework 二.绘制图形 1.绘制矩形 // ...
【Android】Android--Dialog
前言对话框对于应用也是必不可少的一个组件,在Android中也不例外,对话框对于一些提示重要信息,或者一些需要用户额外交互的一些内容很有帮助.本篇博客就讲解一下Android下对话框的使用,在本篇博 ...
AB压力测试工具
1.安装AB工具: yum install httpd-tools 2.测试: ab -n -c http://localhost.com/ 其中-n表示请求数,-c表示并发数 3.测试结果 [roo ...
backup与recover
完全恢复: 1.关闭DB2.拷贝文件3.启动DB.<出错>startup mount4.recover database until cancel using backup control ...
310实验室OTL问题
1.首先是下载OTL文件包,网址是:github.com/O-T-L,可以直接点击网页上的下载链接,也可以使用unlix命令,git clone https://github.com/O-T-L/OT ...
使用MySQLMTOP监控MySQL性能（一）
一.环境说明 1.服务器角色服务器角色 172.18.35.29 10.160.22.14 (MySQL Master) 10.160.22.47 (MySQL Slave) 监控点 YES NO ...

Java之网络爬虫WebCollector2.1.2+selenium2.44+phantomjs2.1.1

Java之网络爬虫WebCollector2.1.2+selenium2.44+phantomjs2.1.1

一、简介

二、示例

Java之网络爬虫WebCollector2.1.2+selenium2.44+phantomjs2.1.1的更多相关文章

随机推荐

热门专题