记一次爬需要登录之后才能爬取数据的demo

一：工程概况

注意：

二：涉及到的类

package com.bigdata.crawler;

import java.io.IOException;

import java.util.List;

import org.apache.commons.io.IOUtils;

import org.apache.http.HttpEntity;

import org.apache.http.client.ClientProtocolException;

import org.apache.http.client.methods.CloseableHttpResponse;

import org.apache.http.client.methods.HttpGet;

import org.apache.http.impl.client.CloseableHttpClient;

import org.apache.http.impl.client.HttpClients;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

import org.openqa.selenium.By;

import org.openqa.selenium.Keys;

import org.openqa.selenium.WebElement;

import org.openqa.selenium.chrome.ChromeDriver;

import org.openqa.selenium.firefox.FirefoxDriver;

import org.openqa.selenium.interactions.Actions;

import com.bigdata.util.DriverCommon;

public class CnzzCrawler {

	private String baseUrl ="http://new.cnzz.com/v1/login.php?siteid=1262437219";

   private String password = "******";//查看密码

	private ChromeDriver driver;

	public CnzzCrawler() {

	}

	public CnzzCrawler(ChromeDriver driver) {

		super();

		this.driver = driver;

	}

	public void start(){

		// 登入网站

		driver.get(baseUrl);

		// 输入密码

		driver.findElement(By.id("password")).sendKeys(password);

		try {

			Thread.sleep(1000);

		} catch (InterruptedException e) {

			e.printStackTrace();

		}

		// 点击登入 html body div.pwdmain div.pwdcheck div.pwdcheck4 div form div img

		// body > div.pwdmain > div.pwdcheck > div.pwdcheck4 > div:nth-child(1) > form > div:nth-child(2) > img

		driver.findElement(By.cssSelector("div.pwdcheck4 > div:nth-child(1) > form > div:nth-child(2) > img")).click();

		try {

			Thread.sleep(1000);

		} catch (InterruptedException e) {

			e.printStackTrace();

		}

		Document doc  = Jsoup.parse(driver.getPageSource());

		//System.out.println(doc);

		//html.cnzz body div#userLoginHeader.userLoginHeader div.section div#rightContainer.rightContainer div#dashboardRootEl.dashboard ul#module_container.module.ui-sortable li.module_data0.moduleTwo table tbody tr.bg-white td.url div a.blue12

		Elements  elements= doc.select("a.blue12");

		for(Element e: elements ){

        	String string = e.attr("href");

        	System.out.println(string);

		}

		driver.close();

	}

	public static void main(String[] args) throws IOException {

		System.setProperty("webdriver.chrome.driver", DriverCommon.getDriverName(DriverCommon.getOSType()));

		//System.setProperty("webdriver.firefox.driver", "D:/Program Files (x86)/Mozilla Firefox/firefox.exe");

		ChromeDriver driver = new ChromeDriver();

		//FirefoxDriver driver = new FirefoxDriver();

		new CnzzCrawler(driver).start();

	}

}

package com.bigdata.util;

import java.io.BufferedReader;

import java.io.IOException;

import java.io.InputStreamReader;

public class DriverCommon {

	/**

     * 获取操作系统类型

     */

    public static String getOSType(){

    	String temp  = System.getProperty("os.name");

    	if(temp.contains("Mac")){

    		return "mac";

    	}else if(temp.contains("Win")){

    		return "win";

    	}else{

    		try {

				Process process = Runtime.getRuntime().exec("getconf LONG_BIT");

				BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(process.getInputStream()));

				String s = bufferedReader.readLine();

				if(s.contains("64")){

					return "linux64";

				}else{

					return "linux32";

				}

			} catch (IOException e) {

				e.printStackTrace();

				return "linux64"; //默认Linux64

			}

    	}

    }

    /**

     * 获取浏览器驱动

     * @param os

     * @return

     * @throws IOException

     */

    public static String getDriverName(String os) throws IOException{

		if(os == null)

			return null;

		switch (os) {

		case "win":

			return "chromedriver.exe";

		case "mac":

			return "chromedriver_mac";

		case "linux_32":

			return "chromedriver_linux32";

		case "linux_64":

		default:

			return "chromedriver_linux64";

		}

	}

}

记一次爬需要登录之后才能爬取数据的demo的更多相关文章

PHP Curl模拟登录并抓取数据
使用PHP的Curl扩展库可以模拟实现登录,并抓取一些需要用户账号登录以后才能查看的数据.具体实现的流程如下(个人总结): 1. 首先需要对相应的登录页面的html源代码进行分析,获得一些必要的信息: ...
PHP获取cookie、Token、模拟登录、抓取数据、解析生成json
本文介绍使用PHP获取cookie,获取Token.以及模拟登录.然后抓取数据.最后解析生成json的的过程. 0. 设置Cookie路径 set_time_limit(0); //使用的cookie ...
Python登录豆瓣并爬取影评
上一篇我们讲过Cookie相关的知识,了解到Cookie是为了交互式web而诞生的,它主要用于以下三个方面: 会话状态管理(如用户登录状态.购物车.游戏分数或其它需要记录的信息) 个性化设置(如用户自 ...
Scrapy 通过登录的方式爬取豆瓣影评数据
Scrapy 通过登录的方式爬取豆瓣影评数据爬虫 Scrapy 豆瓣 Fly 由于需要爬取影评数据在来做分析,就选择了豆瓣影评来抓取数据,工具使用的是Scrapy工具来实现.scrapy工具使用起来 ...
记一次HTTPClient模拟登录获取Cookie的开发历程
记一次HTTPClient模拟登录获取Cookie的开发历程环境: springboot : 2.7 jdk: 1.8 httpClient : 4.5.13 设计方案通过新建一个 ...
运用cookie登陆人人网爬取数据
浏览器访问WEB服务器的过程在用户访问网页时,不论是通过URL输入域名或IP,还是点击链接,浏览器向WEB服务器发出了一个HTTP请求(Http Request),WEB服务器接收到客户端浏览器的请 ...
python高级—— 从趟过的坑中聊聊爬虫、反爬以及、反反爬，附送一套高级爬虫试题
前言: 时隔数月,我终于又更新博客了,然而,在这期间的粉丝数也就跟着我停更博客而涨停了,唉是的,我改了博客名,不知道为什么要改,就感觉现在这个名字看起来要洋气一点. 那么最近到底咋不更新博客了呢?说 ...
Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...
python模拟浏览器爬取数据
爬虫新手大坑:爬取数据的时候一定要设置header伪装成浏览器!!!! 在爬取某财经网站数据时由于没有设置Header信息,直接被封掉了ip 后来设置了Accept.Connection.User-A ...

随机推荐

Spring核心概念（二）
IOC/DI IOC(控制反转):对象(组件)的创建由代码中转移到外部容器(XML,注解) . DI(依赖注入):当类A需要使用类B时,那么我们需要为类A的属性赋值类B的对象. 这种现象我们称为依赖注 ...
微信小程序之答题领券系统构建
这个项目做了有一段时间了,客户需求反复更改,所以版本也是在不断迭代,下面简要说明一下这个系统的构建过程吧系统功能: 1.基于商城系统开发的商品答题领券功能 2.首页商品列表页显示当前商品的答题状态 ...
java.sql.SQLException: Unsupported character encoding 'utf8mb4'.
四月 12, 2017 3:47:52 下午 org.apache.catalina.core.StandardWrapperValve invoke 严重: Servlet.service() fo ...
Java 进阶巩固：什么是注解以及运行时注解的使用
这篇文章 2016年12月13日星期二就写完了,当时想着等写完另外一篇关于自定义注解的一起发.结果没想到这一等就是半年多 - -. 有时候的确是这样啊,总想着等条件更好了再干,等准备完全了再开始,结 ...
HDU 1033
http://acm.hdu.edu.cn/showproblem.php?pid=1033 这题的题干说的很绕,结合样例不难理解题意,走折线,A代表顺时针,V代表逆时针,给一个包含A和V的字符串,输 ...
vscode+Firefox实现前端移动真机测试
需要配件: 1.安装有火狐浏览器的移动端(手机); 2.安装有火狐浏览器和vscode的pc(电脑); 3.在vscode安装Live Server 插件 4.安装之后vscode右下角会有Go Li ...
会议室预定demo mrbs
关于会议室的增删改查查: HTML: login继承django自带的admin用户认证系统 <!DOCTYPE html> <html lang="en"&g ...
【剑指offer】二叉树中和为某一值的路径，C++实现
原创文章,转载请注明出处! 博客文章索引地址 1.题目输入一颗二叉树和一个整数,打印出二叉树中结点值的和为输入整数的所有路径.路径由结点和有向边组成,从根结点到叶节点. // 二叉树结点的定义 st ...
SQL Server Profiler 跟踪远程服务器的语句
同事测试软件报错,想连Ta的数据库跟踪下语句,结果提示: 对比了下自己的探查器设置,勾选几个事件就可以了:
apk系统签名命令
java -jar signapk.jar platform.x509.pem platform.pk8 D:/ClockSetting.apk D:/ClockSettingSigned.apk 需 ...

记一次爬需要登录之后才能爬取数据的demo

记一次爬需要登录之后才能爬取数据的demo的更多相关文章

随机推荐

热门专题