java爬虫抓取腾讯漫画评论

package com.eteclab.wodm.utils;

import java.io.BufferedWriter;

import java.io.File;

import java.io.FileWriter;

import java.io.IOException;

import java.util.ArrayList;

import java.util.Date;

import java.util.HashMap;

import java.util.List;

import java.util.Map;

import java.util.concurrent.Executor;

import java.util.concurrent.Executors;

import org.jsoup.Connection;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

public class MySearchTest2 {

	private final static Executor executor = Executors.newCachedThreadPool();// 启用多线程

	private static String mainUrl = "http://ac.qq.com/Comic/index/state/pink/page/";// 可以根据腾讯漫画的分类来进行抓取

	private static String url = "http://ac.qq.com/Jump";// +/Comic/comicInfo/id/11111

														// 可以获取具体的漫画页面

	public static void main(String[] args) {

		for (int i = 1; i <= 144; i++) {//可以分析漫画的总页数来进行调用

			final int j = i;

			executor.execute(new Runnable() {

				@Override

				public void run() {

					try {

						System.out.println("begin*************第" + j + "页");

						getArticleListFromUrl(mainUrl + j, j);

						System.out.println("end*************第" + j + "页");

					} catch (Exception e) {

						System.err.println("**********************获取漫画错误**********************");

						e.printStackTrace();

					}

				}

			});

		}

	}

	/**

	 * 获取日漫列表

	 *

	 * @param listurl

	 */

	public static void getArticleListFromUrl(String listurl, int j) {

		Document doc = null;

		try {

			doc = Jsoup

					.connect(listurl)

					.userAgent(

							"Mozilla/5.0 (Windows NT 10.0; WOW64; rv:55.0) Gecko/20100101 Firefox/55.0")

					.timeout(3000).get();

		} catch (IOException e) {

			System.err.println("**********************获取评论请求错误**********************");

			e.printStackTrace();

		}

		// System.out.println(doc);

		Elements elements = doc.getElementsByTag("a");// 找到所有a标签

		for (Element element : elements) {

			String relHref = element.attr("href"); // ==

													// "/"这个是href的属性值，一般都是链接。这里放的是漫画的连接

			String linkHref = element.text();

			// 用if语句过滤掉不是漫画链接的内容

			if (!relHref.startsWith("http://")

					&& relHref.contains("/Comic/comicInfo/id")) {

				StringBuffer sb = new StringBuffer();

				sb.append(url).append(relHref);

				String id = sb.substring(sb.lastIndexOf("/") + 1);

				try {

					for (int i = 1; i <= 50; i++) {//默认取50页评论

						getArticleFromUrl(sb.toString(), Integer.valueOf(id),

								i, j);// 查询第i页的评论

					}

				} catch (Exception e) {

					// TODO: handle exception

					System.err.println("**********************获取评论分页错误**********************");

					e.printStackTrace();

				}

			}

		}

	}

	/**

	 * 获取评论内容，调用评论接口主要就是要获取漫画页面的cookies信息，调用时一起传过去；

	 *

	 * @param detailurl

	 *            评论的url

	 * @param id

	 *            资源id

	 * @param page

	 *            评论页数

	 */

	public static void getArticleFromUrl(String detailurl, Integer id,

			Integer page, Integer mainIndex) {

		try {

			long i = System.currentTimeMillis();// 生成时间戳

			Connection connect = Jsoup

					.connect("http://ac.qq.com/Community/topicList?targetId="

							+ id + "&page=" + page + "&_=" + i);

			Map<String, String> header = new HashMap<String, String>();

			header.put("User-Agent",

					"Mozilla/5.0 (Windows NT 10.0; WOW64; rv:55.0) Gecko/20100101 Firefox/55.0");

			header.put(

					"Referer",

					"http://ac.qq.com/Comic/ComicInfo/id/530132?trace_id=1_907_10.194.156.134_1504854317");

			header.put(

					"Cookie",

					"LW_uid=q19499A3B6c0z0Y4z0k5h18046; pgv_pvid=8070181612; eas_sid=11O4U96326x0V0r4j0I5b2c073; pgv_pvi=623979520"

							+ "; pt2gguin=o0877101804; RK=zfdTLMzqZc; ptcz=264e6df783796823cf379b14e6aef6aa3be6a4e2fb4b6126692ee05c2a0b0c4c"

							+ "; ue_ts=1493600756; ue_uk=a058f8c6bbbe035c75bece7707297348; ue_uid=e5fb4837d184233402086deba8d197aa;"

							+ " ue_skey=0e157906ef4cb8f560768be75c751a72; LW_pid=7813c0ffd4b168e438f4a5a82ad1c993; ts_uid=2015751548"

							+ "; ts_refer=www.baidu.com/link; theme=white; roastState=2; readRecord=%5B%5B505430%2C%22%E8%88%AA%E6%B5"

							+ "%B7%E7%8E%8B%22%2C888%2C%22%E7%AC%AC871%E8%AF%9D%20%E5%8A%A0%E6%B2%B9%E5%95%8A%EF%BC%81%E5%87%AF%E6%92"

							+ "%92%EF%BC%81%EF%BC%81%22%2C871%5D%5D; readLastRecord=%5B%5D; pgv_si=s8053975040; pgv_info=ssid=s26281936"

							+ "; ts_last=ac.qq.com/Comic/ComicInfo/id/530132; girlHideState=1; topicPop=1; pc_userinfo_cookie=; o_cookie"

							+ "=877101804");

			Connection data = connect.headers(header);

			Document document = data.get();

			Elements elements = document.getElementsByAttributeValue("class",

					"comment-content-detail");

			List<String> commList = new ArrayList<String>();

			for (Element element : elements) {

				commList.add(element.text());

			}

			/*JSONArray json = new JSONArray();

			for (int j = 0; j < commList.size(); j++) {

				JSONObject jo = new JSONObject();

				jo.put("comment", commList.get(j));

				json.add(jo);

			}

			String comment = json.toString();*/

			String comment = StringUtils.listToString(commList, '\r');

			String date = DateUtilsTool.getLongDate(new Date());

			String indexString = formatCode(mainIndex.toString());

			saveArticle(date +indexString , comment);

		} catch (IOException e) {

			System.err.println("**********************获取评论错误**********************");

			e.printStackTrace();

		}

	}

	private static String formatCode(String code) {

		StringBuilder sb = new StringBuilder();

		int a = 4 - code.length();

		if (a < 0) {

			throw new RuntimeException("formatCode错误 code超过9999");

		}

		for (int i = 0; i < a; i++) {

			sb.append("0");

		}

		sb.append(code);

		return sb.toString();

	}

	/**

	 * 保存内容到本地

	 *

	 * @param titile

	 * @param content

	 * @param blogName

	 */

	public static void saveArticle(String titile, String content) {

		String filePath = "d:\\MyLoadArticle\\" + titile + ".txt";// 保存到本地的路径和文件名

		File file = new File(filePath);

		if (!file.getParentFile().exists()) {

			file.getParentFile().mkdirs();

		}

		try {

			file.createNewFile();

		} catch (IOException e) {

			System.err.println("*******************读取文件错误*******************");

			e.printStackTrace();

		}

		try {

			FileWriter fw = new FileWriter(file, true);

			BufferedWriter bw = new BufferedWriter(fw);

			bw.write(content);

			bw.flush();

			bw.close();

			fw.close();

		} catch (IOException e) {

			System.err.println("*******************写入文件错误*******************");

			e.printStackTrace();

		}

	}

}

　　pom.xml文件需要添加的jar包

<dependency>

			<groupId>org.jsoup</groupId>

			<artifactId>jsoup</artifactId>

			<version>1.10.3</version>

		</dependency>

　　程序中的工具类：

//时间转换类

/**

	 * 将Date日期转换成String长类型的yyyyMMddHHmmss

	 * @author: Simon

	 * @date: 2017年9月9日 上午9:40:39

	 * @param date

	 * @return

	 */

	public static String getLongDate(Date date) {

		SimpleDateFormat sdf=new SimpleDateFormat("yyyyMMdd");

		String ret = sdf.format(date);

		return ret;

	}

//list根据给定的字符进行切割成String类型

/**

	 * list转string

	 * @author: Simon

	 * @date: 2017年9月9日 上午10:24:52

	 * @param list

	 * @param separator

	 * @return

	 */

	 public static String listToString(List list, char separator) {

		 StringBuilder sb = new StringBuilder();

		 for (int i = 0; i < list.size(); i++) {

		     if (i == list.size() - 1) {

		     sb.append(list.get(i));

		     } else {

		     sb.append(list.get(i));

		     sb.append(separator);

		     }

		 }

		 return sb.toString();

		    }

java爬虫抓取腾讯漫画评论的更多相关文章

【Python3 爬虫】16_抓取腾讯视频评论内容
上一节我们已经知道如何使用Fiddler进行抓包分析,那么接下来我们开始完成一个简单的小例子抓取腾讯视频的评论内容首先我们打开腾讯视频的官网https://v.qq.com/ 我们打开[电视剧]这 ...
iOS—网络实用技术OC篇&网络爬虫－使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件上一 ...
iOS开发——网络实用技术OC篇&网络爬虫－使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件上一 ...
Java 实现 HttpClients+jsoup，Jsoup，htmlunit，Headless Chrome 爬虫抓取数据
最近整理一下手头上搞过的一些爬虫,有HttpClients+jsoup,Jsoup,htmlunit,HeadlessChrome 一,HttpClients+jsoup,这是第一代比较low,很快就 ...
用python实现的抓取腾讯视频所有电影的爬虫
1. [代码]用python实现的抓取腾讯视频所有电影的爬虫 # -*- coding: utf-8 -*-# by awakenjoys. my site: www.dianying.atim ...
Python爬虫实现抓取腾讯视频所有电影【实战必学】
2019-06-27 23:51:51 阅读数 407 收藏更多分类专栏: python爬虫前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问 ...
Python爬虫---爬取腾讯动漫全站漫画
目录操作环境网页分析明确目标提取漫画地址提取漫画章节地址提取漫画图片编写代码导入需要的模块获取漫画地址提取漫画的内容页提取章节名获取漫画源网页代码下载漫画图片下载结果完整 ...
爬虫抓取页面数据原理（php爬虫框架有很多）
爬虫抓取页面数据原理(php爬虫框架有很多 ) 一.总结 1.php爬虫框架有很多,包括很多傻瓜式的软件 2.照以前写过java爬虫的例子来看,真的非常简单,就是一个获取网页数据的类或者方法(这里的话 ...
爬虫技术 -- 进阶学习（七）简单爬虫抓取示例（附c#代码）
这是我的第一个爬虫代码...算是一份测试版的代码.大牛大神别喷... 通过给定一个初始的地址startPiont然后对网页进行捕捉,然后通过正则表达式对网址进行匹配. List<string&g ...

随机推荐

[CQOI2012]组装（贪心）
CQOI2012]组装 solution: 蒟蒻表示并不会模拟退火,所以用了差分数组加贪心吗.我们先来看题: 在数轴上的某个位置修建一个组装车间到组装车间距离的平方的最小值. 1<=n< ...
JavaScript学习 - 基础(八) - DOM 节点添加/删除/修改/属性值操作
html代码:  <div id="a1"> <button id="a2" onclick=&q ...
IIS配置过程中的常见问题
解析Json需要设置Mime IIS6.0 1.打开IIS添加Mime项关联扩展名:*.json内容类型(MIME):application/x-JavaScript 2.添加映射: 位置 ...
技巧：Vim 的纵向编辑模式【转】
转自:https://www.ibm.com/developerworks/cn/linux/l-cn-vimcolumn/ 张曜民和卢丹2011 年 2 月 18 日发布 WeiboGoog ...
MVC自定义视图引擎地址
先看结构 1.RouteConfig 文件(注意顺序) public static void RegisterRoutes(RouteCollection routes) { routes.Ignor ...
odoo - context
得到整个context self.context_get() self.env['res.users'].context_get() 得到context里面对应的值 eg:得到flag的值 self. ...
git 使用https 和SSH 提交远程库小总结
一.使用https提交远程库首先已经git commit -m “注释” 本地仓库关联远程github服务器:git remote add origin “https://XXXX.git” 提交 ...
编译安装lamp环境
httpd 2.4.9 + mysql-5.5.33 + php-5.4.29编译安装过程: 准备好以下安装包: mysql-5.5.33-linux2.6-x86_64.tar.gz apr-uti ...
使用Let's Encrypted HPPTS你的网站
1.前言最近,有同事咨询我,怎么样使用Let's Encrypted部署数字证书,于是,结合自己之前的实践,简单总结下. 2.HTTPS的优势什么加密,防篡改,防广告植入什么的,这个就不多说了.这 ...
visual studio 2017 installer 安装包制作过程出现的问题---无法注册模块 HRESULT -2147024769 请与您的技术支持人员联系
使用visual studio 2017 installer制作打包程序时如果用到了外部控件需要按以下方式操作: 1.将应用程序及应用程序所用到的所有DLL拷贝到打包目录,加入打包程序之中. 2.将应 ...

java爬虫抓取腾讯漫画评论

java爬虫抓取腾讯漫画评论的更多相关文章

随机推荐

热门专题