java尝试爬取一些简单的数据,比python复杂点

  示例:爬取网站中的所有古风网名:http://www.oicq88.com/gufeng/,并储存入数据库(mysql)

    jdk版本:jdk1.8

    编辑器:idea

    项目构建:maven

    所需jar包:http://jsoup.org/packages/jsoup-1.8.1.jar

    或maven依赖如下:

        <dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.7.3</version>
</dependency>

  

具体代码如下:

package com.ssm.web.timed;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List; import com.ssm.commons.JsonResp;
import com.ssm.utils.ExportExcel;
import org.apache.log4j.Logger;
import org.jsoup.*;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RestController; import javax.servlet.http.HttpServletResponse; @RequestMapping
@RestController
public class TestCrawlerTime {
private Logger log = Logger.getLogger(this.getClass()); //根据url从网络获取网页文本
public static Document getHtmlTextByUrl(String url, String page) {
Document doc = null;
try {
//doc = Jsoup.connect(url).timeout(5000000).get();
int i = (int) (Math.random() * 1000); //做一个随机延时,防止网站屏蔽
while (i != 0) {
i--;
}
doc = Jsoup.connect(url + page).data("query", "Java")
.userAgent("Mozilla").cookie("auth", "token")
.timeout(300000).get();
} catch (IOException e) {
/*try {
doc = Jsoup.connect(url).timeout(5000000).get();
} catch (IOException e1) {
e1.printStackTrace();
}*/
System.out.println("error: 第一次获取出错");
}
return doc;
} //递归查找所有的名字
public static List getAllNames(List<String> names, String url, String page){
Document doc = getHtmlTextByUrl(url, page);
Elements nameTags = doc.select("div[class=listfix] li p"); //名字标签
for (Element name : nameTags){
names.add(name.text());
}
Elements aTags = doc.select("div[class=page] a[class=next]"); //页数跳转标签
for (Element aTag : aTags){
if ("下一页".equals(aTag.text())){ //是下一页则继续爬取
String newUrl = aTag.attr("href");
getAllNames(names, url, newUrl);
}
}
return names;
} /**
* @Description: 导出爬取到的所有网名
* @Param:
* @return:
* @Author: mufeng
* @Date: 2018/12/11
*/
@RequestMapping(value = "/exportNames")
public JsonResp export(HttpServletResponse response){
log.info("导出爬取到的所有网名");
String target = "http://www.oicq88.com/";
String page = "/gufeng/1.htm";
List names = new ArrayList();
getAllNames(names, target, page);
System.out.println(names.size());
List<Object[]> lists = new ArrayList<>();
Integer i = 1;
for (Object name : names){
lists.add(new Object[]{i, name});
i ++;
}
String[] rowName = new String[]{ "", "网名"};
ExportExcel exportExcel = new ExportExcel("古风网名大全", rowName, lists);
try {
exportExcel.export(response);
} catch (Exception e) {
e.printStackTrace();
}
return JsonResp.ok();
} public static void main(String[] args) {
String target = "http://www.oicq88.com/";
String page = "/gufeng/1.htm";
List names = new ArrayList();
getAllNames(names, target, page);
System.out.println(names.size());
System.out.println(names.get(0));
System.out.println(names.get(names.size()-1));
} }

  运行结果如下:

    

    

  参考教程:https://www.cnblogs.com/Jims2016/p/5877300.html

       https://www.cnblogs.com/qdhxhz/p/9338834.html

       https://www.cnblogs.com/sanmubird/p/7857474.html

附:python爬取数据

java爬虫学习的更多相关文章

  1. Java 爬虫学习

    Java爬虫领域最强大的框架是JSoup:可直接解析具体的URL地址(即解析对应的HTML),提供了一套强大的API,包括可以通过DOM.CSS选择器,即类似jQuery方式来取出和操作数据.主要功能 ...

  2. 半途而废的Java爬虫学习经历

    最近在面试,发现Java爬虫对于小数据量数据的爬取的应用还是比较广,抽空周末学习一手,留下学习笔记 Java网络爬虫 简单介绍 爬虫我相信大家都应该知道什么,有什么用,主要的用途就是通过程序自动的去获 ...

  3. Java爬虫学习(3)之用对象保存新浪微博博文

    package com.mieba; import us.codecraft.webmagic.Page; import us.codecraft.webmagic.Site; import us.c ...

  4. Java爬虫学习(1)之爬取新浪微博博文

    本次学习采用了webmagic框架,完成的是一个简单的小demo package com.mieba.spiader; import us.codecraft.webmagic.Page; impor ...

  5. Java爬虫学习(2)之用对象保存文件demo(1)

    package com.mieba.spider; import java.util.ArrayList; import java.util.List; import java.util.Vector ...

  6. java爬虫案例学习

    最近几天很无聊,学习了一下java的爬虫,写一些自己在做这个案例的过程中遇到的问题和一些体会1.学习目标         练习爬取京东的数据,图片+价格+标题等等 2.学习过程 1·开发工具      ...

  7. (java)Jsoup爬虫学习--获取智联招聘(老网站)的全国java职位信息,爬取10页

    Jsoup爬虫学习--获取智联招聘(老网站)的全国java职位信息,爬取10页,输出 职位名称*****公司名称*****职位月薪*****工作地点*****发布日期 import java.io.I ...

  8. (java)Jsoup爬虫学习--获取网页所有的图片,链接和其他信息,并检查url和文本信息

    Jsoup爬虫学习--获取网页所有的图片,链接和其他信息,并检查url和文本信息 此例将页面图片和url全部输出,重点不太明确,可根据自己的需要输出和截取: import org.jsoup.Jsou ...

  9. 学习Java爬虫文档的学习顺序整理

    1.认识正则表达式(Java语言基础) https://www.toutiao.com/i6796233686455943693/ 2.正则表达式学习之简单手机号和邮箱练习 https://www.t ...

随机推荐

  1. 【转】MongoDB导入导出以及数据库备份

    -------------------MongoDB数据导入与导出------------------- 1.导出工具:mongoexport     1.概念:         mongoDB中的m ...

  2. understand试用笔记一阅读VS2010项目

    一.查看vs2010项目 打开understand,File—New—Project...—Next—Next [向导第三步,选“Import Visual Sudio project files”] ...

  3. 相似性度量 Aprioir算法

    第三章 标称:转换成0,1来算,或者用非对称二元属性 二元:x1,x2的分布取00,01,10,11的二元属性个数,列表,算比例.不对称的二元属性就忽略00的属性个数 序数:转换成排位rif,度量:r ...

  4. HDU 4310 Hero (贪心)

    题意:给定你有 n 个敌人,你的伤害是 1,给出每个敌人的伤害,和敌人的血量,每一回合你可以攻击一个敌人,并且所有敌人都会攻击你,除非它已经死了,问你最少要多少要消耗多少血量. 析:一个很明显的贪心问 ...

  5. 常见笔记本进入bios方法

    联想 y510p ->F2 ThinkPad E431 -> Fn + F1

  6. Cmd Markdown语法参考

    https://www.zybuluo.com/mdeditor markdown语法说明 Markdown中公式的写法 $$P(X=k)=C_n^kp^k(1-p)^{n-k}$$ 欢迎使用 Cmd ...

  7. mysql-5.7.19 压缩安装 设置密码

    初始化完毕后,如果没使用新版本的客户端登入,还会报告类似下面的错误: mysql -uroot -p Enter password: ERROR 1862 (HY000): Your password ...

  8. Lua 常用遍历

    b = {} , do b[i] = i end -- method one for i, v in pairs(b) do print (i, v) end -- method two for i, ...

  9. centos6.4 安装wireless驱动

    安装完centos6.4之后,目测只有有线的驱动,没有无线驱动. 一.检测网卡 [root@centos ~]# lspci | grep Net :.11b/g LP-PHY (rev ) :) 第 ...

  10. C++指针二(易错模型)

    规则一:Main(主调函数)分配的内存(在堆区,栈区.全局区)都可以在被调用函数里使用.如果在被调用函数里面的临时区(栈)分配内存,主调用函数是不能使用的. #include "stdio. ...