Jsoup-简单爬取知乎推荐页面（附：get

总览

今天我们就来小用一下Jsoup，从一个整体的角度来看一看爬虫

一个基本的爬虫框架包括：

[x] 解析网页
[x] 失败重试
[x] 抓取内容保存至本地
[x] 多线程抓取

分模块讲解

将上述基本框架的模块按逻辑顺序讲解，一步一步复现代码实现过程

失败重试

一个好的模块必然有异常捕捉和处理

在之前的内容中，我们提到过一个简单的异常处理，小伙伴还记得么

简易版

    // 爬取的网址

    val url = "https://www.zhihu.com/explore/recommendations"

    // 加上TryCatch框架

    Try(Jsoup.connect(url).get())match {

      case Failure(e) =>

        // 打印异常信息

        println(e.getMessage)

      case Success(doc:Document) =>

        // 解析正常则返回Document，然后提取Document内所需信息

        println(doc.body())

    }

今天我们来在之上稍微丰富一下，把他包装的更健壮一点

丰富版

   var count = 0	//解析网页时统计抓取数用

  //用于记录总数，和失败次数

  val sum, fail: AtomicInteger = new AtomicInteger(0)

  //当出现异常时1s后重试,异常重复100次

  def requestGetUrl(times:Int=100,delay:Long=1000) : Unit ={

    Try(Jsoup.connect(Url).userAgent(get_agent()).get())match {

 case Failure(e) =>{

        if(times!=0){

          println(e.getMessage) //打印错误信息

          Thread.sleep(delay) //等待1s

          fail.addAndGet(1) //失败次数+1

          requestGetUrl(times-1,delay)  //times-1后，重调方法

        }else throw e

      }

      case Success(doc) =>

        parseDoc(doc)

        if (count==0){  // 解析网页时用来统计是否抓取为空

          Thread.sleep(delay)

          requestGetUrl(times-1,delay)

        }

        sum.addAndGet(1)  //成功次数+1

    }

  }

get_agent()说明

  //自己设置一下user-agent，或者更好的是，可以从一系列的user-agent里随机挑出一个符合标准的使用

  def get_agent()={

  //模拟header的user-agent字段，返回一个随机的user-agent字典类型的键值对

    val agents=Array("Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;",

      "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv,2.0.1) Gecko/20100101 Firefox/4.0.1",

      "Mozilla/4.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)",

      "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11",

      "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11")

    val ran = new Random().nextInt(agents.length)

    agents(ran)

  }

解析网页

沿用上一篇我们写过的方法就可以

  //解析Document

  var count = 0

  //用一个hashmap来保存住区的内容

  val text = new ConcurrentHashMap[String,String]()

  def parseDoc(doc:Document): Unit ={

    // 解析正常则返回Document，然后提取Document内所需信息

    val links = doc.select("div.zm-item") //选取class为"zm-item"的div

    for (link<-links.asScala) { //遍历每一个这样的div

      val title = link.select("h2").text() //选取div中的所有"h2"标签，并读取它的文本内容

      val approve = link.select("div.zm-item-vote").text() //找到赞同的位置，选中它并读取它的文本内容

      //逐层找到唯一识别的标签，然后选中（唯一识别很关键）

      val author = link.select("div.answer-head").select("span.author-link-line").select("a").text()

      val content = link.select("div.zh-summary.summary.clearfix").text() //多个class类型，直接加.就行，如.A.B.C

      text.put(title,author+"\t"+approve+"\t"+content)

      count+=1

    }

    count

  }

抓取内容保存至本地

  // 获取当前日期

  def getNowDate(): String ={

    new SimpleDateFormat("yyMMdd").format(new Date())

  }

  // 爬取内容写入文件

  def output(zone:String): Unit ={

    val writer = new PrintWriter(new File(getNowDate()+"_"+zone++".txt"))

    for((title,value)<-text){

      writer.println(title+value)

    }

    writer.flush()

    writer.close()

  }

抓取内容展示

多线程抓取

  //多线程抓取

  def concurrentCrawler(zone: String,maxPage:Int,threadNum:Int)={

    var loopar = (1 to maxPage).par

    loopar.tasksupport = new ForkJoinTaskSupport(new ForkJoinPool(threadNum))

    loopar.foreach(x=>requestGetUrl())

    output(zone)

  }

get_agent()补充说明及福利

def get_agent()={

    //模拟header的user-agent字段，返回一个随机的user-agent字典类型的键值对

    val agents=Array("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",

      "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",

      "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",

      "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",

      "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",

      "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",

      "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",

      "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

      "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

      "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

      "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",

      "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",

      "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

      "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

      "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

      "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",

      "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",

      "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",

      "Mozilla/5.0 (Macintosh; U; Mac OS X Mach-O; en-US; rv:2.0a) Gecko/20040614 Firefox/3.0.0 ",

      "Mozilla/5.0 (Macintosh; U; PPC Mac OS X 10.5; en-US; rv:1.9.0.3) Gecko/2008092414 Firefox/3.0.3",

      "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.5; en-US; rv:1.9.1) Gecko/20090624 Firefox/3.5",

      "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.6; en-US; rv:1.9.2.14) Gecko/20110218 AlexaToolbar/alxf-2.0 Firefox/3.6.14",

      "Mozilla/5.0 (Macintosh; U; PPC Mac OS X 10.5; en-US; rv:1.9.2.15) Gecko/20110303 Firefox/3.6.15",

      "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1",

      "Mozilla/5.0(Macintosh;U;IntelMacOSX10_6_8;en-us)AppleWebKit/534.50(KHTML,likeGecko)Version/5.1Safari/534.50")

    val ran = new Random().nextInt(agents.length)

    agents(ran)

  }

结尾唠叨两句

如果你对我的文章感兴趣，欢迎你点开我下一篇文章，后面我将手把手带你一起完成一个个小case，对了如果你也有好的想法，欢迎沟通交流

今天主要是带大家一起完成了知乎网站的爬取，练一练手，熟能生巧！

Jsoup-简单爬取知乎推荐页面（附：get_agent()）的更多相关文章

python scrapy简单爬虫记录(实现简单爬取知乎)
之前写了个scrapy的学习记录,只是简单的介绍了下scrapy的一些内容,并没有实际的例子,现在开始记录例子使用的环境是python2.7, scrapy1.2.0 首先创建项目在要建立项目的目 ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
scrapy 爬取知乎问题、答案，并异步写入数据库（mysql）
python版本 python2.7 爬取知乎流程: 一 .分析在访问知乎首页的时候(https://www.zhihu.com),在没有登录的情况下,会进行重定向到(https://www. ...
python 爬取知乎图片
先上完整代码 import requests import time import datetime import os import json import uuid from pyquery im ...
通过scrapy，从模拟登录开始爬取知乎的问答数据
这篇文章将讲解如何爬取知乎上面的问答数据. 首先,我们需要知道,想要爬取知乎上面的数据,第一步肯定是登录,所以我们先介绍一下模拟登录: 先说一下我的思路: 1.首先我们需要控制登录的入口,重写star ...
Golang+chromedp+goquery 简单爬取动态数据
目录 Golang+chromedp+goquery 简单爬取动态数据 Golang的安装下载golang软件解压golang 配置golang 重新导入配置 chromedp框架的使用实际的代 ...
教程+资源,python scrapy实战爬取知乎最性感妹子的爆照合集(12G)!
一.出发点: 之前在知乎看到一位大牛(二胖)写的一篇文章:python爬取知乎最受欢迎的妹子(大概题目是这个,具体记不清了),但是这位二胖哥没有给出源码,而我也没用过python,正好顺便学一学,所以 ...
python scrapy爬取知乎问题和收藏夹下所有答案的内容和图片
上文介绍了爬取知乎问题信息的整个过程,这里介绍下爬取问题下所有答案的内容和图片,大致过程相同,部分核心代码不同. 爬取一个问题的所有内容流程大致如下: 一个问题url 请求url,获取问题下的答案个数 ...
使用python scrapy爬取知乎提问信息
前文介绍了python的scrapy爬虫框架和登录知乎的方法. 这里介绍如何爬取知乎的问题信息,并保存到mysql数据库中. 首先,看一下我要爬取哪些内容: 如下图所示,我要爬取一个问题的6个信息: ...

随机推荐

python_面向对象——多继承
1.多继承 class Shenxian: def fly(self): print('神仙会飞~') class Monkey: def eat_peach(self): print('猴子喜欢吃桃 ...
Mybatis配置文件中#{ }和${ }的区别
#{ }和${ }都可以从map中取到相对应的值, 但是 #{ }采取的是预编译的方式(PreparedStatement)来执行sql语句,有效防止了sql注入问题 select * from bo ...
使用bootstrap的栅格布局，用row后出现横向滚动条
原因: **row默认有:margin-left:-15px; margin-right:-15px: 解决办法: **row外层需要包裹container或者container-fluid,一句话就 ...
HttpServletRequest获取浏览器、服务端和客户端信息
如何通过HttpServletRequest来获取到上面的属性呢? 1.引入开源工具 <!-- https://mvnrepository.com/artifact/eu.bitwalker/U ...
Oracle ORA-00600[2662] 解决
一.问题描述 1.数据库情况 1)数据库版本:11.2.0.4: 2)未开启归档: 3)没有备份:无RMAN备份.无DUMP备份: 4)数据库redo log 日志组,每组只有一个成员: 2.问题出现 ...
二十.Nginx反向代理、Nginx的TCP/UDP调度器、Nginx常见问题处理
proxy client web1 web2 1.nginx反向代理使用Nginx实现Web反向代理功能,实现如下功能: 后端Web服务器两台(web1 192.168.2.100 web2 ...
CF369E Valera and Queries kdtree
给你一堆线段,求:一个区间内包含的本质不同线段种类数(只要线段有一部分在区间中就算是包含) 考虑容斥:总线段数-被那些没有询问的区间完全覆盖的数量. 用离线+树状数组数点或者 KDtree 数点即可. ...
DBUtils的最基本的使用
背景学习了如何连接数据库之后,发现里面进行查询的过程有点麻烦,因此使用DBUtils包来简化操作配置环境 win10 jdk11 idea mysql8.0.13 jar包连接数据库的包 c3p ...
vue中点击复制粘贴功能 clipboard 移动端
页面是由 v-for 循环渲染出来,要给每一个结构里面的复制按钮加一个复制功能 npm install clipboard --save 安装,如果安装处问题,多安装几次,我自己也安装了好几次 ...
使用Redis sorted set实现集合设置member过期
在我们日常工作中,有许多这种逻辑例如需要得到最近三分钟的cache list. 例如我们监控系统需要查询最近一分钟的数据. 总结说来就是需要一个list存储对象,并且这个对象会无限制增长,需要设置 ...

Jsoup-简单爬取知乎推荐页面（附：get_agent()）

总览

分模块讲解

结尾唠叨两句

Jsoup-简单爬取知乎推荐页面（附：get_agent()）的更多相关文章

随机推荐

热门专题