beautifulsoup爬取糗事百科

 # _*_ coding:utf-8 _*_

 import urllib2

 from bs4 import BeautifulSoup

 user_agent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0"

 headers = {'User-Agent':user_agent}

 url = "https://www.qiushibaike.com"

 # 爬取article链接的content内容

 def getContent(article_url, headers):

     request = urllib2.Request(article_url,data=None,headers=headers)

     response = urllib2.urlopen(request,timeout=60)

     html = response.read().decode('utf-8')

     soup = BeautifulSoup(html,'html.parser')

     contents= soup.select('.content')[0].strings

     print u"内容："

     for content in contents:

         print u"%s" % content.strip()

     print '\n'

 # ----------------------------

 # 获取"https://www.qiushibaike.com/hot/page/1/"页面的作者、好笑、评论，文章地址信息

 def getData(url, headers,pages=1):

     for page in range(1,pages+1):

         page_url = url + "/hot/page/" + str(page)

         print "正在爬取第 %s 页+++" % page

         request = urllib2.Request(page_url,data=None,headers=headers)

         response = urllib2.urlopen(request,timeout=60)

         html = response.read().decode('utf-8')

         # print html

         soup = BeautifulSoup(html,'html.parser')

         authors = soup.select('h2')

         smile_nums = soup.select('.stats-vote > .number')

         comment_nums = soup.select('.stats-comments > .qiushi_comments > .number')

         article_urls = soup.select('.contentHerf')

         for i in range(25):

             print "正在爬取第 %s 页的第 %s 条数据---" % (page,i+1)

             author = authors[i].string.strip()

             print u"作者： %s" % author

             funny_num = smile_nums[i].string

             comment_num = comment_nums[i].string

             print u"好笑： %s" % funny_num

             print u"评论： %s"% comment_num

             article_url = article_urls[i]['href']

             article_url = url + article_url

             # print article_url

             getContent(article_url, headers)

 # ---------------------------------

 getData(url,headers,pages=10)

beautifulsoup爬取糗事百科的更多相关文章

python_爬虫一之爬取糗事百科上的段子
目标抓取糗事百科上的段子实现每按一次回车显示一个段子输入想要看的页数,按 'Q' 或者 'q' 退出实现思路目标网址:糗事百科使用requests抓取页面 requests官方教程使用 ...
python爬虫之爬取糗事百科并将爬取内容保存至Excel中
本篇博文为使用python爬虫爬取糗事百科content并将爬取内容存入excel中保存·. 实验环境:Windows10 代码编辑工具:pycharm 使用selenium(自动化测试工具)+p ...
8.Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
python网络爬虫--简单爬取糗事百科
刚开始学习python爬虫,写了一个简单python程序爬取糗事百科. 具体步骤是这样的:首先查看糗事百科的url:http://www.qiushibaike.com/8hr/page/2/?s=4 ...
python学习（十六）写爬虫爬取糗事百科段子
原文链接:爬取糗事百科段子利用前面学到的文件.正则表达式.urllib的知识,综合运用,爬取糗事百科的段子先用urllib库获取糗事百科热帖第一页的数据.并打开文件进行保存,正好可以熟悉一下之前学过 ...
16-多线程爬取糗事百科（python+Tread）
https://www.cnblogs.com/alamZ/p/7414020.html 课件内容 #_*_ coding: utf-8 _*_ ''' Created on 2018年7月17日 ...
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
python爬取糗事百科段子
初步爬取糗事百科第一页段子(发布人,发布内容,好笑数和评论数) #-*-coding:utf--*- import urllib import urllib2 import re page = url ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...

随机推荐

mybatis出现无效的列类型
package com.webapp.hanqi.test; import java.util.Date; import org.junit.jupiter.api.AfterEach; import ...
浅谈https和http2
最近被问到http2和https的相关知识,这是一篇补基础的博客: 首先想说下https 什么是https https的主要用处: - 建立信息安全通道,保证数据传输的安全 - 确保网站的真实性,防止 ...
搭建zookeeper和Kafka集群
搭建zookeeper和Kafka集群: 本实验拥有3个节点,均为CentOS 7系统,分别对应IP为10.211.55.11.10.211.55.13.10.211.55.14,且均有相同用户名 ( ...
“菜”鸟理解.NET Framework(CLI,CLS,CTS,CLR,FCL,BCL)
既然要学.NET,就要先认识认识她,我不喜欢大段大段文字的东西,自己通过理解,画个图,来看看.NET的沉鱼落雁,闭月羞花之容. 最下层蓝色部分是.NET Framework的基础,也是所有应用软件的基 ...
关于Mybatis浅谈
1. 历史 MyBatis本是apache的一个开源项目iBatis. 2010年这个项目由apache software foundation 迁移到了google code,并且取名为MyBati ...
java集合类，HashMap,ArrayList
集合类 Collection LinkedList.ArrayList.HashSet是非线程安全的, Vector是线程安全的; ArrayXxx:底层数据结构是数组,连续存放,所以查询快,增删慢. ...
机器学习入门：Linear Regression与Normal Equation -2017年8月23日22:11:50
本文会讲到: (1)另一种线性回归方法:Normal Equation: (2)Gradient Descent与Normal Equation的优缺点: 前面我们通过Gradient Desce ...
十、JAVA面试简答
2.ASCII编码表的常识 3.&和&&,|和||的区别下面我们就分成三组对问题进行分析:分别是&和&&,|和||及~和!. 1.&是按位与操 ...
python、java读数据
python从txt文档中读数据有个特别神奇的函数可以把txt文档中的数据直接读取成python数组 java用Scanner类读数据比较方便
java学习（二）
学号 20189214 <Java程序设计>第二周学习总结教材学习内容总结 java类创建java对象需要类似的模板,即类(class) java对象也拥有属性和能够执行的动作. 属性 ...

beautifulsoup爬取糗事百科

beautifulsoup爬取糗事百科的更多相关文章

随机推荐

热门专题