BS4爬取糗百

# -*- coding: cp936 -*-

import urllib,urllib2

from bs4 import BeautifulSoup

user_agent='Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'

headers={

    'User-Agent':user_agent

    }

url='https://www.qiushibaike.com'

#----------------------

def getcode(url):

    req=urllib2.Request(url,headers=headers)

    html=urllib2.urlopen(req).read()

    soup=BeautifulSoup(html,'html.parser')

    content=soup.select('.content')[0].stripped_strings

    print '内容：'

    for i in content:

        print i

def getinfo(x):

    q=0

    for m in range(x):

        print '获取第%s页'%str(m+1)

        murl='https://www.qiushibaike.com/text'+'/page/'+str(m+1)

        req=urllib2.Request(murl,headers=headers)

        html=urllib2.urlopen(req,timeout=60).read().decode('utf-8')

        #创建beautiful对象

        #创建本地HTML对象：soup=BeautifulSoup(open('index.html'))

        soup=BeautifulSoup(html,'html.parser')

        #打印HTML内容 print soup.prettify()

        authors=soup.select('h2')

        article=soup.select('.contentHerf')

        jokes=soup.select('.stats-vote > .number')

        comment_num=soup.select('.stats-comments > .qiushi_comments > .number')

        #获取界面上的文字

        ##print '内容：',article[0].span.string.strip()

        ##获取链接文字

        n=0

        for a in article:

            print '获取第%s页第%s条'%(str(m+1),str(n+1))

            print '作者：',authors[n].string.strip()

            print '好笑数：',jokes[n].string

            article_url=article[n]['href']

            article_url=url+article_url

            #print article_url

            getcode(article_url)

            print '评论数：',comment_num[n].string

            n+=1

            q+=1

            print '\n'

    print '总共%s条数据'%q

nu=raw_input('获取多少页：')

nu=int(nu)

#设置重新获取数据次数

tries=1

try:

    getinfo(nu)

except:

    print u'爬取数据出错。。。'

BS4爬取糗百的更多相关文章

Python 爬虫入门(一)——爬取糗百
爬取糗百内容 GitHub 代码地址https://github.com/injetlee/Python/blob/master/qiubai_crawer.py 微信公众号:[智能制造专栏],欢迎关 ...
python实战项目 — 使用bs4 爬取猫眼电影热榜（存入本地txt、以及存储数据库列表）
案例一: 重点: 1. 使用bs4 爬取 2. 数据写入本地 txt from bs4 import BeautifulSoup import requests url = "http:// ...
使用request+bs4爬取所有股票信息
爬取前戏我们要知道利用selenium是非常无敌的,自我认为什么反爬不反爬都不在话下,但是今天我们为什么要用request+bs4爬取所有股票信息呢?因为他比较原始,因此今天的数据,爬取起来也是比较 ...
BS4爬取物价局房产备案价以及dataframe的操作来获取房价的信息分析
因为最近要买房子,然后对房市做了一些调研,发现套路极多.卖房子的顾问目前基本都是一派胡言能忽悠就忽悠,所以基本他们的话是不能信的.一个楼盘一次开盘基本上都是200-300套房子,数据量虽然不大,但是其 ...
BS4爬取豆瓣电影
爬取豆瓣top250部电影 ####创建表: #connect.py from sqlalchemy import create_engine # HOSTNAME='localhost' # POR ...
针对源代码和检查元素不一致的网页爬虫——利用Selenium、PhantomJS、bs4爬取12306的列车途径站信息
整个程序的核心难点在于上次豆瓣爬虫针对的是静态网页,源代码和检查元素内容相同:而在12306的查找搜索过程中,其网页发生变化(出现了查找到的数据),这个过程是动态的,使得我们在审查元素中能一一对应看到 ...
python使用bs4爬取boss静态页面
思路: 1.将需要查询城市列表,通过城市接口转换成相应的code码 2.遍历城市.职位生成url 3.通过url获取列表页面信息,遍历列表页面信息 4.再根据列表页面信息的job_link获取详情页面 ...
python+selenium+bs4爬取百度文库内文字 && selenium 元素可以定位到，但是无法点击问题 && pycharm多行缩进、左移
先说一下可能用到的一些python知识一.python中使用的是unicode编码, 而日常文本使用各类编码如:gbk utf-8 等等所以使用python进行文字读写操作时候经常会出现各种错误, ...
bs4爬取笔趣阁小说
参考链接:https://www.cnblogs.com/wt714/p/11963497.html 模块:requests,bs4,queue,sys,time 步骤:给出URL--> 访问U ...

随机推荐

chrome开发工具指南（十一）
检查资源使用 Application 面板的 Frames 窗格可以按框架组织资源. 您也可以在 Sources 面板中停用 Group by folder 选项,按框架查看资源. 要按网域和文件夹 ...
POJ 3463 最（次）短路条数
Sightseeing Time Limit: 2000MS Memory Limit: 65536K Total Submissions: 9497 Accepted: 3340 Descr ...
最近一直在做java爬虫，有些感悟心得，分享给大家；
首先,看完这篇文章,不能保证你成为大神,但是却可以让你懂得什么是爬虫,如何使用爬虫,如何利用http协议,侵入别人的系统,当然只是一些简单的教程,拿到一些简单的数据: 先上代码,在一步一步讲解: 这是 ...
转：【Java并发编程】之二：线程中断（含代码）
转载请注明出处:http://blog.csdn.net/ns_code/article/details/17091267 使用interrupt()中断线程当一个线程运行时,另一个线程可以调用对应 ...
个人作业-2 必应词典安卓APP分析
产品: 必应词典安卓版第一部分:调研,评测 1.对于这款app的第一印象就是界面不是很美观,页面排版十分混乱,有些功能比较鸡肋,功能也不是很丰富,不过这款app的ui设计相对简洁,让人容易上手,对 ...
GUI（国际象棋棋盘）
package com.niit.javagui; import java.awt.BorderLayout; import java.awt.Color; import java.awt.GridB ...
201521123002 《Java程序设计》第5周学习总结
1. 本周学习总结 1.1 尝试使用思维导图总结有关继承的知识点. 2. 书面作业作业参考文件下载 1.代码阅读:Child压缩包内源代码 1.1 com.parent包中Child.java文件能 ...
201521123020《Java程序设计》第2周学习总结
一.学习总结学习了运算符的基本使用方法: 学习了string这个特殊的类型: 学习了数组的使用方法. 二.书面作业 1.使用Eclipse关联jdk源代码,并查看String对象的源代码(截图)? ...
python3中的一些小改动
Python 3.3中使用print是必须要括号因为在python3以上的版本中print不再是一条命令而是一个函数了.
201521123008《Java程序设计》第11周学习总结
1. 本周学习总结 2. 书面作业本次PTA作业题集多线程 1.互斥访问与同步访问完成题集4-4(互斥访问)与4-5(同步访问) 1.1 除了使用synchronized修饰方法实现互斥同步访问, ...

BS4爬取糗百

BS4爬取糗百的更多相关文章

随机推荐

热门专题