python爬虫beta版之抓取知乎单页面回答（low 逼版）

　　闲着无聊，逛知乎。发现想找点有意思的回答也不容易，就想说要不写个爬虫帮我把点赞数最多的给我搞下来方便阅读，也许还能做做数据分析（意淫中～～）

　　鉴于之前用python写爬虫，帮运营人员抓取过京东的商品品牌以及分类，这次也是用python来搞简单的抓取单页面版，后期再补充哈。

#-*- coding: UTF-8 -*-

import requests

import sys

from bs4 import BeautifulSoup

#－－－－－－知乎答案收集－－－－－－－－－－

#获取网页body里的内容

def get_content(url , data = None):

    header={

        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

        'Accept-Encoding': 'gzip, deflate, sdch',

        'Accept-Language': 'zh-CN,zh;q=0.8',

        'Connection': 'keep-alive',

        'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.235'

    }

    req = requests.get(url, headers=header)

    req.encoding = 'utf-8'

    bs = BeautifulSoup(req.text, "html.parser")  # 创建BeautifulSoup对象

    body = bs.body # 获取body部分

    return body

#获取问题标题

def get_title(html_text):

     data = html_text.find('span', {'class': 'zm-editable-content'})

     return data.string.encode('utf-8')

#获取问题内容

def get_question_content(html_text):

     data = html_text.find('div', {'class': 'zm-editable-content'})

     if data.string is None:

         out = '';

         for datastring in data.strings:

             out = out + datastring.encode('utf-8')

         print '内容：\n' + out

     else:

         print '内容：\n' + data.string.encode('utf-8')

#获取点赞数

def get_answer_agree(body):

    agree = body.find('span',{'class': 'count'})

    print '点赞数：' + agree.string.encode('utf-8') + '\n'

#获取答案

def get_response(html_text):

     response = html_text.find_all('div', {'class': 'zh-summary summary clearfix'})

     for index in range(len(response)):

         #获取标签

         answerhref = response[index].find('a', {'class': 'toggle-expand'})

         if not(answerhref['href'].startswith('javascript')):

             url = 'http://www.zhihu.com/' + answerhref['href']

             print url

             body = get_content(url)

             get_answer_agree(body)

             answer = body.find('div', {'class': 'zm-editable-content clearfix'})

             if answer.string is None:

                 out = '';

                 for datastring in answer.strings:

                     out = out + '\n' + datastring.encode('utf-8')

                 print out

             else:

                 print answer.string.encode('utf-8')

html_text = get_content('https://www.zhihu.com/question/43879769')

title = get_title(html_text)

print "标题：\n" + title + '\n'

questiondata = get_question_content(html_text)

print '\n'

data = get_response(html_text)

　　　输出结果：

python爬虫beta版之抓取知乎单页面回答（low 逼版）的更多相关文章

Python爬虫实战四之抓取淘宝MM照片
原文:Python爬虫实战四之抓取淘宝MM照片其实还有好多,大家可以看 Python爬虫学习系列教程福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 本篇目标 1. ...
Python爬虫实战六之抓取爱问知识人问题并保存至数据库
大家好,本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括: Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法正则表 ...
一次Python爬虫的修改，抓取淘宝MM照片
这篇文章是2016-3-2写的,时隔一年了,淘宝的验证机制也有了改变.代码不一定有效,保留着作为一种代码学习. 崔大哥这有篇>>小白爬虫第一弹之抓取妹子图不失为学python爬虫的绝佳教 ...
Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容
1,引言在Python网络爬虫内容提取器一文我们详细讲解了核心部件:可插拔的内容提取器类gsExtractor.本文记录了确定gsExtractor的技术路线过程中所做的编程实验.这是第二部分,第一 ...
Python爬虫之三种网页抓取方法性能比较
下面我们将介绍三种抓取网页数据的方法,首先是正则表达式,然后是流行的 BeautifulSoup 模块,最后是强大的 lxml 模块. 1. 正则表达式如果你对正则表达式还不熟悉,或是需要一些提 ...
python爬虫学习：分布式抓取
前面的文章都是基于在单机操作,正常情况下,一台机器无论配置多么高,线程开得再多,也总会有一个上限,或者说成本过于巨大.因此,本文将提及分布式的爬虫,让爬虫的效率提高得更快. 构建分布式爬虫首先需要有多 ...
Python爬虫之requests+正则表达式抓取猫眼电影top100以及瓜子二手网二手车信息(四)
requests+正则表达式抓取猫眼电影top100 一.首先我们先分析下网页结构可以看到第一页的URL和第二页的URL的区别在于offset的值,第一页为0,第二页为10,以此类推. 二.< ...
Python爬虫（一）抓取指定的页面
(以下是在windows环境下的操作,python版本为3) 1.urllib库介绍官方文档上的解释是: urllib is a package that collects several modu ...
吴裕雄--天生自然PYTHON爬虫：使用Scrapy抓取股票行情
Scrapy框架它能够帮助提升爬虫的效率,从而更好地实现爬虫.Scrapy是一个为了抓取网页数据.提取结构性数据而编写的应用框架,该框架是封装的,包含request异步调度和处理.下载器(多线程的Do ...

随机推荐

Asp.Net Core--简单的授权
翻译如下: 在MVC中授权通过控制AuthorizeAttribute属性及其各种参数.在最简单的应用AuthorizeAttribute属性控制器或行动限制访问控制器或操作任何身份验证的用户. 例如 ...
EF Code First 常用命令
1.Enable-Migrations 开启版本库 2. Add-Migration addname 新增版本 3.Update-Database –TargetMigration: addname ...
poj 1112
昨天晚上看的题. 说实话,我一眼就看出了是二分图,再一眼就看出了是二分图+dp(01背包).但悲剧的是我一眼看出的算法是正确的,但我总以为它是错误的,浪费了很长时间像其他算法(TAT). 今天终于把代 ...
How do I enable log4net internal debugging?
http://logging.apache.org/log4net/release/faq.html
[BZOJ4408][Fjoi 2016]神秘数
[BZOJ4408][Fjoi 2016]神秘数试题描述一个可重复数字集合S的神秘数定义为最小的不能被S的子集的和表示的正整数.例如S={1,1,1,4,13},1 = 12 = 1+13 = 1 ...
matlab GUI封装exe文件
学习matlab过程中,有时有些程序处理数据时老是看着代码,也会觉得疲倦,那么要试一试matlab的GUI吗?我就是这么使用matlab的GUI制作一个小程序,并且使用matlab封装成了exe文件. ...
Java Class类及反射机制
java.lang.Class类声明: public final class Class<T>extends Object implements Serializable, Generi ...
进程互斥和fork
自父进程继承进程的资格(真实(real)/有效(effective)/已保存(saved) 用户号(UIDs)和组号(GIDs)) 环境(environment) 堆栈内存打开文件的描述符(注意 ...
MySql增加字段、删除字段、修改字段名称、修改字段类型
1.增加一个字段 alter table user add COLUMN new1 VARCHAR(20) DEFAULT NULL; //增加一个字段,默认为空 alter table user a ...
网络知识学习1---（基础知识：ISO/OSI七层模型和TCP/IP四层模型）
以下的内容和之后的几篇博客只是比较初级的介绍,想要深入学习的话建议自己钻研<TCP/IP详解卷1:协议> 1.ISO/OSI七层模型下四层是为数据传输服务的,物理层是真正的传输数 ...

python爬虫beta版之抓取知乎单页面回答（low 逼版）

python爬虫beta版之抓取知乎单页面回答（low 逼版）的更多相关文章

随机推荐

热门专题