python爬虫beta版之抓取知乎单页面回答（low 逼版）

　　闲着无聊，逛知乎。发现想找点有意思的回答也不容易，就想说要不写个爬虫帮我把点赞数最多的给我搞下来方便阅读，也许还能做做数据分析（意淫中～～）

　　鉴于之前用python写爬虫，帮运营人员抓取过京东的商品品牌以及分类，这次也是用python来搞简单的抓取单页面版，后期再补充哈。

#-*- coding: UTF-8 -*-

import requests

import sys

from bs4 import BeautifulSoup

#－－－－－－知乎答案收集－－－－－－－－－－

#获取网页body里的内容

def get_content(url , data = None):

    header={

        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

        'Accept-Encoding': 'gzip, deflate, sdch',

        'Accept-Language': 'zh-CN,zh;q=0.8',

        'Connection': 'keep-alive',

        'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.235'

    }

    req = requests.get(url, headers=header)

    req.encoding = 'utf-8'

    bs = BeautifulSoup(req.text, "html.parser")  # 创建BeautifulSoup对象

    body = bs.body # 获取body部分

    return body

#获取问题标题

def get_title(html_text):

     data = html_text.find('span', {'class': 'zm-editable-content'})

     return data.string.encode('utf-8')

#获取问题内容

def get_question_content(html_text):

     data = html_text.find('div', {'class': 'zm-editable-content'})

     if data.string is None:

         out = '';

         for datastring in data.strings:

             out = out + datastring.encode('utf-8')

         print '内容：\n' + out

     else:

         print '内容：\n' + data.string.encode('utf-8')

#获取点赞数

def get_answer_agree(body):

    agree = body.find('span',{'class': 'count'})

    print '点赞数：' + agree.string.encode('utf-8') + '\n'

#获取答案

def get_response(html_text):

     response = html_text.find_all('div', {'class': 'zh-summary summary clearfix'})

     for index in range(len(response)):

         #获取标签

         answerhref = response[index].find('a', {'class': 'toggle-expand'})

         if not(answerhref['href'].startswith('javascript')):

             url = 'http://www.zhihu.com/' + answerhref['href']

             print url

             body = get_content(url)

             get_answer_agree(body)

             answer = body.find('div', {'class': 'zm-editable-content clearfix'})

             if answer.string is None:

                 out = '';

                 for datastring in answer.strings:

                     out = out + '\n' + datastring.encode('utf-8')

                 print out

             else:

                 print answer.string.encode('utf-8')

html_text = get_content('https://www.zhihu.com/question/43879769')

title = get_title(html_text)

print "标题：\n" + title + '\n'

questiondata = get_question_content(html_text)

print '\n'

data = get_response(html_text)

　　　输出结果：

python爬虫beta版之抓取知乎单页面回答（low 逼版）的更多相关文章

Python爬虫实战四之抓取淘宝MM照片
原文:Python爬虫实战四之抓取淘宝MM照片其实还有好多,大家可以看 Python爬虫学习系列教程福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 本篇目标 1. ...
Python爬虫实战六之抓取爱问知识人问题并保存至数据库
大家好,本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括: Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法正则表 ...
一次Python爬虫的修改，抓取淘宝MM照片
这篇文章是2016-3-2写的,时隔一年了,淘宝的验证机制也有了改变.代码不一定有效,保留着作为一种代码学习. 崔大哥这有篇>>小白爬虫第一弹之抓取妹子图不失为学python爬虫的绝佳教 ...
Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容
1,引言在Python网络爬虫内容提取器一文我们详细讲解了核心部件:可插拔的内容提取器类gsExtractor.本文记录了确定gsExtractor的技术路线过程中所做的编程实验.这是第二部分,第一 ...
Python爬虫之三种网页抓取方法性能比较
下面我们将介绍三种抓取网页数据的方法,首先是正则表达式,然后是流行的 BeautifulSoup 模块,最后是强大的 lxml 模块. 1. 正则表达式如果你对正则表达式还不熟悉,或是需要一些提 ...
python爬虫学习：分布式抓取
前面的文章都是基于在单机操作,正常情况下,一台机器无论配置多么高,线程开得再多,也总会有一个上限,或者说成本过于巨大.因此,本文将提及分布式的爬虫,让爬虫的效率提高得更快. 构建分布式爬虫首先需要有多 ...
Python爬虫之requests+正则表达式抓取猫眼电影top100以及瓜子二手网二手车信息(四)
requests+正则表达式抓取猫眼电影top100 一.首先我们先分析下网页结构可以看到第一页的URL和第二页的URL的区别在于offset的值,第一页为0,第二页为10,以此类推. 二.< ...
Python爬虫（一）抓取指定的页面
(以下是在windows环境下的操作,python版本为3) 1.urllib库介绍官方文档上的解释是: urllib is a package that collects several modu ...
吴裕雄--天生自然PYTHON爬虫：使用Scrapy抓取股票行情
Scrapy框架它能够帮助提升爬虫的效率,从而更好地实现爬虫.Scrapy是一个为了抓取网页数据.提取结构性数据而编写的应用框架,该框架是封装的,包含request异步调度和处理.下载器(多线程的Do ...

随机推荐

word20161209
failback / 故障回复 failback policy / 故障回复策略 failed / 失败 failover / 故障转移 failover policy / 故障转移策略 failov ...
linux网络配置
VMware下,centos系统,安装好后,一直连不上外网.在网上查了好多资料,都没有找到解决的办法.最后,把自己的解决方案,写到下面. 其中ipaddr是window下vmnet8的ip地址,在do ...
PHP之autoload理解
举个例子就可以看懂了: 同一目录中有2个文件index.php和test.php,在test.php中定义一个test类. test.php <?php class test{ public f ...
discuz上传图片提示附件文件无法保存
两个可能: 1. 服务器文件夹权限不足 discuz附件保存在./data/attachments下,data文件夹的属性要求必须为777 #cd到data的上一级目录然后执行: data 2. 附件 ...
js获取网站项目根路径
//js获取项目根路径,如: http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址,如: http://localhost ...
NHibernate简单使用介绍
1.在数据库中新建表格,并插入记录,SQL如下: USE WFC_DB GO create table Students ( Id ,) not null, Name ), Age int, Scor ...
MySQL5.0安装图解
打开下载的mysql安装文件mysql-5.0.27-win32.zip,双击解压缩,运行"setup.exe",出现如下界面: 按"Next"继续选择安装类 ...
CSS3 外发光渐变色
渐变色--线性渐变 linear-gradient #bg { width: 100%; background: -webkit-linear-gradient(#9f1c65, #d89068,#7 ...
c# ContinueWith 用法
通过任务,可以指定在任务完成之后,应开始运行之后另一个特定任务.例如,一个使用前一个任务的结果的新任务,如果前一个任务失败了,这个任务就应执行一些清理工作.任务处理程序都不带参数或者带一个对象参数,而 ...
什么是ORM?
一.ORM简介对象关系映射(Object Relational Mapping,简称ORM)模式是一种为了解决面向对象与关系数据库存在的互不匹配的现象的技术.简单的说,ORM是通过使 ...

python爬虫beta版之抓取知乎单页面回答（low 逼版）

python爬虫beta版之抓取知乎单页面回答（low 逼版）的更多相关文章

随机推荐

热门专题