用python爬取之后发现果然如此，都说知乎的小姐姐漂亮

前言

文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun

我们用爬虫爬了下这个问题下的高赞照片。在欣赏小姐姐的美照之前，我们先来分享一下思路。

首先通过浏览器的开发者工具，找到所有回答的链接。知乎的回答都是ajax的方式加载的，一次加载一页。

我们可以通过知乎回答的url，先把回答一页一页的爬下来，存到本地数据库。随后从数据库里读取数据，筛选出高赞的回答，把回答里的图片解析出来。

思路大致就是这样。

def get_answers_by_page(page_no):

 offset = page_no * 10

 url = "<answer url>&offset={}&limit=10&sort_by=default&platform=desktop".format(offset)

 headers = {

 "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36",

 }

 r = requests.get(url, verify=False, headers=headers)

 content = r.content.decode("utf-8")

 data = json.loads(content)

 is_end = data["paging"]["is_end"]

 items = data["data"]

 client = pymongo.MongoClient()

 db = client["beauty"]

 if len(items) > 0:

 db.answers.insert_many(items)

 return is_end



def get_answers():

 page_no = 0

 client = pymongo.MongoClient()

 while True:

 print(page_no)

 is_end = get_answers_by_page(page_no)

 page_no += 1

 if is_end:

 break



def query():

 client = pymongo.MongoClient()

 db = client["beauty"]

 items = db.answers.find({"voteup_count": {"$gte": 100}}).sort([("voteup_count", pymongo.DESCENDING)])

 count = 0



 for item in items:

 content = item["content"]

 vote_num = item["voteup_count"]

 author = item["author"]["name"]

 matched = re.findall(r'data-original="([^"]+)"', content)

 print("> 来自 {}\n".format(item["url"]))

 print("> 作者 {}\n".format(author))

 print("> 赞数 {}\n".format(vote_num))

 img_urls = []

 for img_url in matched:

 if img_url not in img_urls:

 print("![]({})".format(img_url))

 img_urls.append(img_url)

 count += len(img_urls)

 print("\n\n")

 print(count)

上面是3个函数。

get_answers_by_page - 这个函数用于获取一页的回答内容，获取的内容会存到本地MongoDB里
get_answers - 这个函数用于获取所有页的内容，它会调用上面的函数，循环获取每一页的内容
query - 这个函数用于从MongoDB里查询数据，筛选高赞回答，并且把结果打印出来

来自 https://www.zhihu.com/api/v4/answers/616931654

作者不知

赞数 24153

来自 https://www.zhihu.com/api/v4/answers/768553689

作者一只喝酒的猫Miao

赞数17702

.如果想了解更多关于python的应用，可以私信小编

用python爬取之后发现果然如此，都说知乎的小姐姐漂亮的更多相关文章

用Python爬取了考研吧1000条帖子，原来他们都在讨论这些！
写在前面考研在即,想多了解考研er的想法,就是去找学长学姐或者去网上搜索,贴吧就是一个好地方.而借助强大的工具可以快速从网络鱼龙混杂的信息中得到有价值的信息.虽然网上有很多爬取百度贴吧的教程和例子, ...
Python爬取跑男的评论，看看大家都在看谁吧
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于菜J学Python,作者: J哥 Python爬取爬取腾讯视频弹幕视频讲解 http ...
利用python爬取海量疾病名称百度搜索词条目数的爬虫实现
实验原因: 目前有一个医疗百科检索项目,该项目中对关键词进行检索后,返回的结果很多,可惜结果的排序很不好,影响用户体验.简单来说,搜索出来的所有符合疾病中,有可能是最不常见的疾病是排在第一个的,而最有 ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
没有内涵段子可以刷了，利用Python爬取段友之家贴吧图片和小视频(含源码)
由于最新的视频整顿风波,内涵段子APP被迫关闭,广大段友无家可归,但是最近发现了一个"段友"的app,版本更新也挺快,正在号召广大段友回家,如下图,有兴趣的可以下载看看(ps:我不 ...
萌新学习Python爬取B站弹幕+R语言分词demo说明
代码地址如下:http://www.demodashi.com/demo/11578.html 一.写在前面之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这样 ...
python爬取网站数据保存使用的方法
这篇文章主要介绍了使用Python从网上爬取特定属性数据保存的方法,其中解决了编码问题和如何使用正则匹配数据的方法,详情看下文编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这 ...
利用python爬取58同城简历数据
利用python爬取58同城简历数据利用python爬取58同城简历数据最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用pyth ...
Python爬取视频指南
摘自:https://www.jianshu.com/p/9ca86becd86d 前言前两天尔羽说让我爬一下菜鸟窝的教程视频,这次就跟大家来说说Python爬取视频的经验正文 https://w ...

随机推荐

tcp\udp 操作系统发展史
目录为什么会出现粘包现象 socket发送大文件示例 UDP协议基于UDP实现简易版本的qq 总结: SocketServer模块介绍(让tcp也能支持并发) 为什么会出现粘包现象 TCP 三次握 ...
CompTIA Security+ 常见知识点
前言: Security+ 认证是一种中立第三方认证,其发证机构为美国计算机行业协会CompTIA: 是和CISSP.CISA等共同包含在内的国际IT业热门认证之一,和CISSP偏重信息安全管理相比, ...
第二周Java实验作业
实验二 Java基本程序设计(1) 实验时间 2018-9-6 1.实验目的与要求 (1)进一步熟悉命令行和IDE两种方式下java程序开发的基本步骤: (2)掌握Eclipse集成开发环境下导入Ja ...
python学习之BeautifulSoup模块爬图
BeautifulSoup模块爬图学习HTML文本解析标签定位网上教程多是爬mzitu,此网站反爬限制多了.随意找了个网址,解析速度有些慢.脚本流程:首页获取总页数-->拼接每页URL--> ...
Excel知识点与技巧1
1.工作区:方便两个工作表之间进行对比 2.工作表标签颜色 3.交换两列的次序 4.快速到达边界:即快速到达第一行或最后一行 5.冻结窗格:可以固定某几行或某几列一直存在于窗口,不会随着往下拉或往右拉 ...
OpenCV-Python 鼠标作画 | 八
目标了解如何在OpenCV中处理鼠标事件您将学习以下功能:cv.setMouseCallback() 简单演示在这里,我们创建一个简单的应用程序,无论我们在哪里双击它,都可以在图像上绘制一个圆. ...
tensorflow 控制流操作，条件判断和循环操作
Control flow operations: conditionals and loops When building complex models such as recurrent neura ...
2020 | 可替代Selenium的测试框架Top15
本文首发于微信公众号: 软测小生 Selenium是一种开源自动测试工具.它可以跨不同的浏览器和平台在Web应用程序上执行功能,回归,负载测试.Slenium是最好的工具之一,但确实有一些缺点. 业 ...
Python第七章-面向对象
面向对象编程基础一.面向对象概念 1.1 什么是面向过程就是分析出解决问题所需要的步骤,然后用函数把这些步骤一步一步实现,使用的时候一个一个依次调用就可以了. 生活中的的例子举例. 1.2 ...
IEnumerable和IQueryable在使用时的区别
最近在调研数据库查询时因使用IEnumerable进行Linq to entity的操作,造成数据库访问缓慢.此文讲述的便是IEnumerable和IQueryable的区别. 微软对IEnumera ...

用python爬取之后发现果然如此，都说知乎的小姐姐漂亮

用python爬取之后发现果然如此，都说知乎的小姐姐漂亮的更多相关文章

随机推荐

热门专题