Python知乎热门话题数据的爬取实战

import requests
from pyquery import PyQuery as pq

url = 'https://www.zhihu.com/explore'
headers = {
    'user-agent':
        "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"
}

# 为了让网页能模拟浏览器的操作来设置一个headers获取网页源码
html = requests.get(url, headers=headers).text

# 初始化，使用pyQuery来把html放到解析库里进行解析
doc = pq(html)
# 进行pyquery解析（里面放的是css选择器参数）对class里有两个参数来进行解析
items = doc('.explore-feed.feed-item').items()

# 循环遍历筛选后的数据
for item in items:
    # 提取里面的问题
    question = item.find('h2').text()
    # 提取里面的作者
    author = item.find('.author-link-line').text()
    # 提取里面的回复的内容，这里注意一下，在内容的上面有一个textarea被hidden了
    answer = pq(item.find('.content').html()).text()
# 方法一
    # 文件的存储以txt文本存储
    file = open('explore.txt', 'a', encoding='utf-8')
    # 文件的写入
    file.write('\n'.join([question, author, answer]))
    # 每一个内容用特殊符号隔开
    file.write('\n' + '=' * 50 + '\n')
    # 文件的关闭
    file.close()

# 方式二
    # 简写的方法这样可以不用去关闭文件,系统已经封装好了关闭的方法
    with open('explore.txt', 'a', encoding='utf-8') as file:
        file.write('\n'.join([question, author, answer]))
        file.write('\n' + '=' * 50 + '\n')

Python知乎热门话题数据的爬取实战的更多相关文章

Python知乎热门话题爬取
本例子是参考崔老师的Python3网络爬虫开发实战写的看网页界面: 热门话题都在 explore-feed feed-item的div里面源码如下: import requests from py ...
爬虫（二）Python网络爬虫相关基础概念、爬取get请求的页面数据
什么是爬虫爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程. 哪些语言可以实现爬虫 1.php:可以实现爬虫.php被号称是全世界最优美的语言(当然是其自己号称的,就是王婆 ...
python爬虫---CrawlSpider实现的全站数据的爬取,分布式,增量式,所有的反爬机制
CrawlSpider实现的全站数据的爬取新建一个工程 cd 工程创建爬虫文件:scrapy genspider -t crawl spiderName www.xxx.com 连接提取器Link ...
python之爬虫（十一）实例爬取上海高级人民法院网开庭公告数据
通过前面的文章已经学习了基本的爬虫知识,通过这个例子进行一下练习,毕竟前面文章的知识点只是一个一个单独的散知识点,需要通过实际的例子进行融合分析网站其实爬虫最重要的是前面的分析网站,只有对要爬取 ...
使用 Chrome 浏览器插件 Web Scraper 10分钟轻松实现网页数据的爬取
web scraper 下载:Web-Scraper_v0.2.0.10 使用 Chrome 浏览器插件 Web Scraper 可以轻松实现网页数据的爬取,不写代码,鼠标操作,点哪爬哪,还不用考虑爬 ...
Ajax数据的爬取（淘女郎为例）
mmtao Ajax数据的爬取(淘女郎为例) 如有疑问,转到 Wiki 淘女郎模特抓取教程网址:https://0x9.me/xrh6z 判断一个页面是不是 Ajax 加载的方法: 查看网页源代码, ...
Python_记一次网站数据定向爬取实现
记一次网站数据定向爬取实现 by:授客 QQ:1033553122 测试环境: Python版本:Python 3.4 Win7 请勿用于商业及非法用途,仅供学习研究用,否则后果自负数据爬取场景如 ...
[Python] 糗事百科文本数据的抓取
[Python] 糗事百科文本数据的抓取源码 https://github.com/YouXianMing/QiuShiBaiKeText import sqlite3 import time im ...
爬虫--selenuim和phantonJs处理网页动态加载数据的爬取
1.谷歌浏览器的使用下载谷歌浏览器安装谷歌访问助手终于用上谷歌浏览器了.....激动问题:处理页面动态加载数据的爬取 -1.selenium -2.phantomJs 1.selenium 二 ...

随机推荐

neutron-----openstack网络操作
#查看子网 openstack subnet list #删除子网 openstack subnet delete name/id #查看网络 openstack network list #删除网络 ...
C# 事务四种事务隔离级别
http://www.zsythink.net/archives/1233 不同隔离级别的问题脏读(Dirty Read) 一个事务处理过程里读取了另一个未提交的事务中的数据例子: 当一个事务 ...
CF1105E Helping Hiasat
题目地址:CF1105E Helping Hiasat 首先将问题转化成图论:对每个人建立一个点,将同一次修改后的所有人代表的点两两连一条边,那么最终所求的就是这个图的最大独立集我们知道最大独立集是 ...
docker部署Javaweb环境数据库连接问题
最近在docker部署了一个Javaweb项目运行的环境,在容器中部署了mysql和Javaweb项目,但是本地可以跑项目,放到容器里面不行. 具体报错内容是不能访问数据库. Could not ge ...
Python运维开发基础10-函数基础【转】
一,函数的非固定参数 1.1 默认参数在定义形参的时候,提前给形参赋一个固定的值. #代码演示: def test(x,y=2): #形参里有一个默认参数 print (x) print (y) t ...
boost.asio包装类st_asio_wrapper开发教程（2013.12.8更新）（二）
如果你是偶然浏览到这里,请先看源代码及例程下载地址:命令行:svn checkout http://st-asio-wrapper.googlecode.com/svn/trunk/ st-asio ...
Django-jinjia2的赋值
一变量 1. 变量的形式是:{{ variable }},当模板引擎碰到变量时,引擎使用变量的值替代变量: 2. 使用“.”能够访问变量的属性: 3. 当模板引擎碰到“.”的时候,查找顺序是: a) ...
Windows 1.0 to Windows 10
OpenSIPS 1.11.1安装记录
说明:操作系统Centos 6.5 64位安装步骤: 1.安装依赖包 : yum -y install gcc make gdb wget yum -y install flex bison nc ...
Mysql 数据库增删改查
数据插入语法:INSERT INTO Table_name(field1,field2……fieldN) values(value1,vlaue2,…valueN) 单行插入用户类型 INSERT ...

Python知乎热门话题数据的爬取实战

Python知乎热门话题数据的爬取实战的更多相关文章

随机推荐

热门专题