使用python抓取知乎日报的API数据

使用 urllib2 抓取数据时，最简单的方法是：

import urllib2, json

def getStartImage():

    stream = urllib2.urlopen('http://news-at.zhihu.com/api/3/start-image/1080*1776')

    start_image = json.load(stream)

    start_image = json.dumps(start_image, encoding='utf-8')

    return start_image

使用urllib2.urlopen打开参数中给出的url，返回一个 instance（匿名的object）。

因为这个链接本该返回的是json数据，所以可以用json库提供的json.load方法将对象实例解析成一个字典，直接return的话，返回的是一个字典转化成的字符串。使用json.dumps()将dict转换成一个json对象，参数中encoding='utf-8'，指定编码格式。

但是这种方法往往会遇到 HTTP Error: 403 Forbidden，因为网站禁止爬虫抓去该网站的数据。可以在请求中添加 http header，伪装成一个浏览器发出的请求。这里需要用到 urllib2 提供的一个类Reuqest:

urllib2.Request(url[, data][, headers][, origin_req_host][, unverifiable])

这个类是一个url请求的抽象化,其具体的使用细节可以参照这里，在这里就不说了。

import urllib2, json

# 设置header

headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6)Gecko/20091201 Firefox/3.5.6'}

def getStartImage():

    req = urllib2.Request(url = 'http://news-at.zhihu.com/api/3/start-image/1080*1776', headers = headers)

    stream = urllib2.urlopen(req)

    start_image = json.load(stream)

    start_image = json.dumps(start_image, encoding='utf-8')

    return start_image

使用python抓取知乎日报的API数据的更多相关文章

python抓取知乎热榜
知乎热榜讨论话题,https://www.zhihu.com/hot,本文用python抓取下来分析 #!/usr/bin/python # -*- coding: UTF-8 -*- from ur ...
用 python 抓取知乎指定回答下的视频
前言现在知乎允许上传视频,奈何不能下载视频,好气哦,无奈之下研究一下了,然后撸了代码,方便下载视频保存. 接下来以猫为什么一点也不怕蛇? 回答为例,分享一下整个下载过程. 调试一下打开 F12, ...
[python]初试页面抓取——抓取沪深股市交易龙虎榜数据
[python]抓取沪深股市交易龙虎榜数据 python 3.5.0下运行没做自动建立files文件夹,需要手动在py文件目录下建立files文件夹后运行 #coding=utf-8 import ...
python学习-抓取知乎图片
#!/bin/usr/env python3 __author__ = 'nxz' """ 抓取知乎图片webdriver Chromedriver驱动需要安装,并指定d ...
用python+selenium抓取知乎今日最热和本月最热的前三个问题及每个问题的首个回答并保存至html文件
抓取知乎今日最热和本月最热的前三个问题及每个问题的首个回答,保存至html文件,该html文件的文件名应该是20160228_zhihu_today_hot.html,也就是日期+zhihu_toda ...
python 爬取知乎图片
先上完整代码 import requests import time import datetime import os import json import uuid from pyquery im ...
手把手教你用Python抓取AWS的日志(CloudTrail)数据
数据时代,利用数据做决策是大数据的核心价值. 本文手把手,教你使用python进行AWS的CloudTrail配置,进行日志抓取.进行数据分析,发现数据价值! 如今是云的时代,许多公司都把自己的IT架 ...
浅谈如何使用python抓取网页中的动态数据
我们经常会发现网页中的许多数据并不是写死在HTML中的,而是通过js动态载入的.所以也就引出了什么是动态数据的概念, 动态数据在这里指的是网页中由Javascript动态生成的页面内容,是在页面加载到 ...
Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...

随机推荐

android 添加左右滑屏手势
今天要在自己的项目中添加左右滑动,实现日期的加减(原来已经做了加减按键).滑动在一个中间的layout中进行思路:添加左右划屏幕判断,得到判断后模拟加减按键按下. 模拟按键按下用 mbotton.p ...
TLSAlloc()
为什么要有TLS?原因在于,进程中的全局变量与函数内定义的静态(static)变量,是各个线程都可以访问的共享变量.在一个线程修改的内存内容,对所有线程都生效.这是一个优点也是一个缺点.说它是优点,线 ...
Xamarin生成的APK大小分析
原文:Xamarin生成的APK大小分析刚接触Xamarin都会被Xamarin的售价吓一跳,另外就是它生成的APK大小,官方也有相关的说明,这里加上自己的理解同意讲解下: 以下是针对Android ...
柯南君：看大数据时代下的IT架构（5）消息队列之RabbitMQ--案例（Work Queues起航）
二.Work Queues(using the Java Client) 走起在第上一个教程中我们写程序从一个命名队列发送和接收消息.在这一次我们将创建一个工作队列,将用于分发耗时的任务在多个工 ...
HDU 5723 Abandoned country（最小生成树 + 树形DP）
[题目链接] http://acm.hdu.edu.cn/showproblem.php?pid=5723 [题目大意] n座城市,m条路径,求解: 1.最短的路径和,使得n座城市之间直接或者间接连通 ...
nginx File not found 错误分析与解决方法
使用php-fpm解析PHP,出错提示如下:"No input file specified","File not found",原因是php-fpm进程找不到 ...
Extjs 4 生成饼状图的例子
前台: //远程抄表设备下落图表数据 var Store1 = new Ext.data.Store({ <span style="white-space:pre"> ...
Response.Write具体介绍
问题一: Response.Write 后连接Response.Redirect ,则Response.Write无法显示,直接跳转入Response.Redirect 的页面. 解决方案: Resp ...
Asp.net 获取服务器指定文件夹目录文件，并提供下载
string dirPath = HttpContext.Current.Server.MapPath("uploads/"); if (Directory.Exists(dirP ...
ubuntu, Debian, CentOS
ubuntu源自debian,内核很多文档都还是debian的字样,稳定性逐渐增强,基本满足日常开发. debian的核心稳定,性能强劲. centos的内核版本低,安全性高. 选择Debian是因为 ...

使用python抓取知乎日报的API数据

使用python抓取知乎日报的API数据的更多相关文章

随机推荐

热门专题