Python爬取今日头条段子

刚入门Python爬虫，试了下爬取今日头条官网中的段子，网址为https://www.toutiao.com/ch/essay_joke/源码比较简陋，如下：

 import requests

 import json

 res = requests.get('https://www.toutiao.com/api/article/feed/?category=essay_joke&utm_source=toutiao&widen=1&\
max_behot_time=0&max_behot_time_tmp=0&tadrequire=true&as=A155298266FA656&cp=5926EA66D5B66E1')

 res_js = json.loads(res.text)

 len_res_js = len(res_js['data'])

 for mydata in res_js['data']:

     print("用户名："+mydata['group']['user']['name'])

     print("发表时间："+str(mydata['group']['create_time']))

     print("发表内容："+mydata['group']['content'])

通过浏览器相关工具发现笑话的数据存储地址为https://www.toutiao.com/api/article/feed/?category=essay_joke&utm_source=toutiao&widen=1&max_behot_time=0&max_behot_time_tmp=0&tadrequire=true&as=A155298266FA656&cp=5926EA66D5B66E1，存储格式是JSON格式。

但是这里有个问题，里面的数据只有20条，也就是说一次只能获取20条笑话。然后我回到今日头条段子页面，向下拖动垂直滚动条，一直拖到最底，发现又多出了20条数据，通过浏览器相关工具找到多了一个数据存储的地址，地址为https://www.toutiao.com/api/article/feed/?category=essay_joke&utm_source=toutiao&widen=1&max_behot_time=1495705163&max_behot_time_tmp=1495705163&tadrequire=true&as=A18579F2460C72B&cp=59265C47E2CBAE1

本以为可以通过修改存储地址中变动的参数就可以无限的获取笑话数据了，然而发现变动的参数有四个，分别是max_behot_time，max_behot_time_tmp，as，cp，而且也不知道参数的值代表的意思。后来经过我一下午的潜心研究，才搞明白max_behot_time和max_behot_time_tmp指的是你打开网页的时间（格林威治秒），剩下两个参数as和cp死活搞不懂是什么，只晓得是16进制数

好吧，最后我又试着删了这俩参数，结果发现CP删掉影响不大，而as删掉就获取不了数据了，修改as值也不行。有兴趣有时间的大神可以帮忙看看这个as参数哦，谢谢~~

Python爬取今日头条段子的更多相关文章

python爬取今日头条关键字图集
1．访问搜索图集结果,获得json如下(右图为data的一条的详细内容)．页面以Ajax呈现,每次请求20个图集,其中 title --- 图集名字 artical_url --- 图集的地址 cou ...
python爬取今日头条图片
import requests from urllib.parse import urlencode from requests import codes import os # qianxiao99 ...
python 简单爬取今日头条热点新闻(一)
今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...
PYTHON 爬虫笔记九:利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集（实战项目二）
利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集目标站点分析今日头条这类的网站制作,从数据形式,CSS样式都是通过数据接口的样式来决定的,所以它的抓取方法和其他网页的抓取方 ...
Python3从零开始爬取今日头条的新闻【一、开发环境搭建】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
Python3从零开始爬取今日头条的新闻【四、模拟点击切换tab标签获取内容】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
Python3从零开始爬取今日头条的新闻【三、滚动到底自动加载】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
Python3从零开始爬取今日头条的新闻【二、首页热点新闻抓取】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
使用python-aiohttp爬取今日头条
http://blog.csdn.net/u011475134/article/details/70198533 原出处在上一篇文章<使用python-aiohttp爬取网易云音乐>中, ...

随机推荐

python中的unique()
a = np.unique(A) 对于一维数组或者列表,unique函数去除其中重复的元素,并按元素由大到小返回一个新的无元素重复的元组或者列表 import numpy as np A = [1, ...
本地安装了Maven但Eclipse的Preferences中没有Maven怎么办？
Maven是帮助我们进行项目构建管理的一个重要工具,Emmmmmm,因为还是个小白,这里就不装大明白了,就我目前了解Maven是用来管理jar包的,想要在Eclipse上运行就要将它集成到Eclips ...
git pull提交代码遇到的问题
git pull 提示如下错误解决方法: git pull 后面加上分支具体地址比如:git pull origin daily/1.0.0 同样git push origin daily/1. ...
dubbo的常用配置(基于注解)
之前记录了基于springboot的dubbo入门案例,今天在此基础上记录dubbo官网介绍的常用属性配置,dubbo读取我们配置的属性时是有优先级的,优先级如下图: 如图所示,优先级的属性依次为虚拟 ...
对于一个段错误（核心已转储）问题的解答，错误的英文翻译是segment fault(core dumped)
笔者在学习ROS的时候遇到的这个问题,使用的系统是ubuntu16.04,ROS版本是kinetic,在运行小海龟程序的时候突然打不开海龟界面的程序节点turtlesim-node,四处寻找答案未果, ...
EOJ Monthly 2019.2 题解(B、D、F)
EOJ Monthly 2019.2 题解(B.D.F) 官方题解:https://acm.ecnu.edu.cn/blog/entry/320/ B. 解题单测试点时限: 2.0 秒内存限制: ...
waitGroup的使用
package main import ( "fmt" "sync" "time" ) func main() { var wg sync. ...
[转载] java并发编程：Lock（线程锁）
作者:海子原文链接: http://www.cnblogs.com/dolphin0520/p/3923167.html 出处:http://www.cnblogs.com/dolphin0520/ ...
tomcat web漏洞整改--Apache Tomcat examples directory vulnerabilities
在利用AWVS等弱扫工具对网站进行漏洞扫描时,经常会出现一些Tomcat漏洞问题,一般在弱扫报告中,都会给出简单的处理办法,但有时这些办法可能不太适合我们,或者在一些正式使用的环境中,不好操作,那么我 ...
SQL字符串处理！
一.字符转换函数1.ASCII()返回字符表达式最左端字符的ASCII 码值.在ASCII()函数中,纯数字的字符串可不用‘’括起来,但含其它字符的字符串必须用‘’括起来使用,否则会出错. 2.CHA ...

Python爬取今日头条段子

Python爬取今日头条段子的更多相关文章

随机推荐

热门专题