python抓取今日头条

# 直接上代码，抓取关键词搜索结果的json数据
# coding：utf-8

import requests

import json

url = 'http://www.toutiao.com/search_content/?offset=0&format=json&keyword=%E5%B0%8F%E5%BA%B7%E7%A4%BE%E4%BC%9A&autoload=true&count=20&cur_tab=1'

wbdata = requests.get(url).text

data = json.loads(wbdata)

news = data['data']

for n in news:

    if 'title' in n:

      title = n['title']

      source = n['source']

      url = n['article_url']

      keyword = n['keywords']

      print(title,url,keyword,source)

github: https://github.com/haibincoder/ToutiaoCrawler

1.浏览器中找到内容的接口，Network --> XHR是动态加载的，如果没有内容的话刷新当前页面，我们这里可以看到data节点下面有需要的数据。

2.找到需要的内容和url

3.返回结果

另外可以爬取关键词搜索结果，keyword就是一个数组，可以自己定义。

def keyword_search(keyword):

    url = 'http://www.toutiao.com/search_content/?offset=0&format=json&keyword= ' + keyword + '&autoload=true&count=200&cur_tab=1'

    toutiao_data = requests.get(url).text

    data = json.loads(toutiao_data)

    items = data['data']

    news_list = []

    link_head = 'http://toutiao.com'

    for n in items:

        if 'title' in n:

            news = News()

            news.title = n['title']

            news.tag = n['tag']

            news.source = n['source']

            news.source_url = link_head + n['source_url']

            # 两会关键词

            news.keyword = keyword

            # 今日头条自带关键词

            news.keywords = n['keywords']

            news_list.append(news)

            #print(news.title, news.source_url, news.source, news.keyword, news.keywords)

    return news_list

爬取结果，其中Content另外写了一个爬虫，第二个爬虫就是读取source_url，然后抓取正文

python抓取今日头条的更多相关文章

python爬虫之分析Ajax请求抓取抓取今日头条街拍美图（七）
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图一.分析网站 1.进入浏览器,搜索今日头条,在搜索栏搜索街拍,然后选择图集这一栏. 2.按F12打开开发者工具,刷新网页,这时网页回弹到综合 ...
Python Spider 抓取今日头条街拍美图
""" 抓取今日头条街拍美图 """ import os import time import requests from hashlib ...
分析ajax请求抓取今日头条关键字美图
# 目标:抓取今日头条关键字美图 # 思路: # 一.分析目标站点 # 二.构造ajax请求,用requests请求到索引页的内容,正则+BeautifulSoup得到索引url # 三.对索引url ...
15-分析Ajax请求并抓取今日头条街拍美图
流程框架: 抓取索引页内容:利用requests请求目标站点,得到索引网页HTML代码,返回结果. 抓取详情页内容:解析返回结果,得到详情页的链接,并进一步抓取详情页的信息. 下载图片与保存数据库:将 ...
[Python爬虫] 之二十五：Selenium +phantomjs 利用 pyquery抓取今日头条网数据
一.介绍本例子用Selenium +phantomjs爬取今日头条(http://www.toutiao.com/search/?keyword=电视)的资讯信息,输入给定关键字抓取资讯信息. 给定 ...
Python爬取今日头条段子
刚入门Python爬虫,试了下爬取今日头条官网中的段子,网址为https://www.toutiao.com/ch/essay_joke/源码比较简陋,如下: import requests impo ...
Python爬虫学习==>第十一章：分析Ajax请求-抓取今日头条信息
学习目的: 解决AJAX请求的爬虫,网页解析库的学习,MongoDB的简单应用正式步骤 Step1:流程分析抓取单页内容:利用requests请求目标站点,得到单个页面的html代码,返回结果: ...
python学习(26)分析ajax请求抓取今日头条cosplay小姐姐图片
分析ajax请求格式,模拟发送http请求,从而获取网页代码,进而分析取出需要的数据和图片.这里分析ajax请求,获取cosplay美女图片. 登陆今日头条,点击搜索,输入cosplay 下面查看浏览 ...
[Python爬虫] 之二十七：Selenium +phantomjs 利用 pyquery抓取今日头条视频
一.介绍本例子用Selenium +phantomjs爬取今天头条视频(http://www.tvhome.com/news/)的信息,输入给定关键字抓取图片信息. 给定关键字:视频:融合:电视二 ...

随机推荐

从语句 char* p="test" 说起
我相信,使用C/C++多年的人对下面这个字符串赋值语句都不会陌生吧. char* p = "test"; 同时,我也相信,各位在使用这种语句后吃 ...
shell将脚本输出结果记录到日志文件
使用tee命令: sh portal/main.sh |tee log.txt 获取脚本父类路径cmddir="`dirname $0`"
python标准库介绍——37 signal 模块详解
==signal 模块== 你可以使用 ``signal`` 模块配置你自己的信号处理器 (signal handler), 如 [Example 3-11 #eg-3-11] 所示. 当解释器收到某 ...
Navicat_Premium 连接oracle遇到ORA-28457
解决方案很简单,我用oracle文件目录下的oci.dll替换了navicat文件目录下的oci.dll,之后很顺畅地就连上了.
怎么在linux 用nginx做代理配置.net core
1. 安装 .net core到centos7 2. 安装nginx 配置代理: vim /opt/nginx/conf/nginx.conf server { listen 80; server_n ...
Git--团队开发必备神器
花了两天时间专门搞了一下git.整理一下分享给大家.以下我们開始.. . 转载请注明出处: http://blog.csdn.net/Hello_Chillax/article/details/474 ...
C++/C课程设计（2）工资管理系统功能说明
原文取自个人博客:www.jycoder.com欢迎訪问百度网盘下载源码:Demo.zip 百度网盘下载软件文档:软件文档.zip 工资管理系统一, 基本功能要求: 1)以password ...
C++ 读写MySQL经典（转载）
from: http://blog.csdn.net/jemlee2002/article/details/1523164 看过很多C或是C++操作MySQL数据库的文章,大部分太吃力了,甚至有一 ...
android studio - Manifest merger failed with multiple errors, see logs
今天编译运行的时候遇到了“Error:Execution failed for task ':test:processDebugManifest'.> Manifest merger faile ...
C++中的友元函数和友元类
C++中的友元函数主要应用于以下场景: 友元函数第一种场景代码中有一个全局函数,该函数想要去访问某个类的成员变量(该类的成员变量是private的,且该类并未提供任何获取获取私有成员变量的publ ...

python抓取今日头条

python抓取今日头条的更多相关文章

随机推荐

热门专题