分析Ajax抓取今日头条街拍美图

spider.py

 # -*- coding:utf-8 -*-

 from urllib import urlencode

 import requests

 from requests.exceptions import RequestException

 import json

 import re

 import os

 from hashlib import md5

 from bs4 import BeautifulSoup

 import pymongo

 from multiprocessing import Pool

 from json.decoder import JSONDecoder

 from config import *

 client = pymongo.MongoClient(MONGO_URL, connect=False)

 db = client[MONGO_DB]

 def get_page_index(offset,keyword):

     data = {

         'offset': offset,

         'format': 'json',

         'keyword': keyword,

         'autoload': 'true',

         'count': '',

         'cur_tab': 3

     }

     url = 'http://www.toutiao.com/search_content/?' + urlencode(data)

     try:

         response = requests.get(url)

         if response.status_code == 200:

             return response.text

         return None

     except RequestException:

         print u'请求索引页失败', url

         return None

 def parse_page_index(html):

     data = json.loads(html)

     if data and 'data' in data.keys():

         for item in data.get('data'):

             yield item.get('article_url')

 def get_page_detail(url):

     try:

         response = requests.get(url)

         if response.status_code == 200:

             return response.text

         return None

     except RequestException:

         print u'请求详情页失败', url

         return None

 def parse_page_detail(html, url):

     soup = BeautifulSoup(html, 'lxml')

     title = soup.select('title')[0].get_text()

     print(title)

     images_pattern = re.compile('gallery: (.*?),\n', re.S)

     result = re.search(images_pattern, html)

     if result:

         data = json.loads(result.group(1))

         if data and 'sub_images' in data.keys():

             sub_images = data.get('sub_images')

             images = [item.get('url') for item in sub_images]

             for image in images: download_image(image)

             return {

                 'title': title,

                 'url': url,

                 'images': images

             }

 def save_to_mongo(result):

     if db[MONGO_TABLE].insert(result):

         print u'存储到MongoDB成功', result

         return True

     return False

 def download_image(url):

     print u'正在下载', url

     try:

         response = requests.get(url)

         if response.status_code == 200:

             save_image(response.content)

         return None

     except RequestException:

         print u'请求图片失败', url

         return None

 def save_image(content):

     file_path = '{0}/{1}.{2}'.format(os.getcwd(), md5(content).hexdigest(), 'jpg')

     if not os.path.exists(file_path):

         with open(file_path, 'wb') as f:

             f.write(content)

             f.close()

 def main(offset):

     html = get_page_index(offset, KEYWORD)

     for url in parse_page_index(html):

         html = get_page_detail(url)

         if html:

             result = parse_page_detail(html, url)

             if result: save_to_mongo(result)

 if __name__ == '__main__':

     groups = [x*20 for x in range(GROUP_START, GROUP_END+1)]

     pool = Pool()

     pool.map(main, groups)

config.py

 # -*- coding:utf-8 -*-

 MONGO_URL = 'localhost'

 MONGO_DB = 'toutiao'

 MONGO_TABLE = 'toutiao'

 GROUP_START = 0

 GROUP_END = 20

 KEYWORD = '街拍'

分析Ajax抓取今日头条街拍美图的更多相关文章

【Python3网络爬虫开发实战】分析Ajax爬取今日头条街拍美图
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:haoxuan10 本节中,我们以今日头条为例来尝试通过分析Ajax请求 ...
分析Ajax爬取今日头条街拍美图-崔庆才思路
站点分析源码及遇到的问题代码结构方法定义需要的常量关于在代码中遇到的问题 01. 数据库连接 02.今日头条的反爬虫机制 03. json解码遇到的问题 04. 关于response.tex ...
关于爬虫的日常复习（9）—— 实战：分析Ajax抓取今日头条接拍美图
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图（七）
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图一.分析网站 1.进入浏览器,搜索今日头条,在搜索栏搜索街拍,然后选择图集这一栏. 2.按F12打开开发者工具,刷新网页,这时网页回弹到综合 ...
15-分析Ajax请求并抓取今日头条街拍美图
流程框架: 抓取索引页内容:利用requests请求目标站点,得到索引网页HTML代码,返回结果. 抓取详情页内容:解析返回结果,得到详情页的链接,并进一步抓取详情页的信息. 下载图片与保存数据库:将 ...
Python Spider 抓取今日头条街拍美图
""" 抓取今日头条街拍美图 """ import os import time import requests from hashlib ...
分析Ajax请求并抓取今日头条街拍美图
项目说明本项目以今日头条为例,通过分析Ajax请求来抓取网页数据. 有些网页请求得到的HTML代码里面并没有我们在浏览器中看到的内容.这是因为这些信息是通过Ajax加载并且通过JavaScript渲 ...
【Python3网络爬虫开发实战】6.4-分析Ajax爬取今日头条街拍美图【华为云技术分享】
[摘要] 本节中,我们以今日头条为例来尝试通过分析Ajax请求来抓取网页数据的方法.这次要抓取的目标是今日头条的街拍美图,抓取完成之后,将每组图片分文件夹下载到本地并保存下来. 1. 准备工作在本节 ...
转：【Python3网络爬虫开发实战】6.4-分析Ajax爬取今日头条街拍美图
[摘要] 本节中,我们以今日头条为例来尝试通过分析Ajax请求来抓取网页数据的方法.这次要抓取的目标是今日头条的街拍美图,抓取完成之后,将每组图片分文件夹下载到本地并保存下来. 1. 准备工作在本节 ...

随机推荐

java 第二天运算符及录入函数Scanner
package com.it; /* 运算符;就是用于对常量和变量进行操作的符号表达式:用运算符链接起来的符合java语法的式子,不同的运算符链接的表达式是不同类型的表达式 */ public cl ...
985. Sum of Even Numbers After Queries
We have an array A of integers, and an array queries of queries. For the i-th query val = queries[i] ...
mysql5.7.21安装要点记录
下载的是Zip解压缩版,Windows系统,因为很久没有在Windows上安装过,这次安装发现了几处和以前安装不一样的地方,特记录如下,供大家参考 MySQL配置文件位置 bin目录下的mysql_c ...
android 7.0+ FileProvider 访问隐私文件相册、相机、安装应用的适配
从 Android 7.0 开始,Android SDK 中的 StrictMode 策略禁止开发人员在应用外部公开 file:// URI.具体表现为,当我们在应用中使用包含 file:// URI ...
查看设置mysql时区
# 查看时区 show variables like '%time_zone%'; system_time_zone CST time_zone SYSTEM # 设置全局 set global ti ...
vm虚拟机网关配置
今天因为环境搭建,在配置完,外部始终无法访问虚拟机,一时想不出道理,后来经过端口测试,发现应该是网关配置问题,留个备注,防止以后出现同样的问题.
web安全之机器学习入门——3.2 决策树与随机森林
目录简介决策树简单用法决策树检测P0P3爆破决策树检测FTP爆破随机森林检测FTP爆破简介决策树和随机森林算法是最常见的分类算法: 决策树,判断的逻辑很多时候和人的思维非常接近. 随机森 ...
2019西湖论剑web wp
发在正文前这应该是自己在安全圈摸爬滚打两年多以来第一次正规的ctf比赛.没解出flag,没截图,只提供了一些思路. 遥想往昔,初入大学,带着对PT的向往,一个人穿行在幽暗的图书馆,翻阅啃读一本本安全 ...
HTTP协议快速入门指南
看完下面的文章,回答这几个问题常用的HTTP方法有哪些 GET方法与POST方法的区别 HTTP请求报文与响应报文格式常见的HTTP相应状态码 HTTP1.1版本新特性常见HTTP首部字段 HT ...
vue.js中axios的封装
基于前文所述,axios 是一个基于Promise 用于浏览器和 nodejs 的 HTTP 客户端,它有很多优秀的特性,例如拦截请求和响应.取消请求.转换json.客户端防御XSRF等. 如果还对a ...

分析Ajax抓取今日头条街拍美图

分析Ajax抓取今日头条街拍美图的更多相关文章

随机推荐

热门专题