python3爬虫-分析Ajax，抓取今日头条街拍美图

# coding=utf-8

from urllib.parse import urlencode

import requests

from requests.exceptions import RequestException,Timeout

import json

from bs4 import BeautifulSoup

from pymongo import MongoClient

from multiprocessing import Pool

import os

import string

from hashlib import md5

def get_response(url):

    try:

        headers = {

            "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36"

        }

        # proxies = {'http':'118.11.2.3:8080'}

        response = requests.get(url, headers=headers, timeout=5)

        print(url + 'request success')

        return response

    except Timeout:

        print(url + 'request timeout')

def get_page_index(offset, keyword):

    data = {

        "offset": offset,

        "format": "json",

        "keyword": keyword,

        "autoload": "true",

        "count": "20",

        "cur_tab": "1",

        "from":"search_tab"

    }

    url = "https://www.toutiao.com/search_content/?" + urlencode(data)

    print(url)

    try:

        response = get_response(url)

        print(response.status_code)

        if response.status_code == 200:

            return response.text

        return None

    except RequestException:

        print('request error')

        return None

def conn_mongodb():

    client = MongoClient('localhost', 27017)

    db = client['jiepai']

    jiepai = db['jiepai']

    return jiepai

def save_image_url(data):

    jiepai = conn_mongodb()

    jiepai.update({'title':data.get('title')}, {'$set':data}, upsert=True)

def get_image_url():

    jiepai = conn_mongodb()

    data = jiepai.find({}, {'title': 1, 'images_list': 1, '_id': 0})

    return data

def download_image(data):

    base_dir = os.path.abspath(os.path.dirname(__file__))

    if not os.path.exists(base_dir + '\jiepai'):

        os.mkdir(base_dir + '\jiepai')

    for item in data:

        print(item.get('title'))

        title = item.get('title')

        images_list = item.get('images_list')

        print('images_lsit',images_list)

        # every file name

        file_name = title.strip(string.punctuation)

        file_name = str(file_name).replace('?','')

        if not os.path.exists(base_dir + '\jiepai/' + file_name):

            os.mkdir(base_dir + '\jiepai\\' + file_name)

        # save images path

        file_path = base_dir + '\jiepai\\' + file_name

        for image_url in images_list:

            print(image_url)

            response = get_response(image_url)

            html = response.content

            image_name = md5(html).hexdigest() + '.jpg'

            with open(file_path + '\\' + image_name, 'wb') as f:

                f.write(html)

                print('download success')

def parse_page_index(html):

    data = json.loads(html)

    if data and 'data' in data.keys():

        for item in data.get('data'):

            a_gourp_image_detail = {}

            images_list = []

            title = item.get('title')

            # print(title)

            if title is not None:

                a_gourp_image_detail['title'] = title

                images = item.get('image_detail')

                # print(images)

                if images:

                    for image in images:

                        # print(image.get('url'))

                        images_list.append(image.get('url'))

            # if images_list:

            a_gourp_image_detail['images_list'] = list(set(images_list))

            print(a_gourp_image_detail)

            save_image_url(a_gourp_image_detail)

def main(offset):

    html = get_page_index(offset, '街拍')

    # print(html)

    parse_page_index(html)

if __name__ == "__main__":

    # 多进程爬取图片链接，并保存到 Mongodb

    # groups = [x*20 for x in range(0,5)]

    # pool = Pool()

    # pool.map(main, groups)

    # 从 mongodb 中获取链接，多进程下载图片，并保存

    data = get_image_url()

    datas = [item for item in data]

    pool = Pool()

    pool.map(download_image, data)

    # download_image()

python3爬虫-分析Ajax，抓取今日头条街拍美图的更多相关文章

分析Ajax抓取今日头条街拍美图
spider.py # -*- coding:utf-8 -*- from urllib import urlencode import requests from requests.exceptio ...
【Python3网络爬虫开发实战】分析Ajax爬取今日头条街拍美图
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:haoxuan10 本节中,我们以今日头条为例来尝试通过分析Ajax请求 ...
分析Ajax爬取今日头条街拍美图-崔庆才思路
站点分析源码及遇到的问题代码结构方法定义需要的常量关于在代码中遇到的问题 01. 数据库连接 02.今日头条的反爬虫机制 03. json解码遇到的问题 04. 关于response.tex ...
关于爬虫的日常复习（9）—— 实战：分析Ajax抓取今日头条接拍美图
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图（七）
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图一.分析网站 1.进入浏览器,搜索今日头条,在搜索栏搜索街拍,然后选择图集这一栏. 2.按F12打开开发者工具,刷新网页,这时网页回弹到综合 ...
15-分析Ajax请求并抓取今日头条街拍美图
流程框架: 抓取索引页内容:利用requests请求目标站点,得到索引网页HTML代码,返回结果. 抓取详情页内容:解析返回结果,得到详情页的链接,并进一步抓取详情页的信息. 下载图片与保存数据库:将 ...
Python Spider 抓取今日头条街拍美图
""" 抓取今日头条街拍美图 """ import os import time import requests from hashlib ...
分析Ajax请求并抓取今日头条街拍美图
项目说明本项目以今日头条为例,通过分析Ajax请求来抓取网页数据. 有些网页请求得到的HTML代码里面并没有我们在浏览器中看到的内容.这是因为这些信息是通过Ajax加载并且通过JavaScript渲 ...
【Python3网络爬虫开发实战】6.4-分析Ajax爬取今日头条街拍美图【华为云技术分享】
[摘要] 本节中,我们以今日头条为例来尝试通过分析Ajax请求来抓取网页数据的方法.这次要抓取的目标是今日头条的街拍美图,抓取完成之后,将每组图片分文件夹下载到本地并保存下来. 1. 准备工作在本节 ...
转：【Python3网络爬虫开发实战】6.4-分析Ajax爬取今日头条街拍美图
[摘要] 本节中,我们以今日头条为例来尝试通过分析Ajax请求来抓取网页数据的方法.这次要抓取的目标是今日头条的街拍美图,抓取完成之后,将每组图片分文件夹下载到本地并保存下来. 1. 准备工作在本节 ...

随机推荐

8.1.3 在BroadcastReceiver中启动Service
2010-06-21 16:57 李宁中国水利水电出版社字号:T | T <Android/OPhone开发完全讲义>第8章Android服务,本章主要介绍了Android系统中的服 ...
http Referrer-Policy
Referrer-Policy: no-referrer Referrer-Policy: no-referrer-when-downgrade Referrer-Policy: origin Ref ...
Google I/O 2014 大会总结 Android开发新方向
昨天晚上,Google I/O 2014大会召开,会上主要展示了下面几个部分的创新内容: Android L 操作系统首先是界面,谷歌又一次设计了一套 UI 规范.并称之为"Materia ...
websocket echo test
http://www.websocket.org/echo.html .net websocket server http://superwebsocket.codeplex.com/ http:// ...
position与float属性的使用
1.使用float时,可以说是用于布局,取值主要有left.right.none.就是将该块的元素浮动起来,在浏览器默认的情况下,该元素的位置是为空的, 即脱离了文档流而存在,如果有其他元素,那么这些 ...
C++学习笔记34 模版的原理
模版在C++中具有很重要的地位.STL就是大量运用模版写出来的. 模版的长处我就不一一列举了.这里我仅仅说一下模版的原理. 当编译器遇到模版方法定义的时候,编译器进行语法检查,可是并不会编译模版.编译 ...
linux shell自动输入实现
1 #!/bin/sh 2 3 while read line 4 do 5 str=$line 6 var1=`echo $str|awk -F ' ' '{pri ...
Prelogin error: host 127.0.0.1 port 1434 Error reading prelogin response: Connection reset ClientConnectionId:26d4b559-c985-4b2e-bd8e-dd7a53b67e48
我在使用SSM框架的时候,连接的是sqlserver 2008r2数据库,但是查询数据的时候总是出现这样的警告信息,导致的结果是第一次登录的时候获取数据慢或者获取数据失败,具体的log信息如下警告: ...
Java基础05 实施接口（转载）
经过封装,产品隐藏了内部细节,只提供给用户接口(interface). 接口是非常有用的概念,可以辅助我们的抽象思考.在现实生活中,当我们想起某个用具的时候,往往想到的是该用具的功能性接口.比如杯子, ...
onload 和 onunload 事件
onload 和 onunload 事件会在用户进入或离开页面时被触发. onload 事件可用于检测访问者的浏览器类型和浏览器版本,并基于这些信息来加载网页的正确版本. onload 和 onunl ...

python3爬虫-分析Ajax，抓取今日头条街拍美图

python3爬虫-分析Ajax，抓取今日头条街拍美图的更多相关文章

随机推荐

热门专题