【Python爬虫案例学习】分析Ajax请求并抓取今日头条街拍图片

1.抓取索引页内容

利用requests请求目标站点，得到索引网页HTML代码，返回结果。

from urllib.parse import urlencode

from requests.exceptions import RequestException

import requests

'''

遇到不懂的问题？Python学习交流群：821460695满足你的需求，资料都已经上传群文件，可以自行下载！

'''

def get_page_index(offset, keyword):

    headers = { 'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36' }

    data = {

        'format': 'json',

        'offset': offset,

        'keyword': keyword,

        'autoload': 'true',

        'count': 20,

        'cur_tab': 1,

        'from': 'search_tab',

        'pd': 'synthesis',

    }

    url = 'https://www.toutiao.com/search_content/?' + urlencode(data)

    response = requests.get(url, headers=headers);

    try:

        if response.status_code == 200:

            return response.text

        return None

    except RequestException:

        print('请求索引页失败')

        return None

def main():

    html = get_page_index(0,'街拍')

    print(html)

if __name__=='__main__':

    main()

2.抓取详情页内容

解析返回结果，得到详情页的链接，并进一步抓取详情页的信息。

获取页面网址：

def parse_page_index(html):

  data = json.loads(html)

  if data and 'data' in data.keys():

    for item in data.get('data'):

      yield item.get('article_url')

单个页面代码：

def get_page_detail(url):

  headers = { 'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36' }

  try:

    response = requests.get(url, headers=headers)

    if response.status_code == 200:

      return response.text

    return None

  except RequestException:

    print('请求详情页页失败')

    return None

图片地址

def parse_page_detail(html,url):

  soup = BeautifulSoup(html,'lxml')

  title = soup.select('title')[0].get_text()

  images_pattern = re.compile('gallery: JSON.parse\((.*?)\)', re.S)

  result = re.search(images_pattern, html)

  if result:

    data = json.loads(result.group(1))

    data = json.loads(data) #将字符串转为dict，因为报错了

    if data and 'sub_images' in data.keys():

      sub_images = data.get('sub_images')

      images = [item.get('url') for item in sub_images]

      for image in images: download_image(image)

      return {

        'title': title,

        'images':images,

        'url':url

      }

3.下载图片与保存数据库

将图片下载到本地，并把页面信息及图片URL保存到MongDB。

# 存到数据库

def save_to_mongo(result):

  if db[MONGO_TABLE].insert(result):

    print('存储到MongoDb成功', result)

    return True

  return False

# 下载图片

def download_image(url):

  print('正在下载',url)

  headers = { 'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.    36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36' }

  try:

    response = requests.get(url, headers=headers)

    if response.status_code == 200:

      save_image(response.content)

    return None

  except RequestException:

    print('请求图片失败', url)

    return None

def save_image(content):

  file_path = '{0}/{1}.{2}'.format(os.getcwd(),md5(content).hexdigest(),'jpg')

  if not os.path.exists(file_path):

    with open(file_path,'wb') as f:

      f.write(content)

4.开启循环及多线程

对多页内容遍历，开启多线程提高抓取速度。

groups = [x*20 for x in range(GROUP_START, GROUP_END+1)]

    pool = Pool()

    pool.map(main,groups)

完整代码：

from urllib.parse import urlencode

from requests.exceptions import RequestException

from bs4 import BeautifulSoup

from hashlib import md5

from multiprocessing import Pool

from config import *

import pymongo

import requests

import json

import re

import os

'''

遇到不懂的问题？Python学习交流群：821460695满足你的需求，资料都已经上传群文件，可以自行下载！

'''

client = pymongo.MongoClient(MONGO_URL)

db = client[MONGO_DB]

def get_page_index(offset, keyword):

  headers = { 'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36' }

  data = { 'format': 'json','offset': offset,'keyword': keyword,'autoload': 'true','count': 20,'cur_tab': 1,'from': 'search_tab','pd': 'synthesis' }

  url = 'https://www.toutiao.com/search_content/?' + urlencode(data)

  try:

    response = requests.get(url, headers=headers)

    if response.status_code == 200:

      return response.text

    return None

  except RequestException:

    print('请求索引页失败')

    return None

def parse_page_index(html):

  data = json.loads(html)

  if data and 'data' in data.keys():

    for item in data.get('data'):

      yield item.get('article_url')

def get_page_detail(url):

  headers = { 'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36' }

  try:

    response = requests.get(url, headers=headers)

    if response.status_code == 200:

      return response.text

    return None

  except RequestException:

    print('请求详情页页失败')

    return None

def parse_page_detail(html,url):

  soup = BeautifulSoup(html,'lxml')

  title = soup.select('title')[0].get_text()

  images_pattern = re.compile('gallery: JSON.parse\((.*?)\)', re.S)

  result = re.search(images_pattern, html)

  if result:

    data = json.loads(result.group(1))

    data = json.loads(data) #将字符串转为dict，因为报错了

    if data and 'sub_images' in data.keys():

      sub_images = data.get('sub_images')

      images = [item.get('url') for item in sub_images]

      for image in images: download_image(image)

      return {

        'title': title,

        'images':images,

        'url':url

      }

def save_to_mongo(result):

  if db[MONGO_TABLE].insert(result):

    print('存储到MongoDb成功', result)

    return True

  return False

def download_image(url):

  print('正在下载',url)

  headers = { 'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.    36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36' }

  try:

    response = requests.get(url, headers=headers)

    if response.status_code == 200:

      save_image(response.content)

    return None

  except RequestException:

    print('请求图片失败', url)

    return None

def save_image(content):

  file_path = '{0}/{1}.{2}'.format(os.getcwd(),md5(content).hexdigest(),'jpg')

  if not os.path.exists(file_path):

    with open(file_path,'wb') as f:

      f.write(content)

def main(offset):

  html = get_page_index(offset,KEYWORD)

  for url in parse_page_index(html):

     html = get_page_detail(url)

     if html:

       result = parse_page_detail(html,url)

       if isinstance(result,dict):

         save_to_mongo(result)

if __name__=='__main__':

    groups = [x*20 for x in range(GROUP_START, GROUP_END+1)]

    pool = Pool()

    pool.map(main,groups)

config.py

MONGO_URL = 'localhost'

MONGO_DB = 'toutiao'

MONGO_TABLE = 'jiepai'

GROUP_START = 1

GROUP_END = 20

KEYWORD = '街拍'

~

【Python爬虫案例学习】分析Ajax请求并抓取今日头条街拍图片的更多相关文章

Python爬虫系列-分析Ajax请求并抓取今日头条街拍图片
1.抓取索引页内容利用requests请求目标站点,得到索引网页HTML代码,返回结果. 2.抓取详情页内容解析返回结果,得到详情页的链接,并进一步抓取详情页的信息. 3.下载图片与保存数据库将 ...
分析Ajax请求并抓取今日头条街拍美图
项目说明本项目以今日头条为例,通过分析Ajax请求来抓取网页数据. 有些网页请求得到的HTML代码里面并没有我们在浏览器中看到的内容.这是因为这些信息是通过Ajax加载并且通过JavaScript渲 ...
分析 ajax 请求并抓取今日头条街拍美图
首先分析街拍图集的网页请求头部: 在 preview 选项卡我们可以找到 json 文件,分析 data 选项,找到我们要找到的图集地址 article_url: 选中其中一张图片,分析 json 请 ...
2.分析Ajax请求并抓取今日头条街拍美图
import requests from urllib.parse import urlencode # 引入异常类 from requests.exceptions import RequestEx ...
python爬虫知识点总结（十）分析Ajax请求并抓取今日头条街拍美图
一.流程框架
15-分析Ajax请求并抓取今日头条街拍美图
流程框架: 抓取索引页内容:利用requests请求目标站点,得到索引网页HTML代码,返回结果. 抓取详情页内容:解析返回结果,得到详情页的链接,并进一步抓取详情页的信息. 下载图片与保存数据库:将 ...
PYTHON 爬虫笔记九:利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集（实战项目二）
利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集目标站点分析今日头条这类的网站制作,从数据形式,CSS样式都是通过数据接口的样式来决定的,所以它的抓取方法和其他网页的抓取方 ...
爬虫七之分析Ajax请求并爬取今日头条
爬取今日头条图片这里只讨论出现的一些问题,代码在最下面github链接里. 首先,今日头条取消了"图集"这一选项,因此对于爬虫来说效率降低了很多: 在所有代码都完成后,也许是爬取 ...
分析 ajax 请求并抓取 “今日头条的街拍图”
今日头条抓取页面: 分析街拍页面的 ajax 请求: 通过在 XHR 中查看内容,获取 url 链接,params 参数信息,将两者进行拼接后取得完整 url 地址.data 中的 article_u ...

随机推荐

ent 基本使用十七分页与排序
ent 提供了方便的数据分页以及排序处理 limit 分页 users, err := client.User. Query(). Limit(n). All(ctx) offset 分页 users ...
RFM客户价值分类
# 自定义好的包,亲测可用原数据和代码思想来自以下网址 # https://github.com/joaolcorreia/RFM-analysis import datetime as dt im ...
uni-app 网络请求
uni.request发起网络请求 url 开发者服务器接口地址 data 请求的参数 header method dataType responseType 设置响应的数据类型 statusCode ...
反素数 Antiprime（信息学奥赛一本通 1625）（洛谷 1463）
题目描述对于任何正整数x,其约数的个数记作g(x).例如g(1)=1.g(6)=4. 如果某个正整数x满足:g(x)>g(i) 0<i<x,则称x为反质数.例如,整数1,2,4,6 ...
如何实现大麦场在线选座 svg js
本实例来源于此网站,内有Demo,可查看 <!DOCTYPE html> <html lang="en"> <head> <meta ch ...
HustOJ二次开发之隐藏菜单栏
通过关键搜索: find / -name *nav.php 出现如下结果:/home/judge/src/web/template/ie/nav.php/home/judge/src/web/temp ...
js之select三级联动
效果图如下: 代码逻辑梳理:层层递进,比如选择了课程后,将对应的课程id保存,然后点击选择章时自动触发对应的时间,根据这个课程ID获取其下面的章信息.其它的如节等,同理. 代码说明:如下代码不规范,可 ...
java基础之 final
参考文档: 内存模型&final:http://www.infoq.com/cn/articles/java-memory-model-6/ 根据程序上下文环境,Java关键字final有 ...
sql查询条件参数为空
查询某些值为空的数据 select * from usertable where name is null or page is null
java 注解，动态代理
秒懂,Java 注解 (Annotation)你可以这样学深入理解Java注解类型(@Annotation) 注解可以理解为标签. 当开发者使用了Annotation 修饰了类.方法.Field 等 ...

【Python爬虫案例学习】分析Ajax请求并抓取今日头条街拍图片

完整代码：

【Python爬虫案例学习】分析Ajax请求并抓取今日头条街拍图片的更多相关文章

随机推荐

热门专题