今天学习分析ajax 请求,现把学得记录,

把我们在今日头条搜索街拍美图的时候,今日头条会发起ajax请求去请求图片,所以我们在网页源码中不能找到图片的url,但是今日头条网页中有一个json 文件,这相文件中就包括单个图集的具体url,通过访问这个url ,又可以获取一个json 文件,这个json 文件中有个键是url_list  这个键的值是一个List ,这个list中就存入了具体单个图片的下载url ,通过request.get()方法去访问这个url ,然后把得到content以二进制的方式写入到本地,并把其他数据存入到mongodb中,

代码如下,

 import requests
import json
from urllib.parse import urlencode
from requests.exceptions import RequestException
import re
from bs4 import BeautifulSoup
from config import *
import pymongo
from hashlib import md5
import os
from multiprocessing import Pool def get_page_index(offset, keyword):
"""传入要数据,获得详情页面"""
data = {
"autoload": "true",
"count": 20,
"cur_tab": 3,
"format": "json",
"from": "gallery",
"keyword": keyword,
"offset": offset,
}
url = "https://www.toutiao.com/search_content/?" + urlencode(data)
try:
response = requests.get(url)
if response.status_code == 200:
return response.text
return None
except RequestException:
print("请求index页面失败")
return None def parse_page_index(html):
"""头条街拍图片存在一个json中,json中的data就是单个图集的信息"""
data = json.loads(html)
if data and "data" in data.keys():
for item in data.get("data"):
yield item.get("article_url") def get_page_detail(url):
"""获得单个图集url的信息"""
try:
response = requests.get(url)
if response.status_code == 200:
return response.text
return None
except RequestException:
print("请求详情页面失败")
return None def parse_page_detail(html, url):
"""解析单位个图集url的网页信息,因为信息存放于一个json文件中,这个json文件嵌套在html中,所以使用re解析"""
# 先用BeautifulSoup获得title.
soup = BeautifulSoup(html, "lxml")
title = soup.select("title")[0].get_text()
print(title)
images_pattern = re.compile('parse\("(.*?)"\),', re.S)
result = re.search(images_pattern, html) if result:
data = result.group(1)
data = json.loads(data)
if data and "url_list" in data.keys():
url_list = data.get("url_list")
images = [item.get("url") for item in url_list]
for image in images:
# 调用函数下载图片到本地
download_imag(image)
# 返回数据,返回的数据存入mongodb
return {
"title": title,
"images": images,
"url": url,
} def save_to_mongo(result):
client = pymongo.MongoClient(MONGO_URL, connect=False)
db = client[MONGO_DB]
if db[MONGO_TABLE].insert(result):
print("insert into mongo success", result)
return True
else:
return False def download_imag(url):
"""# 下载图片到本地"""
print("正在下载 :", url)
try:
response = requests.get(url)
if response.status_code == 200:
# response.content 返回二进制内容
# response.text返回字符串
save_image(response.content)
except RequestException:
print("请求图片失败", url) def save_image(content):
"""解析图片url的信息,把获得的信息写入本地文件中"""
file_path = '{0}/{1}.{2}'.format(os.getcwd(), md5(content).hexdigest(), "jpg")
if not os.path.exists(file_path):
with open(file_path, "wb") as f:
f.write(content) def main(offset):
"""主函数"""
html = get_page_index(offset, KEYWORD)
# 防止get_page_index没有取回数据
if html is not None:
for url in parse_page_index(html):
html = get_page_detail(url)
if html:
result = parse_page_detail(html, url)
save_to_mongo(result)
print(result)
else:
print("get_page_index 函数没有取到数据") if __name__ == "__main__":
"""使用多进程加快速度"""
groups = [x * 20 for x in range(GROUP_START, GROUP_END)]
pool = Pool()
pool.map(main, groups)

这个程度代码相对简单,逻辑清楚,程序之间参数传递及程序的跳转也不难,只是分析今日头条的ajax请求,及获得各个json文件相对复杂一点.

我把程度的配置信息写在config.py 这个文件中,这样方法之后程序的重用,

config.py 代码如下:

MONGO_URL="localhost"
MONGO_DB="toutiao"
MONGO_TABLE="toutiao" GROUP_START = 1 # 定义起始循环点
GROUP_END = 20 # 定义终止循环点
KEYWORD="街拍"

通过这个程序,学会了分析,这种通过发起ajax请求而获取数据的网页的源码分析.这个程序不足的地方是,这个程序是用requsts库做的解析,程序会是用函数而不是类去实现,后续要把这个程序改用scrapy 库去实现.

分析AJAX抓取今日头条的街拍美图并把信息存入mongodb中的更多相关文章

  1. 分析 ajax 请求并抓取 “今日头条的街拍图”

    今日头条抓取页面: 分析街拍页面的 ajax 请求: 通过在 XHR 中查看内容,获取 url 链接,params 参数信息,将两者进行拼接后取得完整 url 地址.data 中的 article_u ...

  2. 分析Ajax抓取今日头条街拍美图

    spider.py # -*- coding:utf-8 -*- from urllib import urlencode import requests from requests.exceptio ...

  3. 关于爬虫的日常复习(9)—— 实战:分析Ajax抓取今日头条接拍美图

  4. python爬虫—— 抓取今日头条的街拍的妹子图

    AJAX 是一种用于创建快速动态网页的技术. 通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新.这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新. 近期在学习获取j ...

  5. 【Python3网络爬虫开发实战】 分析Ajax爬取今日头条街拍美图

    前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:haoxuan10 本节中,我们以今日头条为例来尝试通过分析Ajax请求 ...

  6. 爬虫—分析Ajax爬取今日头条图片

    以今日头条为例分析Ajax请求抓取网页数据.本次抓取今日头条的街拍关键字对应的图片,并保存到本地 一,分析 打开今日头条主页,在搜索框中输入街拍二字,打开开发者工具,发现浏览器显示的数据不在其源码里面 ...

  7. 分析Ajax爬取今日头条街拍美图-崔庆才思路

    站点分析 源码及遇到的问题 代码结构 方法定义 需要的常量 关于在代码中遇到的问题 01. 数据库连接 02.今日头条的反爬虫机制 03. json解码遇到的问题 04. 关于response.tex ...

  8. python多线程爬取-今日头条的街拍数据(附源码加思路注释)

    这里用的是json+re+requests+beautifulsoup+多线程 1 import json import re from multiprocessing.pool import Poo ...

  9. python抓取伯乐在线的全部文章,对标题分词后存入mongodb中

    依赖包: 1.pymongo 2.jieba # -*- coding: utf-8 -*- """ @author: jiangfuqiang "" ...

随机推荐

  1. 【JavaScript_DOM 淘宝购物车】

    让我们一起看一下淘宝的购物车是怎么做的吧,刚刚入门的我可能很多地方的用法都不够优化,不过个人感觉先把逻辑清晰之后再做的话其实也并不难哦, 以下是我做的页面代码: HTML代码: <!DOCTYP ...

  2. hackerrank Ticket

    传送门 题意:n个人排队买票,要把他们拆成k条队到k个窗口买,可以有队伍为空,每条队的顺序保持拆之前的顺序.如果某人和他前一个人买的票相同,就可以打八折,求最小花费. 题解:拆成k条队意味着只有[n- ...

  3. c++工程重复编译与重复定义

    #ifndef #define #endif防止的是"重复编译",而不是"重复定义"重复编译可能造成重复定义,但重复定义的来源不只有重复编译从代码变成可执行的程 ...

  4. TI-RTOS 控制LED灯

    TI将FreeRtos放在自家芯片上,于是得到了TI-RTOS,两者的区别我还不太清楚,近日因为项目需要,开始试用TI-RTOS,先来一个点灯的实验吧,算是 hello world. 这次手上的板子是 ...

  5. 查询A、B表中,A表中B表没有的数据

    A.B两表,找出ID字段中,存在A表,但是不存在B表的数据.A表总共13w数据,去重后大约3W条数据,B表有2W条数据,且B表的ID字段有索引. 方法一 使用 not in ,容易理解,效率低  ~执 ...

  6. js立体旋转展示效果

    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...

  7. 使用WinDbg获取SSDT函数表对应的索引再计算得出地址

    当从Ring3进入Ring0的时候会将所需要的SSDT索引放入到寄存器EAX中去,所以我们这里通过EAX的内容得到函数在SSDT中的索引号,然后计算出它的地址首先打开WinDbug,我们以函数ZwQu ...

  8. ROM、SDRAM、RAM、DRAM、SRAM、FLASH区别

    body, table{font-family: 微软雅黑; font-size: 13.5pt} table{border-collapse: collapse; border: solid gra ...

  9. Intellij-@Override报错

    1.设置  File >> Project Structure >> Project 中设置Project language level如下: 2. 设置  File > ...

  10. 通过Azure 存储账号URL鉴别是标准磁盘还是高性能磁盘

    对于不知道虚拟机磁盘是标准磁盘还是高性能磁盘时,我们可以通过nslookup解析存储账号的URL,来判断存储账号的类型,从而得知虚拟磁盘的类型 1.标准存储账号的解析结果,字母"st&quo ...