分析AJAX抓取今日头条的街拍美图并把信息存入mongodb中

今天学习分析ajax 请求,现把学得记录,

把我们在今日头条搜索街拍美图的时候,今日头条会发起ajax请求去请求图片,所以我们在网页源码中不能找到图片的url,但是今日头条网页中有一个json 文件,这相文件中就包括单个图集的具体url,通过访问这个url ,又可以获取一个json 文件,这个json 文件中有个键是url_list 这个键的值是一个List ,这个list中就存入了具体单个图片的下载url ,通过request.get()方法去访问这个url ,然后把得到content以二进制的方式写入到本地,并把其他数据存入到mongodb中,

代码如下,

 import requests

 import json

 from urllib.parse import urlencode

 from requests.exceptions import RequestException

 import re

 from bs4 import BeautifulSoup

 from config import *

 import pymongo

 from hashlib import md5

 import os

 from multiprocessing import Pool

 def get_page_index(offset, keyword):

     """传入要数据,获得详情页面"""

     data = {

         "autoload": "true",

         "count": 20,

         "cur_tab": 3,

         "format": "json",

         "from": "gallery",

         "keyword": keyword,

         "offset": offset,

     }

     url = "https://www.toutiao.com/search_content/?" + urlencode(data)

     try:

         response = requests.get(url)

         if response.status_code == 200:

             return response.text

         return None

     except RequestException:

         print("请求index页面失败")

         return None

 def parse_page_index(html):

     """头条街拍图片存在一个json中,json中的data就是单个图集的信息"""

     data = json.loads(html)

     if data and "data" in data.keys():

         for item in data.get("data"):

             yield item.get("article_url")

 def get_page_detail(url):

     """获得单个图集url的信息"""

     try:

         response = requests.get(url)

         if response.status_code == 200:

             return response.text

         return None

     except RequestException:

         print("请求详情页面失败")

         return None

 def parse_page_detail(html, url):

     """解析单位个图集url的网页信息,因为信息存放于一个json文件中,这个json文件嵌套在html中,所以使用re解析"""

     # 先用BeautifulSoup获得title.

     soup = BeautifulSoup(html, "lxml")

     title = soup.select("title")[0].get_text()

     print(title)

     images_pattern = re.compile('parse\("(.*?)"\),', re.S)

     result = re.search(images_pattern, html)

     if result:

         data = result.group(1)

         data = json.loads(data)

         if data and "url_list" in data.keys():

             url_list = data.get("url_list")

             images = [item.get("url") for item in url_list]

             for image in images:

                 # 调用函数下载图片到本地

                 download_imag(image)

             # 返回数据,返回的数据存入mongodb

             return {

                 "title": title,

                 "images": images,

                 "url": url,

             }

 def save_to_mongo(result):

     client = pymongo.MongoClient(MONGO_URL, connect=False)

     db = client[MONGO_DB]

     if db[MONGO_TABLE].insert(result):

         print("insert into mongo success", result)

         return True

     else:

         return False

 def download_imag(url):

     """# 下载图片到本地"""

     print("正在下载 :", url)

     try:

         response = requests.get(url)

         if response.status_code == 200:

             # response.content 返回二进制内容

             # response.text返回字符串

             save_image(response.content)

     except RequestException:

         print("请求图片失败", url)

 def save_image(content):

     """解析图片url的信息,把获得的信息写入本地文件中"""

     file_path = '{0}/{1}.{2}'.format(os.getcwd(), md5(content).hexdigest(), "jpg")

     if not os.path.exists(file_path):

         with open(file_path, "wb") as f:

             f.write(content)

 def main(offset):

     """主函数"""

     html = get_page_index(offset, KEYWORD)

     # 防止get_page_index没有取回数据

     if html is not None:

         for url in parse_page_index(html):

             html = get_page_detail(url)

             if html:

                 result = parse_page_detail(html, url)

                 save_to_mongo(result)

                 print(result)

     else:

         print("get_page_index 函数没有取到数据")

 if __name__ == "__main__":

     """使用多进程加快速度"""

     groups = [x * 20 for x in range(GROUP_START, GROUP_END)]

     pool = Pool()

     pool.map(main, groups)

这个程度代码相对简单,逻辑清楚,程序之间参数传递及程序的跳转也不难,只是分析今日头条的ajax请求,及获得各个json文件相对复杂一点.

我把程度的配置信息写在config.py 这个文件中,这样方法之后程序的重用,

config.py 代码如下:

MONGO_URL="localhost"

MONGO_DB="toutiao"

MONGO_TABLE="toutiao"

GROUP_START = 1 # 定义起始循环点

GROUP_END = 20 # 定义终止循环点

KEYWORD="街拍"

通过这个程序,学会了分析,这种通过发起ajax请求而获取数据的网页的源码分析.这个程序不足的地方是,这个程序是用requsts库做的解析,程序会是用函数而不是类去实现,后续要把这个程序改用scrapy 库去实现.

分析AJAX抓取今日头条的街拍美图并把信息存入mongodb中的更多相关文章

分析 ajax 请求并抓取 “今日头条的街拍图”
今日头条抓取页面: 分析街拍页面的 ajax 请求: 通过在 XHR 中查看内容,获取 url 链接,params 参数信息,将两者进行拼接后取得完整 url 地址.data 中的 article_u ...
分析Ajax抓取今日头条街拍美图
spider.py # -*- coding:utf-8 -*- from urllib import urlencode import requests from requests.exceptio ...
关于爬虫的日常复习（9）—— 实战：分析Ajax抓取今日头条接拍美图
python爬虫—— 抓取今日头条的街拍的妹子图
AJAX 是一种用于创建快速动态网页的技术. 通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新.这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新. 近期在学习获取j ...
【Python3网络爬虫开发实战】分析Ajax爬取今日头条街拍美图
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:haoxuan10 本节中,我们以今日头条为例来尝试通过分析Ajax请求 ...
爬虫—分析Ajax爬取今日头条图片
以今日头条为例分析Ajax请求抓取网页数据.本次抓取今日头条的街拍关键字对应的图片,并保存到本地一,分析打开今日头条主页,在搜索框中输入街拍二字,打开开发者工具,发现浏览器显示的数据不在其源码里面 ...
分析Ajax爬取今日头条街拍美图-崔庆才思路
站点分析源码及遇到的问题代码结构方法定义需要的常量关于在代码中遇到的问题 01. 数据库连接 02.今日头条的反爬虫机制 03. json解码遇到的问题 04. 关于response.tex ...
python多线程爬取-今日头条的街拍数据（附源码加思路注释）
这里用的是json+re+requests+beautifulsoup+多线程 1 import json import re from multiprocessing.pool import Poo ...
python抓取伯乐在线的全部文章，对标题分词后存入mongodb中
依赖包: 1.pymongo 2.jieba # -*- coding: utf-8 -*- """ @author: jiangfuqiang "" ...

随机推荐

metasploit魔鬼训练营（收集外围信息）
现在我们时空穿越,来到魔鬼训练营的主角身上,现在我们要训练,对V公司进行渗透测试,回想起总监说的情报收集 1,外围搜集,指的是自己假装是一个正常用户来搜集情报我们开启msf用auxiliary/sc ...
在虚拟机中安装metasploit官方攻防模拟器
首先我们要在windwos下载安装perl环境.下载地址: http://pan.baidu.com/s/1i3GLKAp 然后我们安装点击next 我同意,next next next,然后他会安 ...
CTF---隐写术入门第三题打不开的文件
打不开的文件分值:10 来源: 实验吧难度:中参与人数:2718人 Get Flag:1222人答题人数:1276人解题通过率:96% 咦!这个文件怎么打不开? 解题链接: http://ct ...
NYoj_171聪明的kk
聪明的kk 时间限制:1000 ms | 内存限制:65535 KB 难度:3 描述聪明的"KK" 非洲某国展馆的设计灵感源于富有传奇色彩的沙漠中陡然起伏的沙丘,体现出本国不 ...
android文件选择器、仿淘宝编辑页面、新手引导层等源码
Android精选源码单片机和安卓应用,传感器文件选择器 android滑动选择的尺子view源码 android视频录制视频压缩的源码仿今日头条顶部导航指示器源码 Android框架+常用控 ...
sublime汉化教程
转自: http://www.cnblogs.com/marsggbo/p/6622960.html 如何给sublime text3安装汉化包?so easy 哦这是我本人亲身测试过的,肯定有效, ...
.29-浅析webpack源码之Resolver.prototype.resolve
在上一节中,最后返回了一个resolver,本质上就是一个Resolver对象: resolver = new Resolver(fileSystem); 这个对象的构造函数非常简单,只是简单的继承了 ...
.27-浅析webpack源码之事件流make(2)
上一节跑到了NormalModuleFactory模块,调用了原型方法create后,依次触发了before-rsolve.factory.resolver事件流,这节从resolver事件流开始讲. ...
Python 使用 virtualenvwrapper 安装虚拟环境
装载于https://www.jianshu.com/p/9f47a9801329 Python 使用 virtualenvwrapper 安装虚拟环境 Tim_Lee 关注 2017.05.04 2 ...
如何在外部终止一个pengding的promise对象
今天在整理前段时间做过的项目,发现之前在集成web环信的时候遇到过一个奇怪的需求:需要终止一个正在进行等待返回的promise,或者阻止其调用resolve和reject.(具体为何会有这种需求我也不 ...

分析AJAX抓取今日头条的街拍美图并把信息存入mongodb中

分析AJAX抓取今日头条的街拍美图并把信息存入mongodb中的更多相关文章

随机推荐

热门专题