mitdump爬取当当网APP图书目录

因为mitmproxy没办法连接数据库所以，只能先把结果保存为txt文件，再读取到数据库中。

在滑动APP界面时，对代码进行分析

import requests

import re

import urllib

def requets(flow):

    flow.request.headers['User-Agent'] = 'MitmProxy'

    print(flow.request.headers)

保存到文本：点击下载

爬取程序

from mitmproxy import ctx

import json

def response(flow):

    print('获取列表数据中...')

    #url = 'http://mapi.dangdang.com/index.php?cat_path_text=%E6%80%BB%E6%A6%9C&img_size=b&bang_name_text=%E5%9B%BE%E4%B9%A6%E7%95%85%E9%94%80%E6%A6%9C&access-token=&permanent_id=20190405192112099238317917598184509&ischildren=0&bang_name=bestsell&user_client=android&pagesize=10&union_id=537-100380&time_code=849e796eaa9e66cae342dd1f47c5f032&action=bang_tushu&page=5&global_province_id=151&cat_path=01.00.00.00.00.00&client_version=9.4.2&udid=c906965ad731be703305409f738a1bad&timestamp=1556893369'

    url = flow.request.url

    if flow.request.url.startswith(url):

        text = flow.response.text

        #print(text)

        data = json.loads(text)

        books = data.get('products')

        for book in books:

            info = {

                '书名': book.get('product_name'),

                '作者': book.get('author'),

                '价格': book.get('price').get('dangdang_price'),

                '封面图片': book.get('img_url'),

            }

            ctx.log.info(str(book))

            with open('D:\\books.txt', 'a', encoding='utf-8') as f:

                f.write(json.dumps(info, ensure_ascii=False) + '\n')

结果

读取到数据库中

import pymongo

from pymongo import MongoClient

import json

client = pymongo.MongoClient('mongodb://admin:admin@localhost:27017/')

db = client['books']

collection = db['book']

with open('D:\\books.txt', 'r+', encoding='utf-8') as f:

    for i in f.readlines():

        new = json.loads(i)

        try:

            if collection.insert(new):

                print("成功保存到MongoDB")

        except Exception:

            print('someing wrong with MongDB')

mitdump爬取当当网APP图书目录的更多相关文章

Scrapy爬虫（5）爬取当当网图书畅销榜
本次将会使用Scrapy来爬取当当网的图书畅销榜,其网页截图如下: 我们的爬虫将会把每本书的排名,书名,作者,出版社,价格以及评论数爬取出来,并保存为csv格式的文件.项目的具体创建就不再多讲 ...
网络爬虫之定向爬虫：爬取当当网2015年图书销售排行榜信息（Crawler）
做了个爬虫,爬取当当网--2015年图书销售排行榜 TOP500 爬取的基本思想是:通过浏览网页,列出你所想要获取的信息,然后通过浏览网页的源码和检查(这里用的是chrome)来获相关信息的节点,最后 ...
python爬取当当网的书籍信息并保存到csv文件
python爬取当当网的书籍信息并保存到csv文件依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...
python爬虫06 | 你的第一个爬虫，爬取当当网 Top 500 本五星好评书籍
来啦,老弟我们已经知道怎么使用 Requests 进行各种请求骚操作也知道了对服务器返回的数据如何使用正则表达式来过滤我们想要的内容 ... 那么接下来我们就使用 requests 和 re ...
scrapy项目3：爬取当当网中机器学习的数据及价格（spider类）
1.网页解析当当网中,人工智能数据的首页url如下为http://category.dangdang.com/cp01.54.12.00.00.00.html 点击下方的链接,一次观察各个页面的ur ...
java爬虫，爬取当当网数据
背景:女票快毕业了(没错!我是有女票的!!!),写论文,主题是儿童性教育,查看儿童性教育绘本数据死活找不到,没办法,就去当当网查询下数据,但是数据怎么弄下来呢,首先想到用Python,但是不会!!百 ...
【转】java爬虫，爬取当当网数据
背景:女票快毕业了(没错!我是有女票的!!!),写论文,主题是儿童性教育,查看儿童性教育绘本数据死活找不到,没办法,就去当当网查询下数据,但是数据怎么弄下来呢,首先想到用Python,但是不会!!百 ...
selenium自动化测试工具模拟登陆爬取当当网top500畅销书单
selenium自动化测试工具可谓是爬虫的利器,基本动态加载的网页都能抓取,当然随着大型网站的更新,也出现针对selenium的反爬,有些网站可以识别你是否用的是selenium访问,然后对你加以限制 ...
scrapy项目4：爬取当当网中机器学习的数据及价格（CrawlSpider类）
scrapy项目3中已经对网页规律作出解析,这里用crawlspider类对其内容进行爬取: 项目结构与项目3中相同如下图,唯一不同的为book.py文件 crawlspider类的爬虫文件book的 ...

随机推荐

lsattr 查看文件扩展属性
1. 命令功能 lsattr查看是否有chattr设置的权限. 2. 使用范例 [root@localhost data]# lsattr resolv.conf -----a-------e- r ...
JVM加载class文件原理
装载的概念所谓装载就是寻找一个类或是一个接口的二进制形式并用该二进制形式来构造代表这个类或是这个接口的class对象的过程. Java中类装载器装载类到虚拟机在Java中,类装载器把一个类装入Ja ...
struts2的相关知识（实现原理、拦截器）
struts2的实现原理客户端初始化一个指向Servlet容器(例如Tomcat)的请求这个请求经过一系列的过滤器(Filter)(这些过滤器中有一个叫做ActionContextCleanUp的 ...
flask之显示当地时间
一:在网页上显示时间 flask-moment 程序扩展可以实现 pip install flask-moment # 未完待续
5.xml约束技术--------schema
1.schema约束 (1)dtd语法:<!ELEMENT 元素名称约束> (2)schema符合xml的语法,xml语句 (3)一个xml文件中只能有一个dtd,但是可以有多个sche ...
js获取（URL）地址栏参数
//获取地址栏参数 //url为空时为调用当前url地址 //调用方法为 var params = getPatams(); function getParams(url) { var theRe ...
simulate 中的一些操作
1. neutralize: position based 的alpha int neutralize(int di, int ti) { ; ; ; ; ii < nsyms; ++ii) { ...
linux运维、架构之路-Zabbix自动化
一.Zabbix自定义监控 web01客户端修改/etc/zabbix/zabbix_agentd.conf [root@m01 tools]# echo "UserParameter=lo ...
Android逆向之旅---基于对so中的section加密技术实现so加固
一.前言好长时间没有更新文章了,主要还是工作上的事,连续加班一个月,没有时间研究了,只有周末有时间,来看一下,不过我还是延续之前的文章,继续我们的逆向之旅,今天我们要来看一下如何通过对so加密,在介 ...
腾讯云服务器centos通过yum安装mysql数据库
安装mysql有两种: 1-可以使用yum安装, 2-可以自己下载安装包安装mysql, 腾讯云的centos系统自带了yum,所以用yum安装方便点安装步骤 1-查看yum源中是否有mysql y ...

mitdump爬取当当网APP图书目录

mitdump爬取当当网APP图书目录的更多相关文章

随机推荐

热门专题