Python 解析har 文件将域名分类导出

zhiqiang21 2024-10-20 10:36:44 原文

前言

作为程序员平时主要是使用 shadowsocks 作为代理工具的。shadowsocks 有个很明显的优点儿就是可以设置白名单和黑名单。白名单是会走shadowsocks的自动代理模式。

遇到的问题：

shadowsocks 代理是分白名单和黑名单的。当我访问某个网站，而恰好这个网站的域名和静态文件域名都在白名单里，访问这个网站的http请求就会自动走代理模式；

如果访问某个网站的域名没有在白名单里，就需要手动设置全局代理模式；这有一个缺点就是电脑的所有的网络访问都会走代理，如果这个时候访问国内的网站，就会很慢或者是打不开。

最好的办法就是编辑shadowsocks的.ShadowsocksX/gfwlist.js文件。将没办法走自动代理模式的域名添加到这个文件里面。但是一个网站的在显示完全，需要访问的域名不止一个，那么手动添加就会很麻烦。那么可不可以使用程序来实现呢？

需求分析：

将网站的所有请求访问的域名分类导出；
可以导出为.txt的文件，也可以直接打印在控制台；

怎么将所有的网络请求导出

1.打开chrome的开发者模式，并且将shadowsocks 设置为全局代理模式访问自动代理模式无法访问的网站；

2.在chrome的network面板，右键导出 har文件，保存到自己想要的位置；

如下图：

程序怎么运行：

按照提示运行程序：

运行效果展示：

代码分析：

因为 har 文件的内容就是一个json格式文件。所以就是读取文件的内容，并且将文件内容转化为json，将所有的请求的url分类写入一个数组，最后选择方式输出；

python主要代码如下：

with open(filePath, 'r') as readObj:

        harDirct = json.loads(readObj.read())

        requestList = harDirct['log']['entries']

        for item in requestList:

            urlString = (item['request']['url'])

            start = urlString.index('://')

            tempStr = urlString[start + 3:]

            end = tempStr.index('/')

            resultStr = tempStr[:end]

            # 判断是否是www开头的域名

            if 'www' in resultStr:

                resultStr = resultStr[4:]

            if resultStr not in hostList:

                hostList.append(resultStr)

    if str(outputType) is '1':

        with open(outputPath, 'w') as ff:

            for item in hostList:

                ff.write('"' + item + '",' + '\n')

    else:

        print '=============host start=============='

        for item in hostList:

            print '"' + item + '",'

        print '=============host end================'

Python 解析har 文件将域名分类导出的更多相关文章

Python解析Wav文件并绘制波形的方法
资源下载 #本文PDF版下载 Python解析Wav文件并绘制波形的方法 #本文代码下载 Wav波形绘图代码 #本文实例音频文件night.wav下载音频文件下载 (石进-夜的钢琴曲) 前言在现在 ...
Python解析excel文件并存入sqlite数据库
最近由于工作上的需求需要使用Python解析excel文件并存入sqlite 就此做个总结功能:1.数据库设计建立数据库2.Python解析excel文件3.Python读取文件名并解析4.将解 ...
python解析ini文件
python解析ini文件使用configparser - Configuration file parser sections() add_section(section) has_section ...
Python解析HDF文件分类： Python 2015-06-25 00:16 743人阅读评论(0) 收藏
前段时间因为一个业务的需求需要解析一个HDF格式的文件.在这之前也不知道到底什么是HDF文件.百度百科的解释如下: HDF是用于存储和分发科学数据的一种自我描述.多对象文件格式.HDF是由美国国家超级 ...
如何用python解析mysqldump文件
一.前言最近在做离线数据导入HBase项目,涉及将存储在Mysql中的历史数据通过bulkload的方式导入HBase.由于源数据已经不在DB中,而是以文件形式存储在机器磁盘,此文件是mysqldu ...
python 解析xml 文件: Element Tree 方式
环境 python:3.4.4 准备xml文件首先新建一个xml文件,countries.xml.内容是在python官网上看到的. <?xml version="1.0" ...
python 解析xml 文件: DOM 方式
环境 python:3.4.4 准备xml文件首先新建一个xml文件,countries.xml.内容是在python官网上看到的. <?xml version="1.0" ...
python 解析xml 文件: SAX方式
环境 python:3.4.4 准备xml文件首先新建一个xml文件,countries.xml.内容是在python官网上看到的. <?xml version="1.0" ...
遍历文件创建XML对象方法 python解析XML文件提取坐标计存入文件
XML文件??? xml即可扩展标记语言,它可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言. 里面的标签都是可以随心所欲的按照他的命名规则来定义的,文件名为roi.xm ...

随机推荐

Add custom field in Material Master
1.Add fields in the Append Structure of table MARA. 2.Configure SPRO IMG -> Logistics General -&g ...
【Spring】浅谈spring为什么推荐使用构造器注入
一.前言 Spring框架对Java开发的重要性不言而喻,其核心特性就是IOC(Inversion of Control, 控制反转)和AOP,平时使用最多的就是其中的IOC,我们通过将组件交由S ...
原生JS实现图片预览功能
html代码: <div class="album-new fr"> <div class="upload-btn btn-new container& ...
Android 记录点滴
1:关于断点设置断点点三角是进不去的,这个是类似c#的release 正式版, 点第二个红圈内的debug的那个按钮才可以 . 这个按钮可以让程序及时进入当前断点处 2:对于背景颜色 andro ...
【转】背后的故事之 - 快乐的Lambda表达式（二）
快乐的Lambda表达式上一篇背后的故事之 - 快乐的Lambda表达式(一)我们由浅入深的分析了一下Lambda表达式.知道了它和委托以及普通方法的区别,并且通过测试对比他们之间的性能,然后我们 ...
MySQL缓存参数优化(转)
MySQL 数据库性能优化之缓存参数优化数据库属于 IO 密集型的应用程序,其主要职责就是数据的管理及存储工作.而我们知道,从内存中读取一个数据库的时间是微秒级别,而从一块普通硬盘上读取一个IO是在 ...
qhfl-5 redis 简单操作
Redis Redis是完全开源免费的,遵守BSD协议,是一个高性能的key-value数据库. Redis有以下特点: -- Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可 ...
Java面试题5
4.&和&&的区别答: &是位运算符,表示按位与运算,&&是逻辑运算符,表示逻辑与(and) 5.Collection 和 Collections的区 ...
div辅助线【完整版】
## <html> <head> <link rel="stylesheet" type="https://cdn.bootcss.com/ ...
hiho 第七周完全背包
完全背包 #include<iostream> #include<memory.h> #include<cmath> using namespace std; #d ...