python 抓取request信息，各种cookie，user-agent类的信息，只调试到http可以抓取，https貌似不行。

import pcap  # 安装的是pypcap，本博客有安装方法，不过也比较乱，试试吧。
import dpkt
import socket
import datetime

def sniffer(str):
    pc = pcap.pcap()
    for timestamp, buf in pc:
        eth = dpkt.ethernet.Ethernet(buf)
        if not isinstance(eth.data, dpkt.ip.IP):
            print('Non IP Packet type not supported %s\n' % eth.data.__class__.__name__)
            continue
        ip = eth.data
        if isinstance(ip.data, dpkt.tcp.TCP):
            tcp = ip.data
            try:
                request = dpkt.http.Request(tcp.data)
            except (dpkt.dpkt.NeedData, dpkt.dpkt.UnpackError):
                continue
            print('HTTP request: %s\n' % repr(request))
            if request.headers['host'] == str:  # 自行替换需要抓的网站。
                print(request)
                # print('type:', type(request))
                host = request.headers['host']
                connection = request.headers['connection']
                accept = request.headers['accept']
                user_agent = request.headers['user-agent']
                accept_encoding = request.headers['accept-encoding']
                accept_language = request.headers['accept-language']
                cookie = request.headers['cookie']
                return request
                break

request = sniffer('www.******.net')
print('---------')
print(request.headers['host'])

这个代码是抓取一个网站请求的request信息。

python 抓取request信息，各种cookie，user-agent类的信息，只调试到http可以抓取，https貌似不行。的更多相关文章

Python爬虫教程-12-爬虫使用cookie爬取登录后的页面(人人网)（上）
Python爬虫教程-12-爬虫使用cookie(上) 爬虫关于cookie和session,由于http协议无记忆性,比如说登录淘宝网站的浏览记录,下次打开是不能直接记忆下来的,后来就有了cooki ...
Python爬虫之requests+正则表达式抓取猫眼电影top100以及瓜子二手网二手车信息(四)
requests+正则表达式抓取猫眼电影top100 一.首先我们先分析下网页结构可以看到第一页的URL和第二页的URL的区别在于offset的值,第一页为0,第二页为10,以此类推. 二.< ...
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(人人网)（下）
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(下) 自动使用cookie的方法,告别手动拷贝cookie http模块包含一些关于cookie的模块,通过他们我们可以自动的使用co ...
带参数,头信息,代理,cookie爬取
1.get传参 (1)汉字报错 :解释器器ascii没有汉字 url汉字转码 urllib.parse.quote safe="string.printtable" (2)字典传参 ...
拉勾网爬取全国python职位并数据分析薪资，工作经验，学历等信息
首先前往拉勾网“爬虫”职位相关页面确定网页的加载方式是JavaScript加载通过谷歌浏览器开发者工具分析和寻找网页的真实请求,确定真实数据在position.Ajax开头的链接里,请求方式是PO ...
利用cookie存放模糊查询的信息
将前台传入后台的查询条件,存放到cookie中,并加入响应对象中,将该查询条件存放入浏览器端.(会话cookie,存放在浏览器的内存中,浏览器关闭,cookie消失.[不设置路径,和生命周期]) 注意 ...
Symfony 2.0 认识Request, Response, Session, Cookie
在上一节中,我们提到了如何创建一个Bunlde 并且在默认控制器中添加一些方法.如果有参照之前的说法进行的话,读者很有可能会被提示说返回的Response对象不能为空.好啦,我们就来研究一下,怎么从 ...
python爬虫之request and BeautifulSoup
1.爬虫的本质是什么? 模仿浏览器的行为,爬取网页信息. 2.requests 1.get请求无参数实例 import requests ret = requests.get('https://gi ...
【爬虫问题】爬取tv.sohu.com的页面, 提取视频相关信息
尝试解决下面的问题问题: 爬取tv.sohu.com的页面, 提取视频相关信息,不可用爬虫框架完成何为视频i关信息?属性有哪些? 需求: 做到最大可能的页面覆盖率 *使用httpClient 模拟 ...

随机推荐

Python3基础 break while循环示例
Python : 3.7.0 OS : Ubuntu 18.04.1 LTS IDE : PyCharm 2018.2.4 Conda ...
Python3基础 delattr 删除对象的属性
Python : 3.7.0 OS : Ubuntu 18.04.1 LTS IDE : PyCharm 2018.2.4 Conda ...
分页器的js实现代码 bootstrap Paginator.js
参考: http://www.jb51.net/article/76093.htm 如前所述, 不要什么都想到 jquery的脚本js, 应该首先推荐的是 css 和元素本身的事件函数如: o ...
JavaScript:正则表达式分组2
继续上一篇的写,这篇复杂点. 分组+范围 var reg=/([abcd]bc)/g; var str="abcd bbcd cbcd dbcd"; console.log(str ...
LightOJ 1199 Partitioning Game（sg函数）题解
题意:可以把一堆石子分成不相等的两堆,不能操作为败思路:把一个石子拆成两个,变成了两个独立的游戏,mex里加上两者的sg异或.sg打表. 代码: #include<set> #inclu ...
【附1】hystrix详述（1）
一.hystrix的作用控制被依赖服务的延时和失败防止在复杂系统中的级联失败可以进行快速失败(不需要等待)和快速恢复(当依赖服务失效后又恢复正常,其对应的线程池会被清理干净,即剩下的都是未使用的 ...
【第五章】 springboot + mybatis
springboot集成了springJDBC与JPA,但是没有集成mybatis,所以想要使用mybatis就要自己去集成.集成方式相当简单. 1.项目结构 2.pom.xml <!-- 与数 ...
ACM-ICPC 2018 南京赛区网络预赛 E AC Challenge 状压DP
题目链接: https://nanti.jisuanke.com/t/30994 Dlsj is competing in a contest with n (0 < n \le 20)n(0& ...
dubbo 实战总结
1,出现重复调用.因为有重试机制,可以改为异步调用或者幂等操作.
[异常记录-13]Web Deploy发布：An error occurred when the request was processed on the remote computer
大概搜了一下这个报错,大家的情况各不相同,但应该是 Web Deploy 安装导致的没错了... 建议粗暴解决, 卸载后重新安装 Web Deploy 时,不要选那个经典还是典型的安装选项,选自定义 ...

python 抓取request信息，各种cookie，user-agent类的信息，只调试到http可以抓取，https貌似不行。

python 抓取request信息，各种cookie，user-agent类的信息，只调试到http可以抓取，https貌似不行。的更多相关文章

随机推荐

热门专题