python爬虫---字体反爬

目标地址：http://glidedsky.com/level/web/crawler-font-puzzle-1

打开google调试工具检查发现网页上和源码之中的数字不一样, 已经确认该题目为字体反扒直接进入正题：

获取字体文件：

1丶直接找到数字节点属性：style 的 font-family 的值：glided_sky，在源码中找到引入的的字体文件并保存下来到本地

2丶该字体文件通过base64编码保存的直接请求将编码的值和节点中的数字内容获取到 (获取的方式自己选择合适的即可，本文使用 pyquery 模块进行操作 )

import base64

import requests

from pyquery import PyQuery as pyq

response = requests.get(f'http://glidedsky.com/level/web/crawler-font-puzzle-1?page=1', headers=headers, cookies=cookies,verify=False)

doc = pyq(response.text)

cts = doc('style')

base_info = ''.join([ pyq(i).text().split('base64,')[1].split(')')[0] for i in cts])

cts = doc('.col-md-1')

num_list = ([pyq(i).text() for i in cts])

print(f' num_list {num_list}')

3丶将获取得到的base64值保存为本地 .ttf 并将源码中的数值进行匹配得到网页上展示的真正值

将保存的字体文件使用字体编辑器打开并手动确认编码和数字之间的对应关系

具体实现代码如下

# 字体转换

def font_switch(base_info, number_info):

    page_one = base_info

    b=base64.b64decode(page_one)

    with open('new_page.ttf','wb')as f:

        f.write(b)

    font=TTFont('main.ttf')    # 提前保存的一份本地文件 打开本地字体文件local.ttf

    # font.saveXML('main.xml')   #将ttf文件转化成xml格式并保存到本地，主要是方便我们查看内部数据结构

    obj_list1=font.getGlyphNames()[1:]   #获取所有字符的对象，去除第一个

    uni_list1=font.getGlyphOrder()[1:] #获取所有编码，去除前1个

    print(f' uni_list1  {uni_list1}')

    # 手动确认编码和数字之间的对应关系，保存到字典中

    dict={

        'seven':6,

        'six':8,

        'four':0,

        'eight':5,

        'two':1,

        'five':4,

        'one':9,

        'zero':7,

        'nine':2,

        'three':3,

    }

    # 网页新下载的

    font2=TTFont('new_page.ttf')  # 打开新下载的字体文件

    obj_list2=font2.getGlyphNames()[1:]   #获取所有字符的对象，去除第一个

    uni_list2=font2.getGlyphOrder()[1:] #获取所有编码，去除前1个

    new_dict= {}

    for uni2 in uni_list2:

        print(f'uni2 : {uni2}')

        obj2=font2['glyf'][uni2]  #获取编码uni2在new_page.ttf中对应的对象

        for uni1 in uni_list1:

            obj1=font['glyf'][uni1]

            if obj1==obj2:

                new_dict[f'{uni2}'] = dict[uni1]

    # 得到字体转化后的真正值

    print(f' new_dict  {new_dict}')

    #TODO 将传进来的数字转化

    number = number_info

    # 列表

    lists = [

        'zero',

        'one',

        'two',

        'three',

        'four',

        'five',

        'six',

        'seven',

        'eight',

        'nine',

    ]

    new_number = [int(''.join([str(new_dict[lists[int(n)]]) for n in num])) for num in number]

    return sum(new_number)

将获取的值传入这个方法就能获取得到网页上的正确数值了

！！！搞定！！！将剩下的 999 页的值统计出来求和就得到了正确答案

python爬虫---字体反爬的更多相关文章

Python爬虫-字体反爬-猫眼国内票房榜
偶然间知道到了字体反爬这个东西, 所以决定了解一下. 目标: https://maoyan.com/board/1 问题: 类似下图中的票房数字无法获取, 直接复制粘贴的话会显示 □ 等无法识别的字 ...
python解析字体反爬
爬取一些网站的信息时,偶尔会碰到这样一种情况:网页浏览显示是正常的,用python爬取下来是乱码,F12用开发者模式查看网页源代码也是乱码.这种一般是网站设置了字体反爬一.58同城用谷歌浏览器打开 ...
抖音爬虫教程，python爬虫采集反爬策略
一.爬虫与反爬简介爬虫就是我们利用某种程序代替人工批量读取.获取网站上的资料信息.而反爬则是跟爬虫的对立面,是竭尽全力阻止非人为的采集网站信息,二者相生相克,水火不容,到目前为止大部分的网站都还是可 ...
Python爬虫实战——反爬策略之模拟登录【CSDN】
在<Python爬虫实战-- Request对象之header伪装策略>中,我们就已经讲到:=="在header当中,我们经常会添加两个参数--cookie 和 User-Age ...
Python爬虫实战——反爬机制的解决策略【阿里】
这一次呢,让我们来试一下"CSDN热门文章的抓取". 话不多说,让我们直接进入CSND官网. (其实是因为我被阿里的反爬磨到没脾气,不想说话--) 一.URL分析输入" ...
python爬虫--cookie反爬处理
Cookies的处理作用保存客户端的相关状态在爬虫中如果遇到了cookie的反爬如何处理? 手动处理在抓包工具中捕获cookie,将其封装在headers中应用场景:cookie没有有效时长 ...
Python爬虫实战——反爬策略之代理IP【无忧代理】
一般情况下,我并不建议使用自己的IP来爬取网站,而是会使用代理IP. 原因很简单:爬虫一般都有很高的访问频率,当服务器监测到某个IP以过高的访问频率在进行访问,它便会认为这个IP是一只"爬虫 ...
Python爬虫入门教程 64-100 反爬教科书级别的网站-汽车之家，字体反爬之二
说说这个网站汽车之家,反爬神一般的存在,字体反爬的鼻祖网站,这个网站的开发团队,一定擅长前端吧,2019年4月19日开始写这篇博客,不保证这个代码可以存活到月底,希望后来爬虫coder,继续和汽车之 ...
Python爬虫入门教程 63-100 Python字体反爬之一，没办法，这个必须写，反爬第3篇
背景交代在反爬圈子的一个大类,涉及的网站其实蛮多的,目前比较常被爬虫coder欺负的网站,猫眼影视,汽车之家,大众点评,58同城,天眼查......还是蛮多的,技术高手千千万,总有五花八门的反爬技术 ...

随机推荐

SqlServer Split 的实现
数据库如何处理传参用指定字符隔开参数的情况如"name1,name3,name5" 共2种方式, 1.数据库内置函数STRING_SPLIT(sql2016之前的版本不支持该函数 ...
3D视觉之线激光3D相机
1 3D 视觉常见的三维视觉技术,包含双目.ToF.激光三角.结构光等,如下图: 1)毫米级双目.ToF.结构光(散斑)的精度为 mm 级,多见于消费领域,如:导航避障,VR/AR,刷脸 ...
四旋翼中的PID调节方法 | betaflight固件如何调节PID
roll横滚,pitch俯仰,yaw航向一.PID的作用概述 1.P产生响应速度和力度,是I和D的基础过小响应慢(虽然无震荡) 过大会产生振荡且不断发散 2.D抑制过冲和振荡,抵抗外界的突发干扰, ...
Java基础（上）
基础概念与常识 Java 语言有哪些特点? 简单易学: 面向对象(封装,继承,多态): 平台无关性( Java 虚拟机实现平台无关性): 支持多线程( C++ 语言没有内置的多线程机制,因此必须调用操 ...
组合（n选k问题）
#include "iostream.h" #include "string.h" int a[100]; void dfs(int n,int k) { if ...
『现学现忘』Docker基础 — 35、实战：自定义CentOS镜像
目录 1.前提说明 2.编写Dockerfile文件 3.构建镜像 4.运行镜像 5.列出镜像的变更历史 1)目标:自定义镜像wokong_centos. 2)所用到的保留字指令: FROM:基础镜像 ...
CAS 的问题？
1.CAS 容易造成 ABA 问题一个线程 a 将数值改成了 b,接着又改成了 a,此时 CAS 认为是没有变化,其实是已经变化过了,而这个问题的解决方案可以使用版本号标识,每操作一次 versi ...
kafka consumer代码梳理
kafka consumer是一个单纯的单线程程序,因此相对于producer会更好理解些.阅读consumer代码的关键是理解回调,因为consumer中使用了大量的回调函数.参看kafka中的回调 ...
JdbcTemplate ？
JdbcTemplate 类提供了很多便利的方法解决诸如把数据库数据转变成基本数据类型或对象,执行写好的或可调用的数据库操作语句,提供自定义的数据错误处理.
java中的generate
流generate(Supplier s)返回无限顺序无序流,其中每个元素由提供的供应商生成.这适用于生成恒定流,随机元素流等. public class Flow { public static v ...

python爬虫---字体反爬

目标地址：http://glidedsky.com/level/web/crawler-font-puzzle-1

打开google调试工具检查发现网页上和源码之中的数字不一样, 已经确认该题目为 字体反扒 直接进入正题：

获取字体文件：

1丶直接找到数字节点属性：style 的 font-family 的值：glided_sky，在源码中找到 引入的的字体文件 并保存下来到本地

2丶该字体文件通过base64编码保存的 直接请求 将编码的值 和 节点中的数字内容 获取到 (获取的方式自己选择合适的即可，本文使用 pyquery 模块进行操作 )

3丶将获取得到的base64值保存为本地 .ttf 并将 源码中的数值进行匹配 得到网页上展示的真正值

将保存的字体文件使用 字体编辑器 打开并手动确认编码和数字之间的对应关系

具体实现代码如下

将获取的值传入这个方法就能获取得到网页上的正确数值了

！！！搞定！！！ 将剩下的 999 页的值 统计出来 求和 就得到了正确答案

python爬虫---字体反爬的更多相关文章

随机推荐

热门专题

打开google调试工具检查发现网页上和源码之中的数字不一样, 已经确认该题目为字体反扒直接进入正题：

1丶直接找到数字节点属性：style 的 font-family 的值：glided_sky，在源码中找到引入的的字体文件并保存下来到本地

2丶该字体文件通过base64编码保存的直接请求将编码的值和节点中的数字内容获取到 (获取的方式自己选择合适的即可，本文使用 pyquery 模块进行操作 )

3丶将获取得到的base64值保存为本地 .ttf 并将源码中的数值进行匹配得到网页上展示的真正值

将保存的字体文件使用字体编辑器打开并手动确认编码和数字之间的对应关系

！！！搞定！！！将剩下的 999 页的值统计出来求和就得到了正确答案