字体反爬也就是自定义字体反爬，通过调用自定义的woff文件来渲染网页中的文字，而网页中的文字不再是文字，而是相应的字体编码，通过复制或者简单的采集是无法采集到编码后的文字内容！

1.思路

近期在爬取天眼查某公司详情页遇到了字体反爬，经过多次测试，终于解决了字体反爬

首先我们来看一下字体反爬

此图可以看出源代码数字跟页面显示的内容是不一样的，在调试器中看到它有一个类tyc-num

此图可以看出类tyc-num存放的是一个字体，通过network获取这个字体

此图可以看出正常的字体数字是1234567890而现在显示的是7540129863它是顺序打乱的，把tyc-num.woff下载过来，下载过来之后发现windows是查看不了的，我用的是在线工具查看

在线工具链接：FontEditor

此图可以发现索引2对应的是4，说明第4个数字是0，通过Python对woff转换成xml

from fontTools.ttLib import TTFont

font = TTFont('tyc-num.woff')

font.saveXML('tyc-num.xml')

查看xml文件

此图发现id2对应是4跟在线查看器是一样的，那就找到了对应关系

2.代码实现

安装 fontTools

pip install fontTools

上代码(代码更新2019-01-21|19:23:16) PS：发现某些公司时间还是对不上，代码更新了，上面思路是一样的

#!/usr/bin/env python

# -*- coding:utf-8 -*-

from fontTools.ttLib import TTFont

import re

font = TTFont('tyc-num.woff')  # 打开tyc-num.woff

font.saveXML('tyc-num.xml')  # 保存为tyc-num.xml

with open('tyc-num.xml', 'r') as f:

    xml = f.read()  # 读取tyc-num.xml赋值给xml

GlyphID = re.findall(r'<GlyphID id="(.*?)" name="(\d+)"/>', xml)  # 获得对应关系

GlyphIDNameLists = list(set([int(Gname) for Gid, Gname in GlyphID])) # 对应关系数量转换

# print(GlyphIDNameLists)

DigitalDicts = {str(i): str(GlyphIDNameLists[i - 2]) for i in range(2, len(GlyphIDNameLists)+2)}  # 数字对应关系的字典推导式

# print(DigitalDicts)

GlyphIDDicts = {str(Gname): DigitalDicts[Gid] for Gid, Gname in GlyphID}  # 通过数字对应关系生成源代码跟页面显示的字典推导式

print('-' * 39 + '数字对应关系的字典推导式' + '-' * 39)

print(DigitalDicts)

print('-' * 27 + '通过数字对应关系生成源代码跟页面显示的字典推导式' + '-' * 27)

print(GlyphIDDicts)

代码运行结果

Spider-天眼查字体反爬的更多相关文章

Python爬虫入门教程 63-100 Python字体反爬之一，没办法，这个必须写，反爬第3篇
背景交代在反爬圈子的一个大类,涉及的网站其实蛮多的,目前比较常被爬虫coder欺负的网站,猫眼影视,汽车之家,大众点评,58同城,天眼查......还是蛮多的,技术高手千千万,总有五花八门的反爬技术 ...
58 字体反爬攻略 python3
1.下载安装包 pip install fontTools 2.下载查看工具FontCreator 百度后一路傻瓜式安装即可 3.反爬虫机制网页上看见的后台源代码里面的从上面可以看出,生这个字变 ...
python解析字体反爬
爬取一些网站的信息时,偶尔会碰到这样一种情况:网页浏览显示是正常的,用python爬取下来是乱码,F12用开发者模式查看网页源代码也是乱码.这种一般是网站设置了字体反爬一.58同城用谷歌浏览器打开 ...
网络字体反爬之pyspider爬取起点中文小说
前几天跟同事聊到最近在看什么小说,想起之前看过一篇文章说的是网络十大水文,就想把起点上的小说信息爬一下,搞点可视化数据看看.这段时间正在看爬虫框架-pyspider,觉得这种网站用框架还是很方便的,所 ...
实战-快手H5字体反爬
实战-快手H5字体反爬前言快手H5端的粉丝数是字体反爬,抓到的html文本是乱码 <SPAN STYLE='FONT-FAMILY: kwaiFont;'></SPA ...
python爬取实习僧招聘信息字体反爬
参考博客:http://www.cnblogs.com/eastonliu/p/9925652.html 实习僧招聘的网站采用了字体反爬,在页面上显示正常,查看源码关键信息乱码,如下图所示: 查看网页 ...
Python爬虫入门教程 64-100 反爬教科书级别的网站-汽车之家，字体反爬之二
说说这个网站汽车之家,反爬神一般的存在,字体反爬的鼻祖网站,这个网站的开发团队,一定擅长前端吧,2019年4月19日开始写这篇博客,不保证这个代码可以存活到月底,希望后来爬虫coder,继续和汽车之 ...
Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
Python爬虫-字体反爬-猫眼国内票房榜
偶然间知道到了字体反爬这个东西, 所以决定了解一下. 目标: https://maoyan.com/board/1 问题: 类似下图中的票房数字无法获取, 直接复制粘贴的话会显示 □ 等无法识别的字 ...

随机推荐

jQuery笔记之工具方法—高级方法Ajax
$.ajxa() ——基本使用前提:先了解js的执行机制 $.Callbacks()——回调 $.Deferred()——异步 $.when() 网络服务器链接由<渡一教育>提供 --- ...
GCD = XOR（GCD XOR ）
首先没看懂XOR(于是百度了一下):异或,英文为exclusive OR,或缩写成xor.同时还有一个OR,于是一起看了一眼: 大意: 输入一个整数n,在1~n内,有多少对整数(a,b)满足GCD(a ...
C++ 操作符重载 (operator)
重载不能改变操作符的优先级如果一个内建操作符是一元的,那么所有对它的重载仍是一元的.如果是二元的重载后也是二元的下面看一个有代表性的例子:: 头文件Complex.h: #includeusing ...
[CQOI2014]通配符匹配
Description 几乎所有操作系统的命令行界面(CLI)中都支持文件名的通配符匹配以方便用户.最常见的通配符有两个,一个是星号(""'),可以匹配0个及以上的任意字符:另一个 ...
Windows API函数大全二
4. API之打印函数 AbortDoc 取消一份文档的打印 AbortPrinter 删除与一台打印机关联在一起的缓冲文件 AddForm 为打印机的表单列表添加一个新表单 AddJob 用于获取一 ...
WPF学习12：基于MVVM Light 制作图形编辑工具（3）
本文是WPF学习11:基于MVVM Light 制作图形编辑工具(2)的后续这一次的目标是完成两个任务. 本节完成后的效果: 本文分为三个部分: 1.对之前代码不合理的地方重新设计. 2.图形可选 ...
hihocoder1718 最长一次上升子序列
思路: 对于每个i,分别求1~i和i+1~N两部分的最长下降子序列“拼”起来,最终取最大长度即可.学习了如何使用BIT把LIS问题O(N2)算法优化为O(Nlog(N))的算法. https://ww ...
Android性能分析工具Profile GPU rendering详细介绍
如何在一个应用中追踪和定位性能问题,甚至在没有它的源代码的情况下?? “Profile GPU rendering”(GPU渲染分析),一款Android4.1所引入的工具.你可以在“设置”应用的“开 ...
java8的lambda表达式，将List<DTO> 转为 List<DO>
将List<PhoneDTO>转为List<PhoneDO>,通过java8的lambda表达式来操作,比传统的for循环精简很多: /** * List<PhoneDT ...
6 Specialzed layers 特殊层第二部分读书笔记
CAGradientLayer CAGradientLayer is used to generate a smooth gradient between two or more colors. ...

Spider-天眼查字体反爬

1.思路

2.代码实现

Spider-天眼查字体反爬的更多相关文章

随机推荐

热门专题