linux shell assemble PDF文件

daniel@daniel-mint ~/latex/linux/itext/daniel $ cat asm.sh

header_start=0

header_len=15

xref_start=$(strings -a -t d $1 | grep -e "\bxref\b" | awk '{print $1}')

trailer_start=$(strings -a -t d $1 | grep -e "\btrailer\b" | awk '{print $1}')

#echo $xref_start

#echo $trailer_start

xref_len=$(echo "$trailer_start - $xref_start" | bc)

#echo $xref_len

header_dump=$(echo "$1" | sed -re 's/^(.*)\.pdf/asm\_\1\_header\.bin/g')

dd if=$1 of=$header_dump bs=1 skip=$header_start count=$header_len

xref_dump=$(echo "$1" | sed -re 's/^(.*)\.pdf/asm\_\1\_xref\.bin/g')

dd if=$1 of=$xref_dump bs=1 skip=$xref_start count=$xref_len

daniel@daniel-mint ~/latex/linux/itext/daniel $ cat asm.sh

header_start=0

header_len=15

xref_start=$(strings -a -t d $1 | grep -e "\bxref\b" | awk '{print $1}')

trailer_start=$(strings -a -t d $1 | grep -e "\btrailer\b" | awk '{print $1}')

#echo $xref_start

#echo $trailer_start

xref_len=$(echo "$trailer_start - $xref_start" | bc)

#echo $xref_len

header_dump=$(echo "$1" | sed -re 's/^(.*)\.pdf/asm\_\1\_header\.bin/g')

dd if=$1 of=$header_dump bs=1 skip=$header_start count=$header_len

xref_dump=$(echo "$1" | sed -re 's/^(.*)\.pdf/asm\_\1\_xref\.bin/g')

dd if=$1 of=$xref_dump bs=1 skip=$xref_start count=$xref_len

trailer_dump=$(echo "$1" | sed -re 's/^(.*)\.pdf/asm\_\1\_trailer\.bin/g')

dd if=$1 of=$trailer_dump bs=1 skip=$trailer_start

#cat asm_daniel_xref.bin | awk 'NF==3' | awk 'NR!=1{printf("%d 0 obj is at offset: %d\n", NR-1, $1);}'

cat asm_daniel_xref.bin | awk 'NF==3' | awk 'NR!=1{printf("%d %d\n", $1, NR-1);}' | sort > tmp_"$xref_dump"

echo "$xref_start 0" >> tmp_"$xref_dump"

cat tmp_asm_daniel_xref.bin | awk 'BEGIN{loffset=0;lobjnum=0;}{printf("%3d %3d %3d\n", loffset, $1-loffset, lobjnum);loffset=$1;lobjnum=$2;}' | awk 'NR!=1' > tmp_metrics_"$xref_dump"

cat tmp_metrics_"$xref_dump" | while read offset len objn

do

	#echo $offset, $len, $objn

	obj_name=$(echo "$1_$objn" | sed -re 's/^(.*)\.pdf/asm\_\1\_obj/g' | awk '{printf("%s.bin", $0);}')

	#echo $obj_name

	dd if=$1 of=$obj_name bs=1 skip=$offset count=$len

done

使用sed以及awk用来格式化字符串

使用dd用来进行二进制拷贝

使用read用来解析文件内容到variable

daniel@daniel-mint ~/latex/linux/itext/daniel $ cat asm.sh

header_start=0

header_len=15

xref_start=$(strings -a -t d $1 | grep -e "\bxref\b" | awk '{print $1}')

trailer_start=$(strings -a -t d $1 | grep -e "\btrailer\b" | awk '{print $1}')

#echo $xref_start

#echo $trailer_start

xref_len=$(echo "$trailer_start - $xref_start" | bc)

#echo $xref_len

header_dump=$(echo "$1" | sed -re 's/^(.*)\.pdf/asm\_\1\_header\.bin/g')

dd if=$1 of=$header_dump bs=1 skip=$header_start count=$header_len

xref_dump=$(echo "$1" | sed -re 's/^(.*)\.pdf/asm\_\1\_xref\.bin/g')

dd if=$1 of=$xref_dump bs=1 skip=$xref_start count=$xref_len

trailer_dump=$(echo "$1" | sed -re 's/^(.*)\.pdf/asm\_\1\_trailer\.bin/g')

dd if=$1 of=$trailer_dump bs=1 skip=$trailer_start

#cat asm_daniel_xref.bin | awk 'NF==3' | awk 'NR!=1{printf("%d 0 obj is at offset: %d\n", NR-1, $1);}'

cat asm_daniel_xref.bin | awk 'NF==3' | awk 'NR!=1{printf("%d %d\n", $1, NR-1);}' | sort > tmp_"$xref_dump"

echo "$xref_start 0" >> tmp_"$xref_dump"

cat tmp_asm_daniel_xref.bin | awk 'BEGIN{loffset=0;lobjnum=0;}{printf("%3d %3d %3d\n", loffset, $1-loffset, lobjnum);loffset=$1;lobjnum=$2;}' | awk 'NR!=1' > tmp_metrics_"$xref_dump"

cat tmp_metrics_"$xref_dump" | while read offset len objn

do

	#echo $offset, $len, $objn

	obj_name=$(echo "$1_$objn" | sed -re 's/^(.*)\.pdf/asm\_\1\_obj/g' | awk '{printf("%s.bin", $0);}')

	#echo $obj_name

	dd if=$1 of=$obj_name bs=1 skip=$offset count=$len

done

grep -Ubo --binary-file=text stream asm_daniel_obj_2.bin | sed -e 's/:/ /g' | awk 'NR==1{printf("%d ",$1+7);}NR==2{printf("%d ", $1-10);}' > tmp_stream.bin

read xstart xend < tmp_stream.bin

dd if=asm_daniel_obj_2.bin of=flated.bin bs=1 skip=$xstart count=$[ $xend - $xstart ]

cat flated.bin | zlib-flate -uncompress > deflated.bin

linux shell assemble PDF文件的更多相关文章

浅谈linux系统中pdf文件的默认打开方式
atril.gimp和evince,三者均可以打开application/pdf格式文件.gimp为一款图像处理软件:atril为mate环境下常用的文档查看器:evince为gnome环境下常用的文 ...
Linux shell - 重命名文件和文件夹（mv）
linux下重命名文件或文件夹的命令mv既可以重命名,又可以移动文件或文件夹. 例子:将目录A重命名为B mv A B 例子:将/a目录移动到/b下,并重命名为c mv /a /b/c
linux shell 脚本历史文件清理脚本，按天，按月，清理前N天的历史文件，删除指定大小历史文件，历史文件归档清理
不知道大家那有没有要清理的这个事情.需要清理目录历史文件.可能后续也会有很多其他地方需要清理历史文件,可能会用到. 我这两天空闲写了个脚本,清理比较方便,有要进行清理的大量历史文件的话可以用. 脚本用 ...
linux shell exec 关联文件描述符
在写shell脚本时,如果多个命令的输入或输出都是同一个文件,而这个文件的路径和名字都很长,则需要书写很多次同样的路径会很浪费时间,我们可以使用exec命令来关联一个自定义的文件描述符到一个特定的文件 ...
Linux shell逐行读取文件的方法
方法1:while循环中执行效率最高,最常用的方法. function while_read_line_bottom(){ while read line do echo $line done < ...
linux shell 删除指定文件夹下面名称不包含指定字符的文件
find /app/jenkins/jenkins/jobs/scam/* ! -name config.xml | xargs rm -rf 删除/app/jenkins/jenkins/jobs/ ...
linux shell 学习笔记--文件测试符
. 文件测试操作 ---------------- 返回true 如果... -e 文件存在 -a 文件存在这个选项的效果与-e 相同.但是它已经被弃用了,并且不鼓励使用 -f file 是一个re ...
Linux Shell 之对文件中的行、单词、字符进行迭代
在进行文本文件进行处理时,对文件件中的行.单词.字符进行迭代和遍历是非常常用的操作.而将一个简单的循环用于迭代,再加上来自stdin或文件的重定向,这就是对文件中的行.单词.和字符进行迭代的基本方法. ...
linux在线预览pdf文件开发思路
准备:swftools,flexpaper 基本思路: 1,将pdf文件转化成swf文件 2,使用flexpaper预览swf文件主要代码: 1,在linux中安装swftools.官网下载swft ...

随机推荐

MySQL-第八篇MySQL内置函数
1.根据函数对多行数据的处理方式,可以分为: 1>单行函数:对每行输入值进行单独计算,每行得到一个计算结果返回给用户. 2>多行函数:聚集函数.分组函数,主要用于完成一些统计功能.对多行 ...
BZOJ 3931 (网络流+最短路）
题面传送门分析考虑网络流注意到数据包走的是最短路,所以我们只需要考虑在最短路上的边由于最短路可能有多条,我们先跑一遍Dijkstra,然后再$O(m)$ 遍历每条边(u,v,w) 如果d ...
LayaBox 常用技巧
1.修改IDE的菜单找到安装路径的LayaAirIDE\resources\app\out\vs\layaEditor\renders\laya.editorUI.xml 注意事项: 1.mask的 ...
阿里云云监控agent插件 - Linux版
阿里云云监控agent插件使用指南 1.安装(注意,要以“root”权限运行,复制 sudo后面的就行,别把#也复制进去) #64位 # sudo bash -c "wget -e 'htt ...
Ajax爬取豆瓣电影目录（Python）
下面的分析相当于一个框架,搞懂之后,对于类似的文字爬取,我们也可以实现.就算不能使用Ajax方法,我们也能够使用相同思想去爬取我们想要的数据. 豆瓣电影排行榜分析网址:https://movie.d ...
C#中out和ref的区别
来源:https://www.cnblogs.com/sunliyuan/p/5999045.html 首先,俩者都是按地址传递的,使用后都将改变原来参数的数值. 其次,ref可以把参数的数值传递进函 ...
kafka2.3集群搭建
环境: 3台centos7.4 3台zookeeper3.4.14 1. wget http://mirror.bit.edu.cn/apache/kafka/2.3.0/kafka_2.11-2.3 ...
spark- PySparkSQL之PySpark解析Json集合数据
PySparkSQL之PySpark解析Json集合数据数据样本 12341234123412342|asefr-3423|[{"}] 正菜: #-*- coding:utf-8 –*- ...
P.W.N. CTF - MISC - Canadian FOI
题目链接:https://ctftime.org/task/6935 题解只有两个页面的网站,index.html和about.html index.html页面有一个pdf链接,指向http:/ ...
bootz to be continued
dmesgcat /proc/interrupts cat /proc/meminfocat /proc/cpuinfo top bootz 0x10000000 0x12000000 0x11000 ...

linux shell assemble PDF文件

linux shell assemble PDF文件的更多相关文章

随机推荐

热门专题