前言
作为一个程序员在我们的开发和学习过程中,或多或少都接触过汇编
,那我们想没想过汇编
是什么,掌握汇编我们能干什么呢?
简单一点说就是把汇编语言
翻译成计算机可以读懂的机器语言
的过程,我们称之为汇编
。学会汇编可以玩工程的逆向,还可以了解计算机的原理。在做逆向分析过程中一个很重要的环节叫静态分析
,一个APP可以手机上执行,是因为手机上安装了可执行文件,它本质上是一个二进制文件,手机本质上执行的是二进制,而静态分析
是建立在二进制上面。要想分析二进制就需要了解汇编
。
汇编语言的发展
- 什么是
机器语言
呢?
它其实是由0和1组成的机器指令
。加
:0100 0000,减
:0100 1000,乘
:1111 0111 1110 0000,除
:1111 0111 1111 0000。汇编语言
(assembly language),它是使用助记符代替机器语言。加
:INC EAX 通过编译器 0100 0000,减
:DEC EAX 通过编译器0100 1000,乘
:MUL EAX 通过编译器1111 0111 1110 0000,除
:DIV EAX 通过编译器1111 0111 1111 0000。我们日常开发的代码在终端设备上是怎样转化的呢? 通过上图可以很直观的看到代码的转化过程。我们也应该认识到汇编语言与机器语言一一对应,每一条机器指令都有与之对应的汇编指令
。汇编语言可以通过编译得到机器语言
,机器语言
可以通过反汇编得到汇编语言
。高级语言可以通过编译得到汇编语言机器语言,但汇编语言\机器语言几乎不可能还原成高级语言。
- 汇编语言的特点
可以直接访问、控制各种硬件设备,比如存储器
、CPU
等,能最大限度地发挥硬件的功能。目标代码简短,占用内存少,执行速度快。汇编指令是机器指令的助记符,同机器指令一一对应。每一种CPU
都有自己的机器指令集\汇编指令集,所以汇编语言不具备可移植性。不区分大小写,比如mov和MOV是一样的。 目前比较常见的汇编语言有:8086汇编
、Win32汇编
、Win64汇编
、ARM汇编(嵌入式、Mac、iOS )
.iPhone用到的是ARM
汇编,但不同的设备也有差异性,因为它们的CPU架构不一样。
armv6
: iPhone, iPhone2, iPhone3G, 第一代、第二代 iPod Touch
armv7
: iPhone3GS, iPhone4, iPhone4S,iPad, iPad2, iPad3(The New iPad), iPad mini, iPod Touch 3G, iPod Touch4
armv7s
: iPhone5, iPhone5C, iPad4(iPad with Retina Display)
arm64
: iPhone5S 以后 iPhoneX , iPad Air, iPad mini2以后 汇编会生成不同的指令,不同CPU架构
会对应不同的指令集。应用在手机或电脑中执行过程是怎么样的呢? 通过上图我们基本可以摸清楚程序的执行过程。硬件相关最为重要的是CPU
。在汇编中大部分的指令都是CPU
与内存
之间关联。通常我们所说的32位
和64位
系统,区别在于在数据吞吐量上的差异,跟数据总线相关。CPU工作原理就是对外放电,32位系统CPU一次放电吞吐量位4字节
,64位系统CPU一次放电吞吐量位8字节
。那什么是数据总线
呢? 总线
是一根根导线的集合。每一个CPU芯片都有许多管脚
,这些管脚
和总线相连,CPU通过总线跟外部器件进行交互。总线又分为三大类: 地址总线
、数据总线
、控制总线
。 地址总线
有多根决定总线的宽度
,宽度
决定了寻址的能力
。在程序执行过程中,我们常提到一个名词镜像文件(image())。它其实是可执行文件从磁盘加载内存中的一种表现形式。8086
的地址总线宽度是20
,所以寻址能力是1M
。8080
的地址总线宽度是16
,所以寻址能力是64K
。 好了这一期的汇编我们先探索到这里,下一期我们继续研究。