PE结构分析
信息来源:邪恶八进制信息安全团队(www.)因为PE结构是一个很复杂的结构,所以下面我们在讨论PE时把它分为PE头标、表节、文件导入/导出、资源分别介绍。如果你只对某部分内容感兴趣,可以直接跳到此节阅读。
PE头标
PE 的意思就是 Portable Executable(可移植的执行体)。它是 Win32环境自身所带的执行体文件格式。它的一些特性继承自 Unix的 Coff (common object file format)文件格式。“Portable Executable”(可移植的执行体)意味着此文件格式是跨Win32平台的:即使Windows运行在非Intel的CPU上,任何win32平台的PE装载器都能识别和使用该文件格式。当然,移植到不同的CPU上的PE执行体必然得有一些改变。所有Win32执行体(除了VxD和16位的DLL)都使用PE文件格式,包括NT的内核模式驱动程序(Kernel Mode Drivers)。
我们在PE结构中最先看见的PE格式中的是PE结构的头标。像所有其他微软可执行文件格式一样,PE文件在一个已知(或容易找到的)位置上,有一系列域来定义该文件其余部分看起来像什么。PE头标包含了至关重要的一些信息,诸如代码和数据区的位置和大小、该文件要用什么操作系统以及初始的堆栈大小。我们在学习PE结构时最好用PEDUMP来DUMP一个EXE或DLL文件比较好学习点(PEDUMP可以在X:Msvc\COMMON\TOOLS找到,X为VC的安装目录)。
1. DOS头
与其他微软的可执行格式相似的是,在PE头标前面还有一个百多个字节的DOS头。这个DOS区域是一小段DOS程序。这一段程序只有几行简单的汇编程序,在Windows 3.1中可以自己定义。把一个很大的DOS程序当成PE结构的头也是可以的,例如说做一个从DOS下启动的游戏,就可以把DOS启动的内容放在前面。到了Windows 9x中的PE结构,在VC 4.0以后,DOS头就不可定义了。
现在,它的作用是如果此程序在DOS平台运行时,它将打印出“该程序不能在DOS模式下运行”之类的信息。这样就能提示程序的用户到Windows平台去运行此程序。下图是PE结构图。
" border="0" />
2008-3-8 10:58
PE文件的所有结构都能在WINNT.H文件中找到,其结构如下:
复制内容到剪贴板
代码:
typedef struct _IMAGE_DOS_HEADER { // DOS .EXE header
WORD e_magic; // Magic number
WORD e_cblp; // Bytes on last page of file
WORD e_cp; // Pages in file
WORD e_crlc; // Relocations
WORD e_cparhdr; // Size of header in paragraphs
WORD e_minalloc; // Minimum extra
//paragraphs needed
WORD e_maxalloc; // Maximum extra
//paragraphs needed
WORD e_ss; // Initial (relative) SS value
WORD e_sp; // Initial SP value
WORD e_csum; // Checksum
WORD e_ip; // Initial IP value
WORD e_cs; // Initial (relative) CS value
WORD e_lfarlc; // File address of relocation table
WORD e_ovno; // Overlay number
WORD e_res[4]; // Reserved words
WORD e_oemid; // OEM identifier (for e_oeminfo)
WORD e_oeminfo; // OEM information;
//e_oemid specific
WORD e_res2[10]; // Reserved words
LONG e_lfanew; // File address of new exe header
} IMAGE_DOS_HEADER, *PIMAGE_DOS_HEADER;
e_lfanew是相对实际PE头标的相对偏移量(或RVA)。要得到内存中一个指向PE头标的指针,只需将该域的值与映像的基相加:
复制内容到剪贴板
代码:
//Ignoring typecasts and pointer conversion issues for clarity…
pNTHeader= dosHeader + dosHeader->e_lfanew;
其他字段的意义是和DOS头有关的字节,这里没有什么大的作用,就不做介绍了。
2. IMAGE_NT_HEADERS
主PE头标是一个IMAGE_NT_HEADERS类型的结构,该类型在WINNT.H中定义。
在内存中,Windows中把IMAGE_NT_HEADERS结构作为它内存中的模块数据库。在Windows中,每个被装入的EXE或DLL都用一个IMAGE_NT_HEADERS结构来说明。其结构如下:
复制内容到剪贴板
代码:
typedef struct _IMAGE_NT_HEADERS {
DWORD Signature;
IMAGE_FILE_HEADER FileHeader;
IMAGE_OPTIONAL_HEADER32 OptionalHeader;
} IMAGE_NT_HEADERS32, *PIMAGE_NT_HEADERS32;
Signature表示此文件所表示的类型,其意义定义如下:
复制内容到剪贴板
代码:
#define IMAGE_DOS_SIGNATURE 0x4D5A // MZ
#define IMAGE_OS2_SIGNATURE 0x4E45 // NE
#define IMAGE_OS2_SIGNATURE_LE 0x4C45 // LE
#define IMAGE_NT_SIGNATURE 0x50450000 // PE00
如果是PE格式,则Signature为PE\0\0(PE后跟两个0)。
3. IMAGE_FILE_HEADER
PE头标中紧随PE的WORD记号的是一个IMAGE_FILE_HEADER类型的结构,如下所示:
复制内容到剪贴板
代码:
typedef struct _IMAGE_FILE_HEADER {
WORD Machine;
WORD NumberOfSections;
DWORD TimeDateStamp;
DWORD PointerToSymbolTable;
DWORD NumberOfSymbols;
WORD SizeOfOptionalHeader;
WORD Characteristics;
} IMAGE_FILE_HEADER, *PIMAGE_FILE_HEADER;
这个结构的域只包含了关于文件的最基本的信息。
Machine表示该文件运行所要求的CPU,有如下的CPU ID定义:
复制内容到剪贴板
代码:
#define IMAGE_FILE_MACHINE_UNKNOWN 0
#define IMAGE_FILE_MACHINE_I386 0x014c
// Intel 386.
#define IMAGE_FILE_MACHINE_R3000 0x0162
// MIPS little-endian, 0x160 big-endian
#define IMAGE_FILE_MACHINE_R4000 0x0166
// MIPS little-endian
#define IMAGE_FILE_MACHINE_R10000 0x0168
// MIPS little-endian
#define IMAGE_FILE_MACHINE_WCEMIPSV2 0x0169
// MIPS little-endian WCE v2
#define IMAGE_FILE_MACHINE_ALPHA 0x0184
// Alpha_AXP
#define IMAGE_FILE_MACHINE_POWERPC 0x01F0
// IBM PowerPC Little-Endian
#define IMAGE_FILE_MACHINE_SH3 0x01a2
// SH3 little-endian
#define IMAGE_FILE_MACHINE_SH3E 0x01a4
// SH3E little-endian
#define IMAGE_FILE_MACHINE_SH4 0x01a6
// SH4 little-endian
#define IMAGE_FILE_MACHINE_ARM 0x01c0
// ARM Little-Endian
#define IMAGE_FILE_MACHINE_THUMB 0x01c2
#define IMAGE_FILE_MACHINE_IA64 0x0200
// Intel 64
#define IMAGE_FILE_MACHINE_MIPS16 0x0266
// MIPS
#define IMAGE_FILE_MACHINE_MIPSFPU 0x0366
// MIPS
#define IMAGE_FILE_MACHINE_MIPSFPU16 0x0466
// MIPS
#define IMAGE_FILE_MACHINE_ALPHA64 0x0284
// ALPHA64
#define IMAGE_FILE_MACHINE_AXP64
//IMAGE_FILE_MACHINE_ALPHA64
NumberOfSection表示在EXE或OBJ中的节数。这个很重要,因为它直接表示节表数组的大小。
TimeDateStamp表示连接器生成该文件的时间。该值是指从1969年12月31日下午4点整开始至文件生成时之间的秒数。
PointerToSymbolTable表示文件的COFF符号表的偏移量。该域只用在OBJ文件和带有COFF调试信息的PE文件中,此信息只在调试文件中有用。
NumberOfSymbols表示在COFF符号表中的符号数目,参见前一个域,此信息只在调试文件中有用。
SizeOfOptionalHeader表示紧跟该结构之后的一个可选头标的大小。在可执行文件中,它是紧随该结构的image_file_header结构的大小。这个值必须有效。
Characteristics表示文件的信息化标记。一些重要的域描述如下:
复制内容到剪贴板
代码:
// Relocation info stripped from file.
#define IMAGE_FILE_RELOCS_STRIPPED 0x0001
// File is executable (i.e. no unresolved external references).
#define IMAGE_FILE_EXECUTABLE_IMAGE 0x0002
// Line nunbers stripped from file.
#define IMAGE_FILE_LINE_NUMS_STRIPPED 0x0004
// Local symbols stripped from file.
#define IMAGE_FILE_LOCAL_SYMS_STRIPPED 0x0008
// Agressively trim working set
#define IMAGE_FILE_AGGRESIVE_WS_TRIM 0x0010
// App can handle >2gb addresses
#define IMAGE_FILE_LARGE_ADDRESS_AWARE 0x0020
// Bytes of machine word are reversed.
#define IMAGE_FILE_BYTES_REVERSED_LO 0x0080
// 32 bit word machine.
#define IMAGE_FILE_32BIT_MACHINE 0x0100
// Debugging info stripped from file in .DBG file
#define IMAGE_FILE_DEBUG_STRIPPED 0x0200
// If Image is on removable media, copy and run from the swap file.
#define IMAGE_FILE_REMOVABLE_RUN_FROM_SWAP 0x0400
// If Image is on Net, copy and run from the swap file.
#define IMAGE_FILE_NET_RUN_FROM_SWAP 0x0800
// System File.
#define IMAGE_FILE_SYSTEM 0x1000
// File is a DLL.
#define IMAGE_FILE_DLL 0x2000
// File should only be run on a UP machine
#define IMAGE_FILE_UP_SYSTEM_ONLY 0x4000
// Bytes of machine word are reversed.
#define IMAGE_FILE_BYTES_REVERSED_HI 0x8000
我们常见的意义如下。
>> 0x0001:该文件中没有重定位。
>> 0x0002:文件是一个可执行的映像(即不是一个OBJ或LIB)。
>> 0x2000:文件是一个动态连接库,不是一个程序。
4. IMAGE_OPTIONAL_HEADER
PE头标的第三部分是一个IMAGE_OPTIONAL_HEADER类型结构。对于PE文件,这部分是必要的。除了标准的IMAGE_FILE_HEADER外,COFF格式还允许单独定义一个附加信息结构。
IMAGE_OPTIONAL_HEADER分为两种,一种是32位的,一种是64位的,我们可以在WINNT.H中找到对应的结构,其名分别为:
IMAGE_OPTIONAL_HEADER32各IMAGE_OPTIONAL_HEADER64。我们在这里只对32位进行介绍,其结构如下:
复制内容到剪贴板
代码:
typedef struct _IMAGE_OPTIONAL_HEADER {
//
// Standard fields.
//
WORD Magic;
BYTE MajorLinkerVersion;
BYTE MinorLinkerVersion;
DWORD SizeOfCode;
DWORD SizeOfInitializedData;
DWORD SizeOfUninitializedData;
DWORD AddressOfEntryPoint;
DWORD BaseOfCode;
DWORD BaseOfData;
//
// NT additional fields.
//
DWORD ImageBase;
DWORD SectionAlignment;
DWORD FileAlignment;
WORD MajorOperatingSystemVersion;
WORD MinorOperatingSystemVersion;
WORD MajorImageVersion;
WORD MinorImageVersion;
WORD MajorSubsystemVersion;
WORD MinorSubsystemVersion;
DWORD Win32VersionValue;
DWORD SizeOfImage;
DWORD SizeOfHeaders;
DWORD CheckSum;
WORD Subsystem;
WORD DllCharacteristics;
DWORD SizeOfStackReserve;
DWORD SizeOfStackCommit;
DWORD SizeOfHeapReserve;
DWORD SizeOfHeapCommit;
DWORD LoaderFlags;
DWORD NumberOfRvaAndSizes;
IMAGE_DATA_DIRECTORY
DataDirectory[IMAGE_NUMBEROF_DIRECTORY_ENTRIES];
} IMAGE_OPTIONAL_HEADER32, *PIMAGE_OPTIONAL_HEADER32;
Magic表示标志映像文件状态的一个WORD记号。值定义如下:
复制内容到剪贴板
代码:
#define IMAGE_NT_OPTIONAL_HDR32_MAGIC 0x10b
#define IMAGE_NT_OPTIONAL_HDR64_MAGIC 0x20b
#define IMAGE_ROM_OPTIONAL_HDR_MAGIC 0x107
>> 0x0107:一个ROM映像。
>> 0x010B:一个普通的可执行映像(大多数文件含此值)。
MajorLinkerVersion和MinorLinkerVersion表示生成该文件的连接器版本号。该数字以十进制形式显示,而不是十六进制,一个典型的连接器版本号是2.23。
SizeOfCode表示所有代码段组合聚集在一起的尺寸大小,内存中整个PE映像体的尺寸。它是所有头和节经过节对齐处理后的大小。
SizeOfInitializedData表示由初始化的数据(不包括代码段)组成的所有节的总尺寸。
SizeOfUninitializedData表示初始化的数据的大小。未初始化的数据通常被归入称为.bss的一节中。
AddressOfEntryPoint表示映像开始执行位置的地址。PE装载器准备运行的PE文件的第一个指令的RVA。若您要改变整个执行的流程,可以将该值指定到新的RVA,这样,新RVA处的指令首先被执行。
BaseOfCode表示文件代码节开始处的RVA。典型情况下,代码节在PE头标之后,并在数据节之前进入内存。在微软生成的EXE文件中,该RVA通常是0x1000。
BaseOfData表示文件的数据节开始处的RVA。典型情况下,数据节最后进入内存,排在PE头标和代码节后面。
ImageBase表示当连接器创建一个可执行文件时,它假设该文件将被内存映射到内存中的一个指定位置上。也就是PE文件的优先装载程序的地址。因为在Windows操作系统中,总是把可执行程序安装到虚拟空间中去,每个虚拟空间在逻辑上都是相对独立的,不相干的。此值就是表示程序装在虚拟空间的什么地方开始。
SectionAlignment表示内存中节对齐的粒度。例如,如果该值是4096 (1000h),那么每节的起始地址必须是4096的倍数。若第一节从401000h开始且大小是10个字节,则下一节必定从402000h开始,即使401000h和402000h之间还有很多空间没被使用。
FileAlignment表示文件中节对齐的粒度。例如,如果该值是(200h),,那么每节的起始地址必须是512的倍数。若第一节从文件偏移量200h开始且大小是10个字节,则下一节必定位于偏移量400h: 即使偏移量512和1024之间还有很多空间没被使用/定义。
MajorOperatingSystemVersion和MinorOperatingSystemVersion表示使用该可执行文件所要求的操作系统最小版本。该域含义有点模棱两可,因为subsystem域(后面的一些域)页体现类似的目的。在大多数Win32文件中,该域为版本1.0。
MajorImageVersion和MinorImageVersion表示一个用户自定义域。该域允许你具有一个EXE或一个DLL的不同版本。可用连接器的/VERSION开关来置该域的值,如LINK/VERSION:2.0 myobj.obj。
MajorSuvsystemVersion和MinorSubsystemVersion表示运行该可执行文件所要求的最小子系统版本。该域的一个典型值是4.0(意为Windows 4.0,即Windows 95)。
Reserved1一般总为0。
SizeOfImage一般是装载器不得不关心的映像部分的总尺寸。它是从映像基地址开始直到最后一节的尾端这个范围的长度。最后一节的尾端是被调整为最接近节对齐值的倍数的。
SizeOfHeaders表示PE头标和节(对象)表的尺寸。这些节的生数据直接跟在所有头标部分之后。
SizeOfHeaders =所有头+节表的大小
也就等于文件尺寸减去文件中所有节的尺寸。
CheckSum总是值0。
Subsystem表示该可执行文件为它用户接口而使用的子系统类型。WINNT.H定义了如下值:
复制内容到剪贴板
代码:
// Unknown subsystem.
#define IMAGE_SUBSYSTEM_UNKNOWN 0
// Image doesn't require a subsystem.
#define IMAGE_SUBSYSTEM_NATIVE 1
// Image runs in the Windows GUI subsystem.
#define IMAGE_SUBSYSTEM_WINDOWS_GUI 2
// Image runs in the Windows character subsystem.
#define IMAGE_SUBSYSTEM_WINDOWS_CUI 3
// image runs in the OS/2 character subsystem.
#define IMAGE_SUBSYSTEM_OS2_CUI 5
// image runs in the Posix character subsystem.
#define IMAGE_SUBSYSTEM_POSIX_CUI 7
// image is a native Win9x driver.
#define IMAGE_SUBSYSTEM_NATIVE_WINDOWS 8
// Image runs in the Windows CE subsystem.
#define IMAGE_SUBSYSTEM_WINDOWS_CE_GUI 9
表示的意义如下。
>> native=1:不需要子系统(例如,一个设备驱动器)
>> WINDOWS_GUI=2:在Windows GUI子系统中运行
>> WINDOWS_GUI=3:在Windows字符子系统中运行(一个控制台应用程序)
>> OS2_GUI=5:在OS/2字符子系统中运行(只对OS/2 1.x的应用程序)
>> POSIX_CUI=7:在Posix字符子系统中运行
DllCharacteristics (在NT 3.5中标为obsolete)指示什么情况下一个DLL的初始化函数,例如DllMain()要被调用的标志集合。该值看起来总被置为0,然而操作系统仍为4个事件调用了DLL初始化函数。
被定义的值如下。
>> 1:当DLL第一次被装入一个进程的地址空间时调用;
>> 2:当一个线程中止时调用;
>> 4:当一个线程启动时调用;
>> 8:当DLL退出时调用。
SizeOfStakeReserve表示为初始线程栈保留的虚拟内存量。然而,这些内存不是都要交付的(见后一个域)。该域默认为0x100000(1MB)。如果你对CreateThread()指定一个0作为栈的大小,结果线程仍是得到一个域默认值相同的栈。
SizeOfStackCommit表示为初始线程栈首先交付的内存量。在微软连接器中,该域默认值是0x1000字节(1页),而TLINK默认为0x2000字节(2页)。
SizeOfHeapReserve表示为初始进程堆保留的虚拟内存量。该堆句柄可通过调用GetProcessHeap()来获得。这些内存也不是都要交付的(见下一个域)。
SizeOfHeapCommit表示在进程堆中初始交付的内存量。连接器在该域的默认值是0x1000字节。
Loaderflags(在NT 3.5中标记为obsolete)它们一般是与调试支持有关的域。
NumberOfRvaAndSizes表示在DataDiretory数组中项的数目。目前的工具总把该域的值置为16。
DataDirectory[IMAGE_NUMBEROF_DIRECTORY_ENTRIES]是一个IMAGE_DATA_DIRECTORY结构数组。数组中前面的元素包含了该可执行文件重要部分的起始RVA和尺寸。数组尾端的元素目前还未用到。数组的第一个元素总是引出函数表(如果有的话)的地址和尺寸。第二个数组项是引入函数表的地址和尺寸,如此等等。对于一个完整的数组项的定义列表,在WINNT.H中的IMAGE_DIRECTORY_ENTRY_xxx #defin’s中有如下的几项:
复制内容到剪贴板
代码:
// Export Directory
#define IMAGE_DIRECTORY_ENTRY_EXPORT 0
// Import Directory
#define IMAGE_DIRECTORY_ENTRY_IMPORT 1
// Resource Directory
#define IMAGE_DIRECTORY_ENTRY_RESOURCE 2
// Exception Directory
#define IMAGE_DIRECTORY_ENTRY_EXCEPTION 3
// Security Directory
#define IMAGE_DIRECTORY_ENTRY_SECURITY 4
// Base Relocation Table
#define IMAGE_DIRECTORY_ENTRY_BASERELOC 5
// Debug Directory
#define IMAGE_DIRECTORY_ENTRY_DEBUG 6
// Architecture Specific Data
#define IMAGE_DIRECTORY_ENTRY_ARCHITECTURE 7
// RVA of GP
#define IMAGE_DIRECTORY_ENTRY_GLOBALPTR 8
// TLS Directory
#define IMAGE_DIRECTORY_ENTRY_TLS 9
// Load Configuration Directory
#define IMAGE_DIRECTORY_ENTRY_LOAD_CONFIG 10
// Bound Import Directory in headers
#define IMAGE_DIRECTORY_ENTRY_BOUND_IMPORT 11
// Import Address Table
#define IMAGE_DIRECTORY_ENTRY_IAT 12
// Delay Load Import Descriptors
#define IMAGE_DIRECTORY_ENTRY_DELAY_IMPORT 13
// COM Runtime descriptor
#define IMAGE_DIRECTORY_ENTRY_COM_DESCRIPTOR 14
该数组的目的是允许装载器可迅速地找到一个映像的特定节(例如引入函数表),而不必遍历映像的每一个节并逐一比较它们的名字。数组的大多数项描述了一个完整的节的数据。然而,IMAGE_DIRECTORY_ENTRY_ DEBUG元素只含了.rdata节中一小部分字节。