C/C++|一个现代编译器的主要工作流程

小微 科技C/C++|一个现代编译器的主要工作流程已关闭评论116字数 2743阅读模式
摘要编译器的主要工作流程:源代码 (source code) → 预处理之前的翻译处理→预处理器 (preprocessor) → 编译器 (compiler) → 目标代码 (obj...

编译器的主要工作流程:源代码 (source code) → 预处理以前的翻译处理→预处理器 (preprocessor) → 编译器 (compiler) → 目标代码 (object code) → 连接器 (Linker) → 可执行程序 (executables)。GCC C语言编译器以汇编代码的情势发生输出, 汇编代码是机器代码的文本表示, 给出程序中的每一一条指令。 然后GCC调用汇编器以及链接器,依据汇编代码生成可执行的机器代码。

1 预处理以前的翻译处理文章源自微观生活(93wg.com)微观生活-https://93wg.com/24753.html

在预处理以前,编译器必需对该程序进行一些翻译处理。文章源自微观生活(93wg.com)微观生活-https://93wg.com/24753.html

1.1 编译器把源代码中呈现的多字节字符映照到源字符集。文章源自微观生活(93wg.com)微观生活-https://93wg.com/24753.html

该进程处理多字节字符以及三字符序列--字符扩大,让C更为国际化。文章源自微观生活(93wg.com)微观生活-https://93wg.com/24753.html

如??:表示文章源自微观生活(93wg.com)微观生活-https://93wg.com/24753.html

1.2 将物理换行转换成逻辑行文章源自微观生活(93wg.com)微观生活-https://93wg.com/24753.html

编译器定位每一个反斜杠后面随着换行符的实例, 并删除了它们。也就是说, 把下面两个物理行(physical line):文章源自微观生活(93wg.com)微观生活-https://93wg.com/24753.html

printf(&文章源自微观生活(93wg.com)微观生活-https://93wg.com/24753.html

printf(&文章源自微观生活(93wg.com)微观生活-https://93wg.com/24753.html

因为预处理表达式的长度必需是一个逻辑行, 所以这一步为预处理器做文章源自微观生活(93wg.com)微观生活-https://93wg.com/24753.html

编译器将汇编或高档计算机语言源程序(Source program)作为输入,翻译成目标语言(Target language)机器代码的等价程序。源代码通常是高档语言 (High-level language), 如Pascal、C、C++、Java、汉语编程等或汇编语言,而目标则是机器语言的目标代码(Object code),有时也称作机器代码(Machine code)。

高档计算机语言便于人编写,浏览交换,保护。机器语言是计算机能直接解读、运行的。

对于C

机器代码的生成是优化变型后的中间代码转换成机器指令的进程。现代编译器主要采取生成汇编代码(assembly code)的策略,而不直接生成二进制的目标代码(binary object code)。即便在代码生成阶段,高档编译器依然要做不少分析,优化,变形的工作。例如怎么分配存放器(register allocatioin),怎么选择适合的机器指令(instruction selection),怎么合并几句代码成一句等等。

编译器处理的对象是由单个.c或.cpp文件以及其中递归包括的头文件组成的编译单元。一般来讲,头文件是不直接介入编译的。编译器会将每一个编译单元翻译成同名的二进制代码文件,在DOS以及Windows环境下,二进制代码文件的后缀名为.obj,在UNIX环境下,其后缀名为.o,此时,二进制代码文件还是零散的,还不是可执行二进制文件。

过错检查大可能是在编译阶段进行的,编译器主要进行语法分析、词法分析、发生目标代码,并进行代码优化等处理。为全局变量以及静态变量分配内存,并检查函数是不是已定义,如没有定义,是不是有函数声明,函数声明通知编译器:该函数在

4 链接

链接器将编译得到的零散的二进制代码文件组合成二进制可执行文件。主要完成两个工作,一是解析其他文件中函数引用或其他引用,二是解析库函数。

举例来讲,某个程序由两个.c文件组成,分别为A.c、B.c,两个.c文件以及其中递归包括的头文件组成两个编译单元,经由预处理以及编译生成二进制代码文件A.obj以及B.obj。假定A.c中调用了函数C,可函数C定义在B.c中,A.obj中实际上仅仅包含对C函数的引用,其二进制订义代码需要从B.obj中提取,插入A.obj的调用途,这个进程称为函数解析(resolve),由链接器完成。不单单是函数,变量(诸如有外部链接性的全局变量)也牵扯到解析的问题。当B.c没有定义函数C时,编译时不会发生过错,但连接时却会提醒有未解析的对象,据此可分析出问题出在编译阶段还是链接阶段。

出于商业斟酌或保密需要,C标准库函数以及其他公司或组织提供的第三方库函数都是以二进制代码情势提供的,后缀名为.lib。在程序中调用了库函数,便需要对库函数进行解析,链接器会从对应的二进制库文件中将函数的代码抽出并插入调用途。如果库中无此函数或找不到对应的库,也会产生未解析(unresolved)的过错。

链接可以在编译时由静态编译器来完成,也能够在加载时以及运行时由动态链接器来完成。链接器处理称为目标文件的二进制文件,它有3 种不同的情势:可重定位的、可执行的以及同享的。可重定位的目标文件由静态链接器合并成一个可执行的目标文件,它可以加载到内存中并执行。同享目标文件(同享库)是在运行时由动态链接器链接以及加载的,或者隐含地在调用程序被加载以及开始执行时,或者依据需要在程序调用dlopen 库的函数时。

链接器的两个主要任务是符号解析以及重定位,符号解析将目标文件中的每一个全局符号都绑定到一个独一的定义,而重定位肯定每一个符号的终究内存地址,并修改对那些目标的引用。

加载器将可执行文件的内容映照到内存,并运行这个程序。链接器还可能生成部份链接的可执行目标文件,这样的文件中有对定义在同享库中的例程以及数据的未解析的引用。在加载时,加载器将部份链接的可执行文件映照到内存,然后调用动态链接器,它通过加载同享库以及重定位程序中的引用来完成链接任务。

被编译为位置无关代码的同享库可以加载到任何处所,也能够在运行时被多个过程同享。为了加载、链接以及走访同享库的函数以及数据,利用程序也能够在运行时使用动态链接器。

在初期的计算机系统中,链接是手动执行的。在现代系统中,链接是由叫做链接器(linker)的程序自动执行的。链接器在软件开发中扮演着一个关键的角色,由于它们使得分离编译(separate compilation)成为可能。咱们不用将一个大型的利用程序组织为一个巨大的源文件,而是可以把它分解为更小、更好管理的模块,可以独立地修改以及编译这些模块。当咱们扭转这些模块中的一个时,只需简单地从新编译它,并从新链接利用,而无须从新编译其他文件。

链接器可以读取一组可重定位目标文件,并把它们链接起来,构成一个输出的可执行文件。实际上,所有的编译系统都提供一种机制,将所有相关的函数可以被编译为独立的目标模块,然后封装成一个单独的静态库文件,称为静态库(static library), 它可以用做链接器的输入。

在链接时,链接器将只复制被程序引用的目标模块,这就减少了可执行文件在磁盘以及内存中的大小。在Linux 系统中,静态库以一种称为存档(archive)的特殊文件格式寄存在磁盘中。存档文件是一组连接起来的可重定位目标文件的聚拢,有一个头部用来描写每一个成员目标文件的大小以及位置。存档文件名由后缀.a 标识。Linux 系统为动态链接器提供了一个简单的接口,允许利用程序在运行时加载以及链接创立一个同享库。

-End-

以上就是微观生活(93wg.com)关于“C/C++|一个现代编译器的主要工作流程”的详细内容,希望对大家有所帮助!

继续阅读
 
小微
  • 版权声明: 本文部分文字与图片资源来自于网络,转载此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们(管理员邮箱:81118366@qq.com),情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
  • 转载请务必保留本文链接:https://93wg.com/24753.html