PHP编译原理之Opcode ( Operation Code ) PHP代码执行过程技术指南

PHP编译原理之Opcode ( Operation Code ) PHP代码执行过程

Opcode是什么？

我们都知道，计算机是不能直接理解高级语言的，“高级语言”是给程序员看的，最终高级语言都会被编译或者解释成能被机器理解的语言，也就是机器语言，才能被计算机执行。

Opcode就是php脚本编译后的中间语言，就像JAVA中的ByteCode字节码类文件。

举个例子：

比如，我们写下了这段代码：

<?php
echo "Hellow World";
$a = $a+1;
echo $a;
?>

PHP语言引擎Zend执行这段代码会经过四个步骤：

Scanning(Lexing) ：将PHP代码转化为语言片段(Tokens)；
Parsing ：将Tokens转化为简单而有意义的表达式；
Compilation ：将表达式编译成Opcode ；
Execution ：顺序执行Opcode，每次一条，实现PHP脚本功能；

一、第一步，Scanning(Lexing) ，词法分析

Lex是一个词法分析的词典表，Zend引擎会将输入的内容对照Lex字典文件将代码进行分析，从而得到一个一个的语言片段。

例如，刚才我们输入的那段代码会被解析为：

Array
(
    [0] => Array
        (
           [0] => 367
           [1] =>  Array
        (
            [0] => 316
            [1] => echo
        )
    [2] => Array
        (
            [0] => 370
            [1] =>
        )
    [3] => Array
        (
            [0] => 315
            [1] => "Hello World"
        )
    [4] => ;
    [5] => Array
        (
            [0] => 370
            [1] =>
        )
    [6] => =
    [7] => Array
        (
            [0] => 370
            [1] =>
        )
    [8] => Array
        (
            [0] => 305
            [1] => 1
        )
    [9] => Array
        (
            [0] => 370
            [1] =>
        )
    [10] => +
    [11] => Array
        (
            [0] => 370
            [1] =>
        )
    [12] => Array
        (
            [0] => 305
            [1] => 1
        )
    [13] => ;
    [14] => Array
        (
            [0] => 370
            [1] =>
        )
    [15] => Array
        (
            [0] => 316
            [1] => echo
        )
    [16] => Array
        (
            [0] => 370
            [1] =>
        )
    [17] => ;
)

从上面的内容分析，我们会发现源码中的字符串、字符、空格都会被原样返回，而源码中其他的内容，比如标签、操作符、语句都会被转化为一个包含Token ID和原内容两部分的数组。

二、第二步，Parsing ，解析

Parsing首先会丢弃Tokens Array中空格等无用的部分，然后将Tokens中剩余的内容转化为一条条的简单表达式。

1.echo a constant string
2.add two numbers together
3.store the result of the prior expression to a variable
4.echo a variable

三、第三步，Compilation，编译

将Tokens编译成一个个的op_array，每个op_array包含如下五个部分：

opcode数字标识；指明操作类型，比如add echo
结果；存放opcode结果
操作数1
操作数2
扩展值；一个整型、用来区别被重载的操作符

比如，刚才的代码会被Parsing成

* ZEND_ECHO "Hello World"
* ZEND_ADD ~0 1 1
* ZEND_ASSIGN !0 ~0
* ZEND_ECHO !0

你可能会疑惑，$a哪里去了？

这个时候，要介绍一下操作数了，每个操作数由两部分组成：

op_type：操作数类型，常见值为IS_CONST, IS_TMP_VAR, IS_VAR, IS_UNUSED, or IS_CV
u：操作数取值，根据op_type的不同，分别用不同的类型保存了这个操作数的值(const)或者左值(var)

对于左值(var)，也有几种不同的取值类型：

IS_TMP_VAR：顾名思义，这是一个临时变量，保存op_array的结果，以便接下来op_array的使用，这种类型的操作数的u保存着一个指向变量表的句柄（整数），这种操作数一般用~开头，比如~0，表示变量表的0号未知的临时变量；

IS_VAR：这种就是我们一般意义上的变量，他们以$开头表示；

IS_CV：这是在ZE2.1/PHP5.1以后的编译器使用的一种cache机制，这种变量保存着被它引用变量的地址，当一个变量第一次被引用的时候，就会被CV起来，以后对这个变量的引用就不需要再次去查找active符号表了，CV变量以！开头表示。

这么看来，$a被优化成!0了。

本文发表于2017年10月16日 01:18
阅读 6113 讨论 0 喜欢 1

抢先体验
扫码体验趣味小程序文字表情生成器

抢先体验

扫码体验
趣味小程序
文字表情生成器

闪念胶囊
万稳万当，不如一默。任何一句话，你不说出来便是那句话的主人，你说了出来，便是那句话的奴隶。 18:22 04月20日查看详情
你要过得好哇，这样我才能恨你啊，你要是过得不好，我都不知道该恨你还是拥抱你啊。 17:21 2021年04月19日查看详情
直抵黄龙府，与诸君痛饮尔。 18:17 2021年03月28日查看详情
那时陪伴我的人啊，你们如今在何方。 16:28 2021年03月19日查看详情
不出意外的话，我们再也不会见了，祝你前程似锦。 18:05 2021年03月17日查看详情

闪念胶囊

万稳万当，不如一默。任何一句话，你不说出来便是那句话的主人，你说了出来，便是那句话的奴隶。

18:22 04月20日查看详情

你要过得好哇，这样我才能恨你啊，你要是过得不好，我都不知道该恨你还是拥抱你啊。

17:21 2021年04月19日查看详情

直抵黄龙府，与诸君痛饮尔。

18:17 2021年03月28日查看详情

那时陪伴我的人啊，你们如今在何方。

16:28 2021年03月19日查看详情

不出意外的话，我们再也不会见了，祝你前程似锦。

18:05 2021年03月17日查看详情

快捷链接
网站地图
提交友链

快捷链接

提交友链

Contact
Y2lvbkBjaGluYWNpb24uY24=

Contact

PHP编译原理之Opcode ( Operation Code ) PHP代码执行过程

Y2lvbkBjaGluYWNpb24uY24=