PHP编译原理之Opcode ( Operation Code ) PHP代码执行过程


Opcode是什么?

我们都知道,计算机是不能直接理解高级语言的,“高级语言”是给程序员看的,最终高级语言都会被编译或者解释成能被机器理解的语言,也就是机器语言,才能被计算机执行。

Opcode就是php脚本编译后的中间语言,就像JAVA中的ByteCode字节码类文件。

举个例子:

比如,我们写下了这段代码:

<?php
echo "Hellow World";
$a = $a+1;
echo $a;
?>

PHP语言引擎Zend执行这段代码会经过四个步骤:

  1. Scanning(Lexing) :将PHP代码转化为语言片段(Tokens);

  2. Parsing :将Tokens转化为简单而有意义的表达式;

  3. Compilation :将表达式编译成Opcode 

  4. Execution :顺序执行Opcode,每次一条,实现PHP脚本功能;


一、第一步,Scanning(Lexing) ,词法分析

Lex是一个词法分析的词典表,Zend引擎会将输入的内容对照Lex字典文件将代码进行分析,从而得到一个一个的语言片段。

例如,刚才我们输入的那段代码会被解析为:

Array
(
    [0] => Array
        (
           [0] => 367
           [1] =>  Array
        (
            [0] => 316
            [1] => echo
        )
    [2] => Array
        (
            [0] => 370
            [1] =>
        )
    [3] => Array
        (
            [0] => 315
            [1] => "Hello World"
        )
    [4] => ;
    [5] => Array
        (
            [0] => 370
            [1] =>
        )
    [6] => =
    [7] => Array
        (
            [0] => 370
            [1] =>
        )
    [8] => Array
        (
            [0] => 305
            [1] => 1
        )
    [9] => Array
        (
            [0] => 370
            [1] =>
        )
    [10] => +
    [11] => Array
        (
            [0] => 370
            [1] =>
        )
    [12] => Array
        (
            [0] => 305
            [1] => 1
        )
    [13] => ;
    [14] => Array
        (
            [0] => 370
            [1] =>
        )
    [15] => Array
        (
            [0] => 316
            [1] => echo
        )
    [16] => Array
        (
            [0] => 370
            [1] =>
        )
    [17] => ;
)

从上面的内容分析,我们会发现源码中的字符串、字符、空格都会被原样返回,而源码中其他的内容,比如标签、操作符、语句都会被转化为一个包含Token ID和原内容两部分的数组。


二、第二步,Parsing ,解析

Parsing首先会丢弃Tokens Array中空格等无用的部分,然后将Tokens中剩余的内容转化为一条条的简单表达式。

1.echo a constant string
2.add two numbers together
3.store the result of the prior expression to a variable
4.echo a variable



三、第三步,Compilation,编译

将Tokens编译成一个个的op_array,每个op_array包含如下五个部分:

  1. opcode数字标识;指明操作类型,比如add echo

  2. 结果;存放opcode结果

  3. 操作数1

  4. 操作数2

  5. 扩展值;一个整型、用来区别被重载的操作符

比如,刚才的代码会被Parsing成

* ZEND_ECHO "Hello World"
* ZEND_ADD ~0 1 1
* ZEND_ASSIGN !0 ~0
* ZEND_ECHO !0

你可能会疑惑,$a哪里去了?

这个时候,要介绍一下操作数了,每个操作数由两部分组成:

  1. op_type:操作数类型,常见值为IS_CONST, IS_TMP_VAR, IS_VAR, IS_UNUSED, or IS_CV

  2. u:操作数取值,根据op_type的不同,分别用不同的类型保存了这个操作数的值(const)或者左值(var)


对于左值(var),也有几种不同的取值类型:

IS_TMP_VAR:顾名思义,这是一个临时变量,保存op_array的结果,以便接下来op_array的使用,这种类型的操作数的u保存着一个指向变量表的句柄(整数),这种操作数一般用~开头,比如~0,表示变量表的0号未知的临时变量;

IS_VAR:这种就是我们一般意义上的变量,他们以$开头表示;

IS_CV:这是在ZE2.1/PHP5.1以后的编译器使用的一种cache机制,这种变量保存着被它引用变量的地址,当一个变量第一次被引用的时候,就会被CV起来,以后对这个变量的引用就不需要再次去查找active符号表了,CV变量以!开头表示。

这么看来,$a被优化成!0了。



本文发表于2017年10月16日 01:18
阅读 2267 讨论 0 喜欢 1

讨论

周娱

君子和而不同
按照自己的方式,去度过人生

4968 1346908
抢先体验

扫码体验
趣味小程序
文字表情生成器

加入组织

扫码添加周娱微信
备注“加入组织”
邀请进开发群

闪念胶囊

让一个团队走向平庸的最佳方式,是让成员们持续地干那些不让他们感到自豪的事情。

最近1 2年发现成长的最好方式是研究开源的项目,自己实践。成长速度非常的快,一个好的项目需要考虑的细节很多。

不积跬步无以至千里,越焦虑越要扎实干。

不要试图鹤立鸡群,趁早离开那群鸡!

程序员过节需要的不是美女、不是美食、不是不加班!他们需要的是写代码,一群人写、往死里写、通宵写!!那种暗流涌动的狂欢,远比虚无庸俗的食色更让他们振奋!! by芋头

面试的时候,常常会问数组和链表的区别,很多人都回答说,“链表适合插入、删除,时间复杂度 O(1);数组适合查找,查找时间复杂度为 O(1)”。 实际上,这种表述是不准确的。数组是适合查找操作,但是查找的时间复杂度并不为 O(1)。即便是排好序的数组,你用二分查找,时间复杂度也是 O(logn)。 所以,正确的表述应该是,数组支持随机访问,根据下标随机访问的时间复杂度为 O(1)。

找一个bug就好比从一泡烂泥里找一条泥鳅,写一个bug就好比往一泡烂泥里丢一条泥鳅进去

数据结构在某种程度上和设计模式类似,都是前辈的武功套路。不同的是,设计模式是近几十年的卓越程序员的智慧结晶,而数据结构是几百上千年的无数科学家、数学家的智慧沉淀,更加具有深厚的背景。

18年元旦立下的flag要集中突击一下了.....

Copyright © 2016 - 2018 Cion.
All Rights Reserved.
备案:鲁ICP备16007319号.