• 原文:
    http://blogs.msdn.com/jaybaz_ms/archive/2007/11/09/parting-words-for-dear-friends.aspx

    InfoQ的报道:
    http://www.infoq.com/news/2007/11/criticism-from-microsoft-devlead

    InfoQ China的报道:
    http://www.infoq.com/cn/news/2007/11/criticism-from-microsoft-devlead

    有一段时间,我一直想不明白一件事,软件开发中,是算法和数据结构那些实现技能更重要,还是软件设计和编写干净代码的能力更重要。前者的代表应该是微软和Google,后者的代表应该是ThoughtWorks。公司的侧重,在这些公司的招聘过程中,体现得尤为明显。

    所以,我们经常看到一群人为了证明某一个方面的重要性,举出无数的理由试图证明另一方面不重要,这样的争论有如语言之争一样,没有任何一方可以说服另一方,结果便是一群人争论半天,回去各自做各自的事去了。实际上,甚至可以说两者都不重要,因为有为数不少的程序,是在没有太多技术难度,也深入考虑设计和架构的情况下完成的。这也是很多人抱怨自己的工作没有技术含量的原因。

    在我看来,两者都很重要。

    过分强调某一个方面,导致的结果就是另一方面的欠缺,这一点尤其容易出现在有着很强实现本领的人身上。当我们说某人很牛时,多半指的是他能实现出一些别人无法轻易实现的东西,显然,没有人愿意称一个只会写“Hello, World”的人为牛人。所以,一旦不小心被当成了牛,很容易就真的以为自己是牛了,所以,忽略了另一个方面,对于工程很重要的方面。

    有一种说法是,某人牛到写出的代码别人看不懂,这一方面是这个人实现本领过强,另一方面也说明,这个家伙着实不好合作。当然,某些算法初读起来确实令人费解,但大多数情况不是这样。我着实见过一个被周围的人当作牛的人写的代码,一份让我觉得愤慨的代码,除了实现功能之外,一无是处。在工程中,设计出良好的结构,编写出很好的代码,对后续的开发和维护都是一种重要的基础。当某人因为点灯熬油成功修复一个bug而受到大家吹捧的时候,请别忘了,多半这个bug就是因为他自己没有良好工作习惯而埋下的。

    微软开发主管的临别赠言为这种情况添加了一些注脚,微软是一个大家认为的牛人集合体,出现这种情况,只能说明,他们软件开发的另一面重视不够。

    反方向的情况似乎并不明显,没有人会因为自己有良好的设计功底而忽略了自己的实现技能,毕竟,有高超实现技能的人,才是“牛人”。

    不过,强调实现技能这点也有好处的。随着微软和Google对实现技能重视的宣传,大家越来越重视这些基础的东西,这让很多人,尤其是还没有明确自己努力方向的学生们看到了一丝曙光,因为这至少不会让他们一无是处。

    我一直喜欢程序设计是一种艺术的说法,所谓艺术,必然会有一些美的东西在里面。无论是实现了一个精巧的算法,还是搭建出一个宏伟的架构,这些无不是体现程序设计之美的地方。想要体会程序设计之美,那就势必要两手抓,且争取两手都要硬。
  • 探索Antlr》是两年前写的一篇文章,如今,Antlr 3.0已经发布了,有了一些变化,为了反映这些变化,我决定重写这篇《探索Antlr》。

    探索Antlr(Antlr 3.0更新版) 

    简介
    Antlr(ANother Tool for Language Recognition)是一个工具,它为我们构造自己的识别器(recognizers)、编译器(compiler)和转换器(translators)提供了一个基础。通过定义自己的语言规则,Antlr可以为我们生成相应的语言解析器,这样便可以省却了自己全手工打造的劳苦。

    目标
    如同程序设计语言入门大多采用“Hello World”一样,编译领域的入门往往选择计算器。而这里迈出的第一步更为简单:一个只能计算两个数相加的计算器,也就是说,它可以计算“1+1”。

    基础知识
    先来考虑一下如何下手,如果你曾经接受过编译原理的教育,权当忆苦思甜了。这个计算器工作的前提是有一个需要计算的东西,不管我们是以文件的形式提供,还是手工输入,至少我们可以让我们的计算器知道“1+1”的存在。

    有了输入之后,我们要先检查输入的正确性,只有对正确的输入进行计算才是有意义的。如同写文章有形式和内容之分,这里的检查也要细分一下,率先完成的检查当然是面子功夫——形式上的东西,看看是否有错别字的存在,我们要做的是数值相加,结果人家给出了一个字母,这肯定不是我们希望得到的,所以我们有权力拒绝这个不合法的东西。对于程序员来说,如果在自己的程序里写了一个语言不接受的标识符,比如在Java里用“123r”做标识符,那编译器肯定会罢工,拒绝让程序通过编译的。在编译原理里面,这个过程叫做词法分析。在我们的计算器中,我们只接受整数和加号,其它的一概不理。这里我们说的是“整数”,而非 “1”、“2”……,对我们来说,它们代表着同一类的东西,编译原理教导我们把这这种东西叫做token,那些数字对我们来说,都是一样的token,不同的仅仅是它们的值而已。

    形式说得过去并不代表内容就可以接受,南北朝时期许多骈体文让我们看到了隐藏在华丽的外表下的空虚灵魂。你可以说 “我吃饭”,如果说“饭吃我”,除非是在练习反正话的场合,否则没有人会认为它是有意义的,因为显然这不是我们习惯的主谓宾结构。只有在闯过了词法分析的关口,才能到达这里,在编译原理里面,我们把这个阶段叫做语法分析。如果说词法分析阶段的输入是字符流的话,那么语法分析阶段的输入就是token流——词法分析的输出。我们这里接受的合法语法是“整数 加号 整数”。

    编写语法文件
    好了,制订好自己的语言规则之后,我们需要以Antlr的语言把它描述出来。下面便是以Antlr的语言描述的语法:
    grammar Calculator;
     
    expr:   INT PLUS INT;
     
    PLUS  : '+' ;
    INT   : ('0'..'9')+ ;

    Antlr的语法文件通常会保存在一个“.g”的文件中,我们的语法文件叫做“Caculator.g”。
     
    我们来看看这里的定义:
    expr:   INT PLUS INT;
     
    这条语句定义了expr,它等价于“:”右边的部分,也就是说,
    * 一个INT,后面跟着一个PLUS,后面再接着一个INT。
     
    至于INT和PLUS,它来自后面的定义:
    PLUS  : '+' ;
    INT   : ('0'..'9')+ ;
     
    * PLUS定义的token,就是一个单一的“+”
    * INT定义的token,由从'0'到'9'之间任意的数字组成,后面的加号表示它是可以重复一次到多次
     
    如果你曾经与Antlr 2.x有过一面之缘,你会发现,这个语法文件与Antlr 2.x的语法文件有着些许不同。首先,我们没有区分词法分析和语法分析,由上面的代码可以看出,二者在形式上是一致的,不同的是,对于词法分析的输入是字符,而语法分析的输入是词法分析的结果,也就是token。Antlr 2.x必须显式的区分这二者,而在Antlr 3.0之后,Antlr会替你料理这一切。再有,这里的语法文件名必须与grammar定义的名字保持一致,对于Java程序员,这是一个顺其自然的选择。

    编译语法文件
    如同不编译的程序是无法发挥其威力一样,单单语法文件对我们来说,并没有很大的价值。我们的工作就是使用Antlr提供工具对我们的语法文件进行编译,不同于日常的编译器输出可执行文件,这里的输出是程序语言的源文件。Antlr缺省目标语言是Java语言,它也可以支持C,C#和Python语言,其他的语言尚在开发之中,从3.0发布包结构来看,Ruby的支持很快就会加进来。
     
    将Antlr提供的JAR文件加入到classpath中,其中包括Antlr 2.7.7,Antlr 3.0与其runtime,stringtemplate。你没看错,除了3.0,这里还包含着2.7.7。原因很简单,Antlr 3.0是基于之前版本开发的。
     
    然后把语法文件的名称作为参数传给语法编译器:
    java org.antlr.Tool Caculator.g

    在确保命令正确执行,且语法文件编写正确的情况下,Antlr为我们生成了几个文件:
    * CalculatorLexer.java
    * CalculatorParser.java
    * Calculator__.g
    * Calculator.tokens

    正如前面说过的,Antlr替我们料理好了词法分析和语法分析,其中, CalculatorLexer.java就是我们的词法分析器,而CalculatorParser.java中包含了语法分析器,它们是我们这里关注的主要对象。至于另外两个文件,Calculator__.g是一个自动生成的lexer语法文件,而Calculator.tokens则是列出了我们定义的token,我们并不会在程序中和它们直接打交道,所以,让我们暂时忽略它们的存在。

    运行程序
    生成代码之后,就是如何使用这些生成的代码。下面就是我们的主程序,它负责将词法分析部分(Lexer)和语法分析部分(Parser)驱动起来:
    public class Main {
        public static void main(String[] args) throws Exception {
            ANTLRInputStream input = new ANTLRInputStream(System.in);
            CalculatorLexer lexer = new CalculatorLexer(input);
            CommonTokenStream tokens = new CommonTokenStream(lexer);
            CalculatorParser parser = new CalculatorParser(tokens);
     
            try {
                parser.expr();
            } catch (RecognitionException e) {
                System.err.println(e);
            }
        }
    }
    从这段代码中可以清晰的看出,Lexer的输入是一个字符流,而Parser则需要Lexer的协助来完成工作,用Lexer构造出的Token流作为其输入。一切就绪,我们让它跑起来,尝试输入一些内容,看它是否能够通过验证。事实证明,我们的程序可以轻松识别“1+1”,而对于不合法的东西,它会产生一些抱怨。

    计算结果

    还记得我们的目标吗?我们的目标是计算出“1+1”的结果,而现在这个程序刚刚能够识别出“1+1”,我们还要继续前进。

    熟悉XML解析的朋友对于SAX和DOM一定不陌生,二者之间差别在于SAX属于边解析边处理,而DOM则是把所有的内容解析全部解析完(在内存中形成一棵树)之后,再统一处理。Antlr也有与之类似的两种处理方式,SAX的朋友是在Parser中加入处理动作(Action)处理将随着解析的过程进行,而DOM的伙伴则是解析形成一棵抽象语法树(Abstract Syntax Tree,简称AST),再对树进行处理。

    加入Action
    先来看看SAX的朋友。因为处理动作是加在expr上,其它部分保持不变。下面是修改过的expr:
    expr returns [int value=0]
            : a = INT PLUS b = INT
              {
                  int aValue = Integer.parseInt($a.text);
                  int bValue = Integer.parseInt($b.text);
                  value = aValue + bValue;
              }
            ;


    看到常用的字符串转整数的方法,熟悉Java的朋友想必已经露出了会心的微笑。没错,这里定义Action的方法采用就是Java语言,因为我们生成的目标是Java,如果你期待另辟蹊径,那这里的代码就要用你的目标语言来编写。

    仔细看一下不难发现,action完全是在原有的规则基础上改造的来。首先用returns定义了这个Action的返回值,它将返回value这个变量的值,其类型是int,我们还顺便定义这个变量的初始值——“0”。接下来,我们用a、b拿住了两个token的值,我们前面说过,在检查的过程中,我们并不关心每个token具体的内容,只要token的类型满足需要即可,但在action中,我们要计算结果,那必须使用token具体的内容,所以,我们用变量拿住了token。这里我们用$a.text获取这个token的具体值。剩下的动作就很简单了,把文本转换为数字,进行加法运算。
     
    再给旧版本一些忆苦思甜的时间,Antlr 2.x写法有一些细微差别。首先,Antlr 2.x用“a : INT”将一个Token赋给一个变量,而这里用的是“a = INT”。再有,我们用$a.text获取token的值,而在Antlr 2.x中,我们会用a.getText(),当然,在Antlr 3.0中,我们也可以这么写,不过,a.getText()这种写法显然太过于Java。
     
    是不是对我们的计算器有些迫不及待了,那就挥动工具生成全新的Parser。不过,在新的体验之前,我们还要稍微修改一下主程序,以体现我们的劳动成果。
    public class Main {
        public static void main(String[] args) throws Exception {
            ANTLRInputStream input = new ANTLRInputStream(System.in);
            CalculatorLexer lexer = new CalculatorLexer(input);
            CommonTokenStream tokens = new CommonTokenStream(lexer);
            CalculatorParser parser = new CalculatorParser(tokens);
     
            try {
                System.out.println(parser.expr());
            } catch (RecognitionException e) {
                System.err.println(e);
            }
        }
    }

    好了,让这个计算器来为我们求证“1+1”吧!

    AST
    SAX的朋友表演完了,下面就是DOM的伙伴登场了。

    建立AST的方式很简单,只要我们加上一个AST的选项即可,不过,同DOM的处理方式一样,前面的解析只是为了后面的处理做准备,所以,这里我们要修改一下之前编写的语法文件,下面就是我们的新语法文件:
    grammar Calculator;
     
    options {
        output=AST;
        ASTLabelType=CommonTree;
    }
     
    expr : INT PLUS^ INT;
     
    PLUS  : '+' ;
    INT   : ('0'..'9')+ ;

    稍微有些不同的地方是,我们加上了两个选项,告诉Antlr,我们要输出的是一个普通的AST。再有,在PLUS上面的“^”,这个符号用来告诉Antlr创建一个节点,以此作为当前树的根节点。

    你也许会有些疑问,怎么没看到计算的加法的地方?正如前面所说,这里只描述了语法结构,这是为了后面的处理在做准备,那么后面如何处理呢?别急,大戏要压轴。下面登场的是Antlr整个故事最后一个大角,TreeParser:
    tree grammar CalculatorTreeParser;
     
    options {
      tokenVocab=Calculator;
      ASTLabelType=CommonTree;
    }
     
    expr returns [int value]
        : ^(PLUS a=INT b=INT)  
          {
              int aValue = Integer.parseInt($a.text);
              int bValue = Integer.parseInt($b.text);
              value = aValue + bValue;
          }
        ;
     
    Antlr 可以接受三种类型语法规范——Lexer、Parser和Tree-Parser。如果说Lexer处理的是字符流、Parser处理的是Token流,那么TreeParser处理的则是AST。前面Action的处理方式中,我们看到,规则同处理放到了一起,显得有些混乱,而采用了AST的处理方式,规则同处理就完全分离了:在Parser中定义规则,在TreeParser中定义处理,如果我们需要对同样的语法进行另外的处理,我们只要重新 TreeParser,而不必在规则与Action混合的世界中苦苦挣扎。

    有了前面Action的基础,再来看TreeParser也就简单许多,需要说明的就是:
    ^(PLUS a=INT b=INT)
    除去变量的说明,简化一下这段代码
    ^(PLUS INT INT)
    第一个符号PLUS对应了表示着根节点,两个INT则分别代表了两棵子树,这样刚好与前面生成的语法树对应上。

    再来看看重新打造的主程序:
    public class Main {
        public static void main(String[] args) throws Exception {
            ANTLRInputStream input = new ANTLRInputStream(System.in);
            CalculatorLexer lexer = new CalculatorLexer(input);
            CommonTokenStream tokens = new CommonTokenStream(lexer);
            CalculatorParser parser = new CalculatorParser(tokens);
     
            try {
                CommonTree t = (CommonTree)parser.expr().getTree();
                CommonTreeNodeStream nodes = new CommonTreeNodeStream(t);
                CalculatorTreeParser walker = new CalculatorTreeParser(nodes);
                System.out.println(walker.expr());
            } catch (RecognitionException e) {
                System.err.println(e);
            }
        }
    }

    结语
    体验过最简单的Antlr程序,我们就有了让它更为丰富的基础,接下来便是自己动手的时间了。

    参考资料
    《ANTLR入门》 2004年第三期《程序员》
    《ANTLR Reference Manual》
    《The Definitive ANTLR Reference》

  • 写程序的时候,经常遇到这样的代码。处理之前,先检验一下一些参数,之后再进行处理。下面是一段这样的Java程序。

    public class Service {
      public void approve() {
        Target[] targets = getTargets();
        if (targets.length == 0) {
          reportNoTarget();
          return;
        }

        actualApprove(targets);
      }

      public void reject() {
        Target[] targets = getTargets();
        if (targets.length == 0) {
          reportNoTarget();
          return;
        }

        actualReject(targets);
      }

      ...
    }

    这段代码不够漂亮,这是显然的,因为其中存在重复代码,参数检验的部分是完全相同的,这两个函数的真正的差别只是在检验后的处理。但是在

    Java中,想简单的解决这种重复并不是一件容易的事情。我脑子里想到的方案包括用异常和接口,不过,这两种方法都不够优雅,其主要原因还是因

    为Java的函数并不容易操作。如果你有什么好的解决方案,不妨告诉我。

    如果我们用的是C#,这段代码可以这样来写。

    public class Service
    {
      private delegate void ActualOperationDelegate(Target[] targets);

      public void Approve()
      {
        OperateOnTarget(ActualApprove);
      }

      public virtual void RejectTrades()
      {
        OperateOnTarget(ActualReject);
      }

      private void OperateOnTarget(ActualOperationDelegate operation)
      {
        Target[] targets = GetTargets();
        if (targets.length == 0) {
          ReportNoTarget();
          return;
        }

        operation(trades);
      }

      ...
    }

    这段C#代码用delegate轻松的解决了重复代码的问题。

    如果用Ruby,我们可以让程序更为优雅。
    class Service
      def approve
        operation_on_target { |targets| actual_approve targets }
      end

      def reject
        operation_on_target { |targets| actual_reject targets }
      end

      def operation_on_target
        targets = get_target
        if (targets.length == 0)
          report_no_target
        end

        yield targets
      end

      ...
    end

    之前写过一篇关于程序设计语言表达的blog,这篇算是它的一个例子吧!