A Mutable Grammar for Raku

Sun Jul 11, 2021

## A Mutable Grammar For Raku

Rules #

Rules 就像 perl5的 regexes, 并且更好。它们像子例程和方法那样申明, 并且还能调用其它 rules

下面是一个解析 Raku 基本变量名的例子：

grammar Raku {  
    # token alpha 是一个预定义好的 rule
    token identifier {           
       <alpha> \w+     
    }    
    
   # 匹配一个全限定名标识符
    # [ ... ]  是非捕获组
    token name {        
        <identifier>         
        [ '::' <identifier> ] *     
    }
     # .. | .. 是分支. 最长匹配胜出.
    token sigil {        
       '$' | '@' | '&' | '%' | '::'    
    }    
    # <rule> 调用命名 rule, 隐式地锚定在当前位置
    token variable {      
        <sigil> <name>  
    }

}

Grammars #

Grammar 跟类很像, 含有 rules 而不是 methods。Grammars 是 rules 的集合并支持继承。

如果要求 Raku 中变量的名字必须大写：

# 我们继承原来那个 grammar
grammar PERL6 is Raku {    
    # ... 重写我们想改变的解析规则
    token identifier {        
   # Raku 中的字符类现在写作 <[ ... ]>         
       <[A..Z]> <[A..Z0..9_]>*   }
}

现在我们只需告诉编译器使用 PERL6 这个 grammar 而非默认 grammar 。还记得类中的方法调用顺序吗？先从本类开始, 沿着继承树从下而上到父类。Grammar 与之类似。

然而有一个缺陷。假设你想更改一个符号, 例如把 $ 更改为 ¢（因为你没有足够的 $$$ 来买下所有的变量, 不是吗？）看起来很简单：

grammar LowBudgetRaku is Raku {
    # token 就像类中的方法一样, 继承后可以修改
    token sigil { '¢' | '@' | '&' | '%' | '::' }
}

新的 grammar 解析工作的很好, 但是那之后的所有东西肯定会失败。当编译器在解析树里看见 sigil 匹配时, 它得找出到底是哪一个 - 这意味着它必须要检查匹配文本的字面值, 而它并不知道怎么处理 ¢。

所以, 我们需要更多的技能…

Proto Regexes #

proto regex 是一套有着相同名字的 regexes/rules, 当前的 Raku grammar 使用这个结构：

proto token sigil {*}
# ...
token sigil:sym<$>  { <sym> }
token sigil:sym<@>  { <sym> }
token sigil:sym<%>  { <sym> }
token sigil:sym<&>  { <sym> }
token sigil:sym<::> { <sym> }

这创建了一个叫做 sigil 的组(proto), 组里面有使用 sym 标识符参数化的 5 个规则(rules)（它们属于这个组因为它们跟组的名字相同）。第一个把 sym 设置为 $ 然后匹配这个符号(使用<sym>). 第二个匹配 @ 等等。现在如果调用规则 <sigil>, 你会得到一个含有上述所有 5 个规则的列表, 列表元素之间是或的关系。所以它依然跟正则 '$' | '@' | '%' | '&' | '::' 匹配相同的东西, 但是更容易扩展。

如果你想添加一个新的符号, Grammar 中唯一要修改的就是添加另外一个 sigil 规则：

grammar SigilRichP6 is Raku {
    token sigil:sym<ħ> { <sym> } # 物理学家会很爱你
}

回到原来那个例子, 你可以重写已存在的规则：

grammar LowBudgetRaku is Raku {
    token sigil:sym<$> { '¢' }
}

现在这个 grammar 为标量使用了一个不同的符号, 但是它和原来的 grammar 有着相同的规则和相同的参数(sigil:sym<$>), 编译器仍然知道怎么处理它。