Add Lexer class; Move LexerDFA to Lexer::DFA

2021-08-18 17:09:45 -04:00 · 2021-08-18 17:09:45 -04:00 · 9459883e74
commit 9459883e74
parent 28591907c1
6 changed files with 99 additions and 91 deletions
--- a/lib/imbecile.rb
+++ b/lib/imbecile.rb
@ -9,7 +9,8 @@ require_relative "imbecile/generator"
 require_relative "imbecile/grammar"
 require_relative "imbecile/grammar/rule"
 require_relative "imbecile/grammar/token"
-require_relative "imbecile/lexer_dfa"
+require_relative "imbecile/lexer"
+require_relative "imbecile/lexer/dfa"
 require_relative "imbecile/regex"
 require_relative "imbecile/regex/nfa"
 require_relative "imbecile/regex/unit"
--- a/lib/imbecile/generator.rb
+++ b/lib/imbecile/generator.rb
@ -25,7 +25,7 @@ module Imbecile
      unless rule_names["Start"]
        raise Error.new("Start rule not found")
      end
-      lexer_dfa = LexerDFA.new(@grammar.tokens)
+      lexer_dfa = Lexer::DFA.new(@grammar.tokens)
      classname = @grammar.classname || File.basename(output_file).sub(%r{[^a-zA-Z0-9].*}, "").capitalize
      erb = ERB.new(File.read(File.join(File.dirname(File.expand_path(__FILE__)), "../../assets/parser.d.erb")), nil, "<>")
      result = erb.result(binding.clone)
--- a/lib/imbecile/lexer.rb
+++ b/lib/imbecile/lexer.rb
@ -0,0 +1,5 @@
+module Imbecile
+  class Lexer
+
+  end
+end
--- a/lib/imbecile/lexer/dfa.rb
+++ b/lib/imbecile/lexer/dfa.rb
@ -0,0 +1,89 @@
+module Imbecile
+  class Lexer
+
+    class DFA < FA
+
+      def initialize(tokens)
+        super()
+        start_nfa = Regex::NFA.new
+        tokens.each do |token|
+          start_nfa.start_state.add_transition(nil, token.nfa.start_state)
+        end
+        @nfa_state_sets = {}
+        @states = []
+        @to_process = Set.new
+        nil_transition_states = start_nfa.start_state.nil_transition_states
+        register_nfa_state_set(nil_transition_states)
+        while @to_process.size > 0
+          state_set = @to_process.first
+          @to_process.delete(state_set)
+          process_nfa_state_set(state_set)
+        end
+        @start_state = @states[0]
+      end
+
+      private
+
+      def register_nfa_state_set(nfa_state_set)
+        unless @nfa_state_sets.include?(nfa_state_set)
+          state_id = @states.size
+          @nfa_state_sets[nfa_state_set] = state_id
+          @states << State.new
+          @to_process << nfa_state_set
+        end
+      end
+
+      def process_nfa_state_set(nfa_state_set)
+        state_id = @nfa_state_sets[nfa_state_set]
+        state = @states[state_id]
+        if state_id > 0
+          nfa_state_set.each do |nfa_state|
+            if nfa_state.accepts
+              if state.accepts
+                if nfa_state.accepts.id < state.accepts.id
+                  state.accepts = nfa_state.accepts
+                end
+              else
+                state.accepts = nfa_state.accepts
+              end
+            end
+          end
+        end
+        transitions = transitions_for(nfa_state_set)
+        while transitions.size > 0
+          subrange = CodePointRange.first_subrange(transitions.map(&:code_point_range))
+          dest_nfa_states = transitions.reduce(Set.new) do |result, transition|
+            if transition.code_point_range.include?(subrange)
+              result << transition.destination
+            end
+            result
+          end
+          dest_nfa_states = dest_nfa_states.reduce(Set.new) do |result, dest_nfa_state|
+            result + dest_nfa_state.nil_transition_states
+          end
+          register_nfa_state_set(dest_nfa_states)
+          dest_state = @states[@nfa_state_sets[dest_nfa_states]]
+          state.add_transition(subrange, dest_state)
+          transitions.delete_if do |transition|
+            transition.code_point_range.last <= subrange.last
+          end
+          transitions.map! do |transition|
+            if transition.code_point_range.first <= subrange.last
+              Regex::NFA::State::Transition.new(CodePointRange.new(subrange.last + 1, transition.code_point_range.last), transition.destination)
+            else
+              transition
+            end
+          end
+        end
+      end
+
+      def transitions_for(nfa_state_set)
+        nfa_state_set.reduce([]) do |result, state|
+          result + state.cp_transitions
+        end
+      end
+
+    end
+
+  end
+end
--- a/lib/imbecile/lexer_dfa.rb
+++ b/lib/imbecile/lexer_dfa.rb
@ -1,87 +0,0 @@
-module Imbecile
-
-  class LexerDFA < FA
-
-    def initialize(tokens)
-      super()
-      start_nfa = Regex::NFA.new
-      tokens.each do |token|
-        start_nfa.start_state.add_transition(nil, token.nfa.start_state)
-      end
-      @nfa_state_sets = {}
-      @states = []
-      @to_process = Set.new
-      nil_transition_states = start_nfa.start_state.nil_transition_states
-      register_nfa_state_set(nil_transition_states)
-      while @to_process.size > 0
-        state_set = @to_process.first
-        @to_process.delete(state_set)
-        process_nfa_state_set(state_set)
-      end
-      @start_state = @states[0]
-    end
-
-    private
-
-    def register_nfa_state_set(nfa_state_set)
-      unless @nfa_state_sets.include?(nfa_state_set)
-        state_id = @states.size
-        @nfa_state_sets[nfa_state_set] = state_id
-        @states << State.new
-        @to_process << nfa_state_set
-      end
-    end
-
-    def process_nfa_state_set(nfa_state_set)
-      state_id = @nfa_state_sets[nfa_state_set]
-      state = @states[state_id]
-      if state_id > 0
-        nfa_state_set.each do |nfa_state|
-          if nfa_state.accepts
-            if state.accepts
-              if nfa_state.accepts.id < state.accepts.id
-                state.accepts = nfa_state.accepts
-              end
-            else
-              state.accepts = nfa_state.accepts
-            end
-          end
-        end
-      end
-      transitions = transitions_for(nfa_state_set)
-      while transitions.size > 0
-        subrange = CodePointRange.first_subrange(transitions.map(&:code_point_range))
-        dest_nfa_states = transitions.reduce(Set.new) do |result, transition|
-          if transition.code_point_range.include?(subrange)
-            result << transition.destination
-          end
-          result
-        end
-        dest_nfa_states = dest_nfa_states.reduce(Set.new) do |result, dest_nfa_state|
-          result + dest_nfa_state.nil_transition_states
-        end
-        register_nfa_state_set(dest_nfa_states)
-        dest_state = @states[@nfa_state_sets[dest_nfa_states]]
-        state.add_transition(subrange, dest_state)
-        transitions.delete_if do |transition|
-          transition.code_point_range.last <= subrange.last
-        end
-        transitions.map! do |transition|
-          if transition.code_point_range.first <= subrange.last
-            Regex::NFA::State::Transition.new(CodePointRange.new(subrange.last + 1, transition.code_point_range.last), transition.destination)
-          else
-            transition
-          end
-        end
-      end
-    end
-
-    def transitions_for(nfa_state_set)
-      nfa_state_set.reduce([]) do |result, state|
-        result + state.cp_transitions
-      end
-    end
-
-  end
-
-end
--- a/spec/imbecile/lexer/dfa_spec.rb
+++ b/spec/imbecile/lexer/dfa_spec.rb
@ -51,12 +51,12 @@ end

 def run(grammar, input)
  g = Imbecile::Grammar.new(grammar)
-  token_dfa = Imbecile::LexerDFA.new(g.tokens)
+  token_dfa = Imbecile::Lexer::DFA.new(g.tokens)
  test_lexer = TestLexer.new(token_dfa)
  test_lexer.lex(input)
 end

-describe Imbecile::LexerDFA do
+describe Imbecile::Lexer::DFA do
  it "lexes a simple token" do
    expect(run(<<EOF, "foo")).to eq [["foo", "foo"]]
 token foo