Fixed: Lexer and added more tests (#9)

noob77777 · web-flow · commit 7a5dbcf1222b · 2021-04-25T22:15:56.000+05:30
* Fixed: Lexer and added more tests

* Update: test files
diff --git a/src/grammar/grammar.cpp b/src/grammar/grammar.cpp
@@ -185,6 +185,7 @@ bool Parser::Parse() {
     }
 
     // sanity checks
+    // check for undefined tokens and duplicates
     if (curr_parse_state != BASIC) {
       error_ = "grammar parsing error: block is incomplete '%' expected";
       return false;
@@ -198,7 +199,7 @@ bool Parser::Parse() {
     }
 
     if (terminals.size() != terminals_.size()) {
-      error_ = "grammar parsing error: inconsistent terminals";
+      error_ = "grammar parsing error: inconsistent or duplicate terminals";
       return false;
     }
 
@@ -211,7 +212,7 @@ bool Parser::Parse() {
     }
 
     if (non_terminals.size() != non_terminals_.size()) {
-      error_ = "grammar parsing error: inconsistent non_terminals";
+      error_ = "grammar parsing error: inconsistent or duplicate non_terminals";
       return false;
     }
 
diff --git a/src/include/lexer/lexer.h b/src/include/lexer/lexer.h
@@ -1,13 +1,11 @@
 #ifndef JUCC_LEXER_LEXER_H
 #define JUCC_LEXER_LEXER_H
 
-#include <cctype>
-#include <cstdio>
 #include <fstream>
-#include <iostream>
 #include <string>
 
 namespace jucc {
+namespace lexer {
 
 enum Token {
   TOK_EOF = -1,
@@ -86,6 +84,7 @@ class Lexer {
   int GetToken(std::ifstream &is);
 };  // class Lexer
 
+}  // namespace lexer
 }  // namespace jucc
 
 #endif
diff --git a/src/lexer/lexer.cpp b/src/lexer/lexer.cpp
@@ -1,6 +1,6 @@
 #include "lexer/lexer.h"
 
-namespace jucc {
+namespace jucc::lexer {
 
 int Lexer::GetToken(std::ifstream &is) {
   static char last_char = ' ';
@@ -9,6 +9,11 @@ int Lexer::GetToken(std::ifstream &is) {
     is.get(last_char);
   }
 
+  // return TOK_EOF if end of file is reached.
+  if (is.eof()) {
+    return TOK_EOF;
+  }
+
   // check for identifier and literal tokens
   // RE : [a-zA-Z][0-9a-zA-Z]
   if (isalpha(last_char) != 0) {
@@ -190,4 +195,4 @@ int Lexer::GetToken(std::ifstream &is) {
   error_string_ = "Unexpected Token\n";
   return TOK_ERROR;
 }
-}  // namespace jucc
+}  // namespace jucc::lexer
diff --git a/src/main/main.cpp b/src/main/main.cpp
@@ -20,7 +20,6 @@
  *-------------------------------------------------------------------------
  */
 
-#include "lexer/lexer.h"
 #include "main/jucc.h"
 using jucc::Hello;
 
diff --git a/test/grammar/grammar_test.cpp b/test/grammar/grammar_test.cpp
@@ -137,13 +137,13 @@ TEST(grammar, parser12) {
 TEST(grammar, parser13) {
   Parser parser = Parser("../test/grammar/grammar_test_13.g");
   ASSERT_EQ(false, parser.Parse());
-  ASSERT_EQ("grammar parsing error: inconsistent terminals", parser.GetError());
+  ASSERT_EQ("grammar parsing error: inconsistent or duplicate terminals", parser.GetError());
 }
 
 TEST(grammar, parser14) {
   Parser parser = Parser("../test/grammar/grammar_test_14.g");
   ASSERT_EQ(false, parser.Parse());
-  ASSERT_EQ("grammar parsing error: inconsistent non_terminals", parser.GetError());
+  ASSERT_EQ("grammar parsing error: inconsistent or duplicate non_terminals", parser.GetError());
 }
 
 TEST(grammar, parser15) {
diff --git a/test/lexer/comments.txt b/test/lexer/comments.txt
@@ -9,4 +9,4 @@ int main(){
     // Just another comment 
     // Basically a hello world program, Peace!
     cout << "Hello";
-}
+}
diff --git a/test/lexer/input.txt b/test/lexer/input.txt
@@ -1,6 +1,6 @@
 
-
-
-int main(){
+int main() {
+    int x, y = 5;
+    float f = 5.8;
     cout << "Hello";
-}
+}
diff --git a/test/lexer/input_err1.txt b/test/lexer/input_err1.txt
@@ -1,9 +1,9 @@
 
 
-
-
 int main(){
     int a = 5;
-    int b = 5.6d;
-    cout << b;
-}
+    int b= 5.6d;
+    cin >>b;
+    if (5 <4.2) {
+        cout << 4; }
+}
diff --git a/test/lexer/input_err2.txt b/test/lexer/input_err2.txt
@@ -0,0 +1,3 @@
+
+int main() { int x == 'bruh' ; }
+// bruh
diff --git a/test/lexer/lexer_test.cpp b/test/lexer/lexer_test.cpp
@@ -2,7 +2,7 @@
 
 #include "gtest/gtest.h"
 
-using jucc::Lexer;
+using jucc::lexer::Lexer;
 
 TEST(lexer, lexer1) {
   std::string filename("../test/lexer/input.txt");
@@ -12,26 +12,51 @@ TEST(lexer, lexer1) {
   int token;
 
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_INT, token);
+  ASSERT_EQ(jucc::lexer::TOK_INT, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_IDENTIFIER, token);
+  ASSERT_EQ(jucc::lexer::TOK_IDENTIFIER, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_PAREN_OPEN, token);
+  ASSERT_EQ(jucc::lexer::TOK_PAREN_OPEN, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_PAREN_CLOSE, token);
+  ASSERT_EQ(jucc::lexer::TOK_PAREN_CLOSE, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_CURLY_OPEN, token);
+  ASSERT_EQ(jucc::lexer::TOK_CURLY_OPEN, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_COUT, token);
+  ASSERT_EQ(jucc::lexer::TOK_INT, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_LEFT_SHIFT, token);
+  ASSERT_EQ(jucc::lexer::TOK_IDENTIFIER, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_LITERAL, token);
+  ASSERT_EQ(jucc::lexer::TOK_COMMA, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_SEMICOLON, token);
+  ASSERT_EQ(jucc::lexer::TOK_IDENTIFIER, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_CURLY_CLOSE, token);
-
+  ASSERT_EQ(jucc::lexer::TOK_ASSIGNMENT, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_DECIMAL, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_SEMICOLON, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_FLOAT, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_IDENTIFIER, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_ASSIGNMENT, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_FRACTIONAL, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_SEMICOLON, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_COUT, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_LEFT_SHIFT, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_LITERAL, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_SEMICOLON, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_CURLY_CLOSE, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_EOF, token);
   is.close();
 }
 
@@ -42,45 +67,71 @@ TEST(lexer, lexer2) {
   std::ifstream is(filename);
   int token;
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_INT, token);
+  ASSERT_EQ(jucc::lexer::TOK_INT, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_IDENTIFIER, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_PAREN_OPEN, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_PAREN_CLOSE, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_CURLY_OPEN, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_INT, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_IDENTIFIER, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_ASSIGNMENT, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_DECIMAL, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_SEMICOLON, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_IDENTIFIER, token);
+  ASSERT_EQ(jucc::lexer::TOK_INT, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_PAREN_OPEN, token);
+  ASSERT_EQ(jucc::lexer::TOK_IDENTIFIER, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_PAREN_CLOSE, token);
+  ASSERT_EQ(jucc::lexer::TOK_ASSIGNMENT, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_CURLY_OPEN, token);
+  ASSERT_EQ(jucc::lexer::TOK_ERROR, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_INT, token);
+  ASSERT_EQ(jucc::lexer::TOK_SEMICOLON, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_IDENTIFIER, token);
+  ASSERT_EQ(jucc::lexer::TOK_CIN, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_ASSIGNMENT, token);
+  ASSERT_EQ(jucc::lexer::TOK_RIGHT_SHIFT, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_DECIMAL, token);
+  ASSERT_EQ(jucc::lexer::TOK_IDENTIFIER, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_SEMICOLON, token);
+  ASSERT_EQ(jucc::lexer::TOK_SEMICOLON, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_INT, token);
+  ASSERT_EQ(jucc::lexer::TOK_IF, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_IDENTIFIER, token);
+  ASSERT_EQ(jucc::lexer::TOK_PAREN_OPEN, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_ASSIGNMENT, token);
+  ASSERT_EQ(jucc::lexer::TOK_DECIMAL, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_ERROR, token);
+  ASSERT_EQ(jucc::lexer::TOK_LESS_THAN, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_SEMICOLON, token);
+  ASSERT_EQ(jucc::lexer::TOK_FRACTIONAL, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_COUT, token);
+  ASSERT_EQ(jucc::lexer::TOK_PAREN_CLOSE, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_LEFT_SHIFT, token);
+  ASSERT_EQ(jucc::lexer::TOK_CURLY_OPEN, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_IDENTIFIER, token);
+  ASSERT_EQ(jucc::lexer::TOK_COUT, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_SEMICOLON, token);
+  ASSERT_EQ(jucc::lexer::TOK_LEFT_SHIFT, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_CURLY_CLOSE, token);
+  ASSERT_EQ(jucc::lexer::TOK_DECIMAL, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_SEMICOLON, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_CURLY_CLOSE, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_CURLY_CLOSE, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_EOF, token);
   is.close();
 }
 
@@ -91,32 +142,64 @@ TEST(lexer, lexer3) {
   std::ifstream is(filename);
   int token;
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_COMMENT, token);
+  ASSERT_EQ(jucc::lexer::TOK_COMMENT, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_COMMENT, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_INT, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_IDENTIFIER, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_PAREN_OPEN, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_PAREN_CLOSE, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_CURLY_OPEN, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_COMMENT, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_COMMENT, token);
+  ASSERT_EQ(jucc::lexer::TOK_COMMENT, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_INT, token);
+  ASSERT_EQ(jucc::lexer::TOK_COUT, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_IDENTIFIER, token);
+  ASSERT_EQ(jucc::lexer::TOK_LEFT_SHIFT, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_PAREN_OPEN, token);
+  ASSERT_EQ(jucc::lexer::TOK_LITERAL, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_PAREN_CLOSE, token);
+  ASSERT_EQ(jucc::lexer::TOK_SEMICOLON, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_CURLY_OPEN, token);
+  ASSERT_EQ(jucc::lexer::TOK_CURLY_CLOSE, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_COMMENT, token);
+  ASSERT_EQ(jucc::lexer::TOK_EOF, token);
+  is.close();
+}
+
+TEST(lexer, lexer4) {
+  std::string filename("../test/lexer/input_err2.txt");
+  Lexer lex = Lexer();
+
+  std::ifstream is(filename);
+  int token;
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_INT, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_IDENTIFIER, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_COMMENT, token);
+  ASSERT_EQ(jucc::lexer::TOK_PAREN_OPEN, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_COUT, token);
+  ASSERT_EQ(jucc::lexer::TOK_PAREN_CLOSE, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_LEFT_SHIFT, token);
+  ASSERT_EQ(jucc::lexer::TOK_CURLY_OPEN, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_LITERAL, token);
+  ASSERT_EQ(jucc::lexer::TOK_INT, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_SEMICOLON, token);
+  ASSERT_EQ(jucc::lexer::TOK_IDENTIFIER, token);
   token = lex.GetToken(is);
-  ASSERT_EQ(jucc::TOK_CURLY_CLOSE, token);
+  ASSERT_EQ(jucc::lexer::TOK_EQUAL_TO, token);
+  token = lex.GetToken(is);
+  ASSERT_EQ(jucc::lexer::TOK_ERROR, token);
+
+  // UNEXPECTED BEHAVIOR AFTER THIS
+  // TOKENS received -2 -100 -2 -1
   is.close();
 }

Original file line number	Diff line number	Diff line change
`@@ -185,6 +185,7 @@ bool Parser::Parse() {`
`185`	`185`	`}`
`186`	`186`
`187`	`187`	`// sanity checks`
	`188`	`+ // check for undefined tokens and duplicates`
`188`	`189`	`if (curr_parse_state != BASIC) {`
`189`	`190`	`error_ = "grammar parsing error: block is incomplete '%' expected";`
`190`	`191`	`return false;`
`@@ -198,7 +199,7 @@ bool Parser::Parse() {`
`198`	`199`	`}`
`199`	`200`
`200`	`201`	`if (terminals.size() != terminals_.size()) {`
`201`		`- error_ = "grammar parsing error: inconsistent terminals";`
	`202`	`+ error_ = "grammar parsing error: inconsistent or duplicate terminals";`
`202`	`203`	`return false;`
`203`	`204`	`}`
`204`	`205`
`@@ -211,7 +212,7 @@ bool Parser::Parse() {`
`211`	`212`	`}`
`212`	`213`
`213`	`214`	`if (non_terminals.size() != non_terminals_.size()) {`
`214`		`- error_ = "grammar parsing error: inconsistent non_terminals";`
	`215`	`+ error_ = "grammar parsing error: inconsistent or duplicate non_terminals";`
`215`	`216`	`return false;`
`216`	`217`	`}`
`217`	`218`
Original file line number	Diff line number	Diff line change
`@@ -137,13 +137,13 @@ TEST(grammar, parser12) {`
`137`	`137`	`TEST(grammar, parser13) {`
`138`	`138`	`Parser parser = Parser("../test/grammar/grammar_test_13.g");`
`139`	`139`	`ASSERT_EQ(false, parser.Parse());`
`140`		`- ASSERT_EQ("grammar parsing error: inconsistent terminals", parser.GetError());`
	`140`	`+ ASSERT_EQ("grammar parsing error: inconsistent or duplicate terminals", parser.GetError());`
`141`	`141`	`}`
`142`	`142`
`143`	`143`	`TEST(grammar, parser14) {`
`144`	`144`	`Parser parser = Parser("../test/grammar/grammar_test_14.g");`
`145`	`145`	`ASSERT_EQ(false, parser.Parse());`
`146`		`- ASSERT_EQ("grammar parsing error: inconsistent non_terminals", parser.GetError());`
	`146`	`+ ASSERT_EQ("grammar parsing error: inconsistent or duplicate non_terminals", parser.GetError());`
`147`	`147`	`}`
`148`	`148`
`149`	`149`	`TEST(grammar, parser15) {`
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+`
	`2`	`+int main() { int x == 'bruh' ; }`
	`3`	`+// bruh`