Lexer implementation started.

Ivan Nikulin · Ivan Nikulin · commit 8ef28cd445b1 · 2013-03-16T00:25:49.000+04:00
diff --git a/.gitignore b/.gitignore
@@ -0,0 +1 @@
+.idea
diff --git a/lib/err.js b/lib/err.js
@@ -0,0 +1 @@
+exports.UNEXPECTED_NULL_CHARACTER = 'UNEXPECTED_NULL_CHARACTER';
diff --git a/lib/lexer.js b/lib/lexer.js
@@ -0,0 +1,160 @@
+var err = require('./err');
+
+//Const
+var EOF = null;
+
+//States
+var DATA_STATE = 'DATA_STATE',
+    CHARACTER_REFERENCE_IN_DATA_STATE = 'CHARACTER_REFERENCE_IN_DATA_STATE',
+    RCDATA_STATE = 'RCDATA_STATE',
+    CHARACTER_REFERENCE_IN_RCDATA_STATE = 'CHARACTER_REFERENCE_IN_RCDATA_STATE',
+    RAWTEXT_STATE = 'RAWTEXT_STATE',
+    SCRIPT_DATA_STATE = 'SCRIPT_DATA_STATE',
+    PLAINTEXT_STATE = 'PLAINTEXT_STATE',
+    TAG_OPEN_STATE = 'TAG_OPEN_STATE',
+    END_TAG_OPEN_STATE = 'END_TAG_OPEN_STATE',
+    TAG_NAME_STATE = 'TAG_NAME_STATE',
+    RCDATA_LESS_THAN_SIGN_STATE = 'RCDATA_LESS_THAN_SIGN_STATE',
+    RCDATA_END_TAG_OPEN_STATE = 'RCDATA_END_TAG_OPEN_STATE',
+    RCDATA_END_TAG_NAME_STATE = 'RCDATA_END_TAG_NAME_STATE',
+    RAWTEXT_LESS_THAN_SIGN_STATE = 'RAWTEXT_LESS_THAN_SIGN_STATE',
+    RAWTEXT_END_TAG_OPEN_STATE = 'RAWTEXT_END_TAG_OPEN_STATE',
+    RAWTEXT_END_TAG_NAME_STATE = 'RAWTEXT_END_TAG_NAME_STATE',
+    SCRIPT_DATA_LESS_THAN_SIGN_STATE = 'SCRIPT_DATA_LESS_THAN_SIGN_STATE',
+    SCRIPT_DATA_END_TAG_OPEN_STATE = 'SCRIPT_DATA_END_TAG_OPEN_STATE',
+    SCRIPT_DATA_END_TAG_NAME_STATE = 'SCRIPT_DATA_END_TAG_NAME_STATE',
+    SCRIPT_DATA_ESCAPE_START_STATE = 'SCRIPT_DATA_ESCAPE_START_STATE',
+    SCRIPT_DATA_ESCAPE_START_DASH_STATE = 'SCRIPT_DATA_ESCAPE_START_DASH_STATE',
+    SCRIPT_DATA_ESCAPED_STATE = 'SCRIPT_DATA_ESCAPED_STATE',
+    SCRIPT_DATA_ESCAPED_DASH_STATE = 'SCRIPT_DATA_ESCAPED_DASH_STATE',
+    SCRIPT_DATA_ESCAPED_DASH_DASH_STATE = 'SCRIPT_DATA_ESCAPED_DASH_DASH_STATE',
+    SCRIPT_DATA_ESCAPED_LESS_THAN_SIGN_STATE = 'SCRIPT_DATA_ESCAPED_LESS_THAN_SIGN_STATE',
+    SCRIPT_DATA_ESCAPED_END_TAG_OPEN_STATE = 'SCRIPT_DATA_ESCAPED_END_TAG_OPEN_STATE',
+    SCRIPT_DATA_ESCAPED_END_TAG_NAME_STATE = 'SCRIPT_DATA_ESCAPED_END_TAG_NAME_STATE',
+    SCRIPT_DATA_DOUBLE_ESCAPE_START_STATE = 'SCRIPT_DATA_DOUBLE_ESCAPE_START_STATE',
+    SCRIPT_DATA_DOUBLE_ESCAPED_STATE = 'SCRIPT_DATA_DOUBLE_ESCAPED_STATE',
+    SCRIPT_DATA_DOUBLE_ESCAPED_DASH_STATE = 'SCRIPT_DATA_DOUBLE_ESCAPED_DASH_STATE',
+    SCRIPT_DATA_DOUBLE_ESCAPED_DASH_DASH_STATE = 'SCRIPT_DATA_DOUBLE_ESCAPED_DASH_DASH_STATE',
+    SCRIPT_DATA_DOUBLE_ESCAPED_LESS_THAN_SIGN_STATE = 'SCRIPT_DATA_DOUBLE_ESCAPED_LESS_THAN_SIGN_STATE',
+    SCRIPT_DATA_DOUBLE_ESCAPE_END_STATE = 'SCRIPT_DATA_DOUBLE_ESCAPE_END_STATE',
+    BEFORE_ATTRIBUTE_NAME_STATE = 'BEFORE_ATTRIBUTE_NAME_STATE',
+    ATTRIBUTE_NAME_STATE = 'ATTRIBUTE_NAME_STATE',
+    AFTER_ATTRIBUTE_NAME_STATE = 'AFTER_ATTRIBUTE_NAME_STATE',
+    BEFORE_ATTRIBUTE_VALUE_STATE = 'BEFORE_ATTRIBUTE_VALUE_STATE',
+    ATTRIBUTE_VALUE_DOUBLE_QUOTED_STATE = 'ATTRIBUTE_VALUE_DOUBLE_QUOTED_STATE',
+    ATTRIBUTE_VALUE_SINGLE_QUOTED_STATE = 'ATTRIBUTE_VALUE_SINGLE_QUOTED_STATE',
+    ATTRIBUTE_VALUE_UNQUOTED_STATE = 'ATTRIBUTE_VALUE_UNQUOTED_STATE',
+    CHARACTER_REFERENCE_IN_ATTRIBUTE_VALUES_STATE = 'CHARACTER_REFERENCE_IN_ATTRIBUTE_VALUES_STATE',
+    AFTER_ATTRIBUTE_VALUE_QUOTED_STATE = 'AFTER_ATTRIBUTE_VALUE_QUOTED_STATE',
+    SELF_CLOSING_START_TAG_STATE = 'SELF_CLOSING_START_TAG_STATE',
+    BOGUS_COMMENT_STATE = 'BOGUS_COMMENT_STATE',
+    MARKUP_DECLARATION_OPEN_STATE = 'MARKUP_DECLARATION_OPEN_STATE',
+    COMMENT_START_STATE = 'COMMENT_START_STATE',
+    COMMENT_START_DASH_STATE = 'COMMENT_START_DASH_STATE',
+    COMMENT_STATE = 'COMMENT_STATE',
+    COMMENT_END_DASH_STATE = 'COMMENT_END_DASH_STATE',
+    COMMENT_END_STATE = 'COMMENT_END_STATE',
+    COMMENT_END_BANG_STATE = 'COMMENT_END_BANG_STATE',
+    DOCTYPE_STATE = 'DOCTYPE_STATE',
+    BEFORE_DOCTYPE_NAME_STATE = 'BEFORE_DOCTYPE_NAME_STATE',
+    DOCTYPE_NAME_STATE = 'DOCTYPE_NAME_STATE',
+    AFTER_DOCTYPE_NAME_STATE = 'AFTER_DOCTYPE_NAME_STATE',
+    AFTER_DOCTYPE_PUBLIC_KEYWORD_STATE = 'AFTER_DOCTYPE_PUBLIC_KEYWORD_STATE',
+    BEFORE_DOCTYPE_PUBLIC_IDENTIFIER_STATE = 'BEFORE_DOCTYPE_PUBLIC_IDENTIFIER_STATE',
+    DOCTYPE_PUBLIC_IDENTIFIER_DOUBLE_QUOTED_STATE = 'DOCTYPE_PUBLIC_IDENTIFIER_DOUBLE_QUOTED_STATE',
+    DOCTYPE_PUBLIC_IDENTIFIER_SINGLE_QUOTED_STATE = 'DOCTYPE_PUBLIC_IDENTIFIER_SINGLE_QUOTED_STATE',
+    AFTER_DOCTYPE_PUBLIC_IDENTIFIER_STATE = 'AFTER_DOCTYPE_PUBLIC_IDENTIFIER_STATE',
+    BETWEEN_DOCTYPE_PUBLIC_AND_SYSTEM_IDENTIFIERS_STATE = 'BETWEEN_DOCTYPE_PUBLIC_AND_SYSTEM_IDENTIFIERS_STATE',
+    AFTER_DOCTYPE_SYSTEM_KEYWORD_STATE = 'AFTER_DOCTYPE_SYSTEM_KEYWORD_STATE',
+    BEFORE_DOCTYPE_SYSTEM_IDENTIFIER_STATE = 'BEFORE_DOCTYPE_SYSTEM_IDENTIFIER_STATE',
+    DOCTYPE_SYSTEM_IDENTIFIER_DOUBLE_QUOTED_STATE = 'DOCTYPE_SYSTEM_IDENTIFIER_DOUBLE_QUOTED_STATE',
+    DOCTYPE_SYSTEM_IDENTIFIER_SINGLE_QUOTED_STATE = 'DOCTYPE_SYSTEM_IDENTIFIER_SINGLE_QUOTED_STATE',
+    AFTER_DOCTYPE_SYSTEM_IDENTIFIER_STATE = 'AFTER_DOCTYPE_SYSTEM_IDENTIFIER_STATE',
+    BOGUS_DOCTYPE_STATE = 'BOGUS_DOCTYPE_STATE',
+    CDATA_SECTION_STATE = 'CDATA_SECTION_STATE';
+
+var Lexer = exports.Lexer = function (html) {
+    //Input data
+    this.html = html;
+
+    //Positioning
+    this.pos = 0;
+    this.line = 1;
+    this.col = 1;
+    this.lineLengths = [];
+
+    //Tokenization
+    this.state = DATA_STATE;
+    this.tokenQueue = [];
+    this.errs = [];
+};
+
+//Token types
+Lexer.CHARACTER_TOKEN = 'CHARACTER_TOKEN';
+Lexer.EOF_TOKEN = 'EOF_TOKEN';
+
+//Proto
+Lexer.prototype.getToken = function () {
+    var ch = EOF,
+        prevCh = this.html[this.pos - 1];
+
+    //NOTE: iterate through states until we don't get at least one token in the queue
+    while (!this.tokenQueue.length) {
+        if (this.pos < this.html.length)
+            ch = this.html[this.pos];
+
+        //NOTE: treat CR+LF as single line break
+        if ((ch === '\n' && prevCh !== '\r') || ch === '\r' || ch === '\v' || ch === '\f') {
+            this.lineLengths.push(this.col);
+            this.line++;
+            this.col = 1;
+        }
+
+        _[this.state].call(this, ch);
+
+        prevCh = ch;
+        this.pos++;
+    }
+
+    return this.tokenQueue.shift();
+};
+
+Lexer.prototype._reconsume = function () {
+    this.pos--;
+    this.col--;
+
+    if (!this.col) {
+        this.line--;
+        this.col = this.lineLengths[this.line];
+    }
+};
+
+Lexer.prototype._err = function (code) {
+    this.errs.push({code: code, line: this.line, col: this.col});
+};
+
+Lexer.prototype._emitCharacterToken = function (ch) {
+    this.tokenQueue.push({type: Lexer.CHARACTER_TOKEN, ch: ch});
+};
+
+Lexer.prototype._emitEOFToken = function () {
+    this.tokenQueue.push({type: Lexer.EOF_TOKEN});
+};
+
+//State processors
+var _ = {};
+
+//8.2.4.1 Data state
+_[DATA_STATE] = function (ch) {
+    if (ch === '&')
+        this.state = CHARACTER_REFERENCE_IN_DATA_STATE;
+    else if (ch === '<')
+        this.state = TAG_OPEN_STATE;
+    else if (ch === '\u0000') {
+        this._err(err.UNEXPECTED_NULL_CHARACTER);
+        this._emitCharacterToken(ch);
+    } else if (ch === EOF)
+        this._emitEOFToken();
+    else
+        this._emitCharacterToken(ch);
+};

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1 @@`
	`1`	`+exports.UNEXPECTED_NULL_CHARACTER = 'UNEXPECTED_NULL_CHARACTER';`