Regex sprawdzanie poprawności wyrażenia regularnego [zamknięte]


17

Zbuduj wyrażenie regularne, które zaakceptuje ciąg wyrażenia regularnego jako dane wejściowe i sprawdź, czy jest poprawne. Zasadniczo wyrażenie regularne powinno być w stanie samo się zweryfikować. (Wszelkie nieprawidłowe wyrażenia regularne nie powinny być sprawdzane, więc nie można ich użyć .*;))

Twój smak musi być w pełni obsługiwany przez dobrze znane implementacje (Perl, sed, grep, gawk itp.) I musi w pełni obsługiwać obsługę tych implementacji. [Nie martw się, że prawnik przemówi; Próbuję tylko usunąć wszelkie luki w inteligentnych wersjach ***.]


Grałbym w , ale obawiam się, że da przewagę tym, którzy znają i używają nie bogatych w smaki smaków. Czy moje obawy są bezpodstawne?


8
nie jest możliwe, dowolne nawiasy zagnieżdżające sprawiają, że regex jest gramatyką wolną od kontekstu (zastąpienie go notacją polską również wymaga stosu)
maniak zapadkowy

@ratchet Augh, możesz mieć rację.
Mateen Ulhaq

1
istnieją pewne rozszerzenia zwykłych języków, które mogą pozwalać na dopasowanie nawiasów, ale nie wiem, jak to zrobić
maniak ratchet

8
Jest to możliwe dzięki wyrażeniom regularnym Perla.
Peter Taylor

1
@BrianVandenberg wyrażenia regularne zaimplementowane w nowoczesnych językach są prawie wszystkie nieregularne ... jak tylko dodasz odnośniki zwrotne, możesz dopasować nieregularne języki. Co więcej, zarówno Perl / PCRE, jak i .NET są wystarczająco mocne, aby dopasować prawidłowe zagnieżdżanie.
Martin Ender

Odpowiedzi:


22

Rubin

Próbowałem jak najlepiej dopasować faktyczną składnię smaku regularnego Ruby, ale jest kilka dziwactw: akceptuje kilka spojrzeń, które są rzeczywiście nieprawidłowe (jak (?<=(?<!))) i rozpoznaje puste zakresy znaków jak D-A. Ten ostatni można naprawić dla ASCII, ale wyrażenie regularne jest wystarczająco długie.

\A(?<main>
  (?!
    \{(\d+)?,(\d+)?\} # do not match lone counted repetition
  )
  (?:
    [^()\[\]\\*+?|<'] | # anything but metacharacters
    (?<cclass>
      \[ \^? (?: # character class
        (?: # character class
          [^\[\]\\-] | # anything but square brackets, backslashes or dashes
          \g<esc> |
          \[ : \^? (?: # POSIX char-class
            alnum | alpha | word | blank | cntrl | x?digit | graph | lower | print | punct | space | upper
          ) : \] |
          - (?!
            \\[dwhsDWHS]
          ) # range / dash not succeeded by a character class
        )+ |
        \g<cclass> # more than one bracket as delimiter
      ) \]
    ) |
    (?<esc>
      \\[^cuxkg] | # any escaped character
      \\x \h\h? | # hex escape
      \\u \h{4} | # Unicode escape
      \\c . # control escape
    ) |
    \\[kg] (?:
      < \w[^>]* (?: > | \Z) |
      ' \w[^']* (?: ' | \Z)
    )? | # named backrefs
    (?<! (?<! \\) \\[kg]) [<'] | # don't match < or ' if preceded by \k or \g
    \| (?! \g<rep> ) | # alternation
    \( (?: # group
      (?:
        \?
        (?:
          [>:=!] | # atomic / non-capturing / lookahead
          (?<namedg>
            < [_a-zA-Z][^>]* > |
            ' [_a-zA-Z][^']* ' # named group
          ) |
          [xmi-]+: # regex options
        )
      )?
      \g<main>*
    ) \) |
    \(\?<[!=] (?<lbpat>
      (?! \{(\d+)?,(\d+)?\} )
      [^()\[\]\\*+?] |
      \g<esc> (?<! \\[zZ]) |
      \g<cclass> |
      \( (?: # group
        (?:
          \?: |
          \? \g<namedg> |
          \? <[!=]
        )?
        \g<lbpat>*
      ) \) |
      \(\?\# [^)]* \)
    )* \)
    |
    \(\? [xmi-]+ \) # option group
    (?! \g<rep> ) 
    |
    \(\?\# [^)]*+ \) # comment
    (?! \g<rep> )
  )+
  (?<rep>
    (?:
      [*+?] | # repetition
      \{(\d+)?,(\d+)?\} # counted repetition
    )
    [+?]? # with a possessive/lazy modifier
  )?
)*\Z

Nieczytelna wersja:

\A(?<main>(?!\{(\d+)?,(\d+)?\})(?:[^()\[\]\\*+?|<']|(?<cclass>\[\^?(?:(?:[^\[\]\\-]|\g<esc>|\[:\^?(?:alnum|alpha|word|blank|cntrl|x?digit|graph|lower|print|punct|space|upper):\]|-(?!\\[dwhsDWHS]))+|\g<cclass>)\])|(?<esc>\\[^cuxkg]|\\x\h\h?|\\u\h{4}|\\c.)|\\[kg](?:<\w[^>]*(?:>|\Z)|'\w[^']*(?:'|\Z))?|(?<!(?<!\\)\\[kg])[<']|\|(?!\g<rep>)|\((?:(?:\?(?:[>:=!]|(?<namedg><[_a-zA-Z][^>]*>|'[_a-zA-Z][^']*')|[xmi-]+:))?\g<main>*)\)|\(\?<[!=](?<lbpat>(?!\{(\d+)?,(\d+)?\})[^()\[\]\\*+?]|\g<esc>(?<!\\[zZ])|\g<cclass>|\((?:(?:\?:|\?\g<namedg>|\?<[!=])?\g<lbpat>*)\)|\(\?#[^)]*\))*\)|\(\?[xmi-]+\)(?!\g<rep>)|\(\?#[^)]*+\)(?!\g<rep>))+(?<rep>(?:[*+?]|\{(\d+)?,(\d+)?\})[+?]?)?)*\Z

28
Czyż nie są to nieczytelne wersje?
Kibbee,

2
@Kibbee Pierwszy z nich jest dość czytelny, jeśli dobrze znasz wyrażenia regularne.
Lowjacker

1
W jaki sposób zapewnia to brak nieprawidłowych odniesień numerycznych?
Martin Ender

1
Chyba nie. Z drugiej strony nie jest to jedyne ograniczenie (patrz wyżej). Niektóre rzeczy można naprawić, ale regex stałby się absurdalnie długi.
Lowjacker
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.