Wyrażenia regularne w C: przykłady?


Jestem za prostymi przykładami i najlepszymi praktykami, jak używać wyrażeń regularnych w ANSI C. man regex.hnie zapewnia to zbyt dużej pomocy.

W ANSI C nie ma wbudowanej obsługi wyrażeń regularnych. Jakiej biblioteki wyrażeń regularnych używasz?

Rob Pike napisał małą funkcję wyszukiwania ciągów wyrażeń regularnych, która zaakceptowała bardzo przydatny podzbiór wyrażeń regularnych do książki The Practice of Programming, której on i Brian Kernighan są współautorami. Zobacz tę dyskusję, A Regular Expression Matcher, dr Kernighan cs.princeton.edu/courses/archive/spr09/cos333/beautiful.html
Wyrażenia regularne w rzeczywistości nie są częścią ANSI C. Wygląda na to, że możesz mówić o bibliotece wyrażeń regularnych POSIX, która zawiera większość (wszystkie?) * Nixy. Oto przykład użycia wyrażeń regularnych POSIX w C (na podstawie tego ):

#include <regex.h>        
regex_t regex;
int reti;
char msgbuf[100];

/* Compile regular expression */
reti = regcomp(&regex, "^a[[:alnum:]]", 0);
if (reti) {
    fprintf(stderr, "Could not compile regex\n");

/* Execute regular expression */
reti = regexec(&regex, "abc", 0, NULL, 0);
if (!reti) {
else if (reti == REG_NOMATCH) {
    puts("No match");
else {
    regerror(reti, &regex, msgbuf, sizeof(msgbuf));
    fprintf(stderr, "Regex match failed: %s\n", msgbuf);

/* Free memory allocated to the pattern buffer by regcomp() */

Alternatywnie, możesz chcieć sprawdzić PCRE , bibliotekę zgodnych z Perlem wyrażeń regularnych w C. Składnia Perla jest prawie taką samą składnią, jak w Javie, Pythonie i wielu innych językach. Składnia POSIX jest składnia wykorzystywana przez grep, sed, vi, itd.

O ile nie musisz unikać zależności od drugiej PCRE, ma kilka fajnych ulepszeń składni i jest bardzo stabilny. Przynajmniej w przypadku niektórych starszych wersji Linuksa „wbudowana” biblioteka wyrażeń regularnych nie jest zbyt trudna do awarii, biorąc pod uwagę pewne ciągi wejściowe i pewne wyrażenia regularne, które „prawie” pasują do lub zawierają wiele znaków specjalnych

@Laurence Jakie jest znaczenie przekazywania 0 do regcomp? regcomp przyjmuje tylko cztery wartości całkowite 1, 2, 4 i 8, które reprezentują 4 różne tryby.

@lixiang Ostatnim parametrem regcomp, cflagsjest maską bitową. Z pubs.opengroup.org/onlinepubs/009695399/functions/regcomp.html : „Argument cflags jest bitowym LUB równym zero lub więcej z następujących flag…”. Jeśli regcompzsumujesz zero, otrzymasz 0. Widzę, że strona podręcznika Linuksa mówi „cflags może być bitową - lub jedną lub więcej z poniższych”, co wydaje się mylące.
Możesz wyodrębnić tekst z pasujących grup za pomocą czegoś takiego: regmatch_t matches[MAX_MATCHES]; if (regexec(&exp, sz, MAX_MATCHES, matches, 0) == 0) { memcpy(buff, sz + matches[1].rm_so, matches[1].rm_eo - matches[1].rm_so); printf("group1: %s\n", buff); }zwróć uwagę, że dopasowania grup zaczynają się od 1, grupa 0 to cały ciąg. Dodaj sprawdzanie błędów dla
wykrycia przekroczenia zakresu

Jeśli chodzi o regfreeto, czy jest to konieczne po niepowodzeniu regcomp, chociaż w rzeczywistości jest to raczej niedostatecznie określone, sugeruje to, że nie należy tego robić: redhat.com/archives/libvir-list/2013-September/msg00276.html
Prawdopodobnie nie jest to to, czego chcesz, ale narzędzie takie jak re2c może kompilować wyrażenia regularne POSIX (-ish) do ANSI C. Zostało napisane jako zamiennik lex, ale takie podejście pozwala poświęcić elastyczność i czytelność dla ostatniego bitu szybkości, jeśli naprawdę tego potrzebujesz.


man regex.hzgłasza, że ​​nie ma ręcznego wprowadzania dla regex.h, ale man 3 regex udostępnia stronę wyjaśniającą funkcje POSIX do dopasowywania wzorców.
Te same funkcje są opisane w Bibliotece GNU C: Dopasowywanie wyrażeń regularnych , która wyjaśnia, że ​​Biblioteka GNU C obsługuje zarówno interfejs POSIX.2, jak i interfejs, który biblioteka GNU C miała od wielu lat.

Na przykład dla hipotetycznego programu, który wyświetla, które z łańcuchów przekazanych jako argument są zgodne ze wzorcem przekazanym jako pierwszy argument, można użyć kodu podobnego do poniższego.

#include <errno.h>
#include <regex.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>

void print_regerror (int errcode, size_t length, regex_t *compiled);

main (int argc, char *argv[])
  regex_t regex;
  int result;

  if (argc < 3)
      // The number of passed arguments is lower than the number of
      // expected arguments.
      fputs ("Missing command line arguments\n", stderr);
      return EXIT_FAILURE;

  result = regcomp (&regex, argv[1], REG_EXTENDED);
  if (result)
      // Any value different from 0 means it was not possible to 
      // compile the regular expression, either for memory problems
      // or problems with the regular expression syntax.
      if (result == REG_ESPACE)
        fprintf (stderr, "%s\n", strerror(ENOMEM));
        fputs ("Syntax error in the regular expression passed as first argument\n", stderr);
      return EXIT_FAILURE;               
  for (int i = 2; i < argc; i++)
      result = regexec (&regex, argv[i], 0, NULL, 0);
      if (!result)
          printf ("'%s' matches the regular expression\n", argv[i]);
      else if (result == REG_NOMATCH)
          printf ("'%s' doesn't the regular expression\n", argv[i]);
          // The function returned an error; print the string 
          // describing it.
          // Get the size of the buffer required for the error message.
          size_t length = regerror (result, &regex, NULL, 0);
          print_regerror (result, length, &regex);       
          return EXIT_FAILURE;

  /* Free the memory allocated from regcomp(). */
  regfree (&regex);
  return EXIT_SUCCESS;

print_regerror (int errcode, size_t length, regex_t *compiled)
  char buffer[length];
  (void) regerror (errcode, compiled, buffer, length);
  fprintf(stderr, "Regex match failed: %s\n", buffer);

Ostatnim argumentem regcomp()musi być co najmniej REG_EXTENDED, lub funkcje użyje podstawowych wyrażeń regularnych , co oznacza, że (na przykład) trzeba by użyć a\{3\}zamiast a{3}stosować z rozszerzonych wyrażeń regularnych , który jest chyba to, co można oczekiwać, aby używać.

POSIX.2 ma również inną funkcję wieloznacznego dopasowania: fnmatch(). Nie pozwala skompilować wyrażenia regularnego ani pobrać podciągów pasujących do wyrażenia podrzędnego, ale jest bardzo specyficzny dla sprawdzenia, czy nazwa pliku pasuje do symbolu wieloznacznego (np. Używa FNM_PATHNAMEflagi).


To jest przykład użycia REG_EXTENDED. To wyrażenie regularne


Pozwala złapać liczby dziesiętne w systemie hiszpańskim i międzynarodowym. :)

#include <regex.h>
#include <stdlib.h>
#include <stdio.h>
regex_t regex;
int reti;
char msgbuf[100];

int main(int argc, char const *argv[])
        fgets( msgbuf, 100, stdin );
        reti = regcomp(&regex, "^(-)?([0-9]+)((,|.)([0-9]+))?\n$", REG_EXTENDED);
        if (reti) {
            fprintf(stderr, "Could not compile regex\n");

        /* Execute regular expression */
        printf("%s\n", msgbuf);
        reti = regexec(&regex, msgbuf, 0, NULL, 0);
        if (!reti) {
        else if (reti == REG_NOMATCH) {
            puts("No match");
        else {
            regerror(reti, &regex, msgbuf, sizeof(msgbuf));
            fprintf(stderr, "Regex match failed: %s\n", msgbuf);

        /* Free memory allocated to the pattern buffer by regcomp() */



Chociaż powyższa odpowiedź jest dobra, polecam użycie PCRE2 . Oznacza to, że możesz teraz dosłownie użyć wszystkich przykładów wyrażeń regularnych i nie musisz tłumaczyć z niektórych starożytnych wyrażeń regularnych.

Odpowiedziałem już na to, ale myślę, że tutaj też może pomóc ..

Regex w C, aby wyszukać numery kart kredytowych


#include <stdio.h>
#include <string.h>
#include <pcre2.h>
#include <stdbool.h>

int main(){

bool Debug = true;
bool Found = false;
pcre2_code *re;
PCRE2_SPTR pattern;
PCRE2_SPTR subject;
int errornumber;
int i;
int rc;
PCRE2_SIZE erroroffset;
PCRE2_SIZE *ovector;
size_t subject_length;
pcre2_match_data *match_data;

char * RegexStr = "(?:\\D|^)(5[1-5][0-9]{2}(?:\\ |\\-|)[0-9]{4}(?:\\ |\\-|)[0-9]{4}(?:\\ |\\-|)[0-9]{4})(?:\\D|$)";
char * source = "5111 2222 3333 4444";

pattern = (PCRE2_SPTR)RegexStr;// <<<<< This is where you pass your REGEX 
subject = (PCRE2_SPTR)source;// <<<<< This is where you pass your bufer that will be checked. 
subject_length = strlen((char *)subject);

  re = pcre2_compile(
  pattern,               /* the pattern */
  PCRE2_ZERO_TERMINATED, /* indicates pattern is zero-terminated */
  0,                     /* default options */
  &errornumber,          /* for error number */
  &erroroffset,          /* for error offset */
  NULL);                 /* use default compile context */

/* Compilation failed: print the error message and exit. */
if (re == NULL)
  PCRE2_UCHAR buffer[256];
  pcre2_get_error_message(errornumber, buffer, sizeof(buffer));
  printf("PCRE2 compilation failed at offset %d: %s\n", (int)erroroffset,buffer);
  return 1;

match_data = pcre2_match_data_create_from_pattern(re, NULL);

rc = pcre2_match(
  subject,              /* the subject string */
  subject_length,       /* the length of the subject */
  0,                    /* start at offset 0 in the subject */
  0,                    /* default options */
  match_data,           /* block for storing the result */

if (rc < 0)
    case PCRE2_ERROR_NOMATCH: //printf("No match\n"); //
    Found = 0;
    return Found;
    //  break;
    Handle other special cases if you like
    default: printf("Matching error %d\n", rc); //break;
  pcre2_match_data_free(match_data);   /* Release memory used for the match */
  Found = 0;                /* data and the compiled pattern. */
  return Found;

if (Debug){
ovector = pcre2_get_ovector_pointer(match_data);
printf("Match succeeded at offset %d\n", (int)ovector[0]);

if (rc == 0)
  printf("ovector was not big enough for all the captured substrings\n");

if (ovector[0] > ovector[1])
  printf("\\K was used in an assertion to set the match start after its end.\n"
    "From end to start the match was: %.*s\n", (int)(ovector[0] - ovector[1]),
      (char *)(subject + ovector[1]));
  printf("Run abandoned\n");
  return 0;

for (i = 0; i < rc; i++)
  PCRE2_SPTR substring_start = subject + ovector[2*i];
  size_t substring_length = ovector[2*i+1] - ovector[2*i];
  printf("%2d: %.*s\n", i, (int)substring_length, (char *)substring_start);

  if(rc > 0){
    Found = true;

return Found;


Zainstaluj PCRE za pomocą:

wget https://ftp.pcre.org/pub/pcre/pcre2-10.31.zip
sudo make install 
sudo ldconfig

Kompiluj przy użyciu:

gcc foo.c -lpcre2-8 -o foo

Sprawdź moją odpowiedź, aby uzyskać więcej informacji.

