Java regex do obsługi Unicode?

Question 1

Aby dopasować A do Z, użyjemy wyrażenia regularnego:

[A-Za-z]

Jak zezwolić wyrażeniu regularnemu na dopasowanie znaków utf8 wprowadzonych przez użytkownika? Na przykład chińskie słowa, takie jak 环保部

Question 2

To, czego szukasz, to właściwości Unicode.

np. \p{L}to jakikolwiek list z dowolnego języka

Zatem wyrażeniem regularnym pasującym do takiego chińskiego słowa może być coś w rodzaju

\p{L}+

Istnieje wiele takich właściwości, aby uzyskać więcej informacji, zobacz regular-expressions.info

Inną opcją jest użycie modyfikatora

Pattern.UNICODE_CHARACTER_CLASS

W Javie 7 jest nowa właściwość, Pattern.UNICODE_CHARACTER_CLASSktóra włącza wersję Unicode predefiniowanych klas znaków Zobacz moją odpowiedź tutaj, aby uzyskać więcej szczegółów i linków

Mógłbyś zrobić coś takiego

Pattern p = Pattern.compile("\\w+", Pattern.UNICODE_CHARACTER_CLASS);

i \wdopasuje wszystkie litery i cyfry z dowolnego języka (i oczywiście niektóre słowa łączące znaki, takie jak _).

Question 3

Aby dopasować poszczególne znaki, możesz po prostu dołączyć je do klasy znaków, jako literały lub za pomocą \u03FBskładni.

Oczywiście często nie można wymienić wszystkich dozwolonych znaków w językach ideograficznych. Aby wyrażenie regularne traktowało znaki Unicode zgodnie z ich typem lub blokiem kodu, obsługiwane są różne inne znaki specjalne zdefiniowane w tym miejscu . Spójrz na sekcję „Obsługa Unicode”, w szczególności odwołania do Characterklasy i samego standardu Unicode.

Question 4

Aby zająć się obsługą NLS i uniknąć akceptowania angielskich znaków specjalnych, możemy użyć poniższego wzoru ...

[a-zA-Z0-9 \ u0080- \ u9fff] * +

Odniesienie do punktu kodowego UTF: http://www.utf8-chartable.de/unicode-utf8-table.pl

Fragment kodu:

    String vowels = "అఆఇఈఉఊఋఌఎఏఐఒఓఔౠౡ";
    String consonants = "కఖగఘఙచఛజఝఞటఠడఢణతథదధనపఫబభమయరఱలళవశషసహ";
    String signsAndPunctuations = "కఁకంకఃకాకికీకుకూకృకౄకెకేకైకొకోకౌక్కౕకౖ";
    String symbolsAndNumerals = "౦౧౨౩౪౫౬౭౮౯";
    String engChinesStr = "ABC導字會";


    Pattern ALPHANUMERIC_AND_SPACE_PATTERN_TELUGU = Pattern
            .compile("[a-zA-Z0-9 \\u0c00-\\u0c7f]*+");
    System.out.println(ALPHANUMERIC_AND_SPACE_PATTERN_TELUGU.matcher(vowels)
            .matches());


    Pattern ALPHANUMERIC_AND_SPACE_PATTERN_CHINESE = Pattern
            .compile("[a-zA-Z0-9 \\u4e00-\\u9fff]*+");

    Pattern ENGLISH_ALPHANUMERIC_SPACE_AND_NLS_PATTERN = Pattern
            .compile("[a-zA-Z0-9 \\u0080-\\u9fff]*+");

    System.out.println(ENGLISH_ALPHANUMERIC_SPACE_AND_NLS_PATTERN.matcher(engChinesStr)
            .matches());

Question 5

API wyrażeń regularnych Java działa na chartypie
chartyp jest domyślnie UTF-16
jeśli masz dane UTF-8, będziesz musiał transkodować je do UTF-16 na wejściu, jeśli nie jest to jeszcze zrobione

Unicode to uniwersalny zestaw znaków, a UTF-8 może opisać to wszystko (w tym znaki sterujące, znaki interpunkcyjne, symbole, litery itp.). Będziesz musiał bardziej szczegółowo określić, co chcesz uwzględnić, a co wykluczyć. Wyrażenia regularne Java używają \p{category}składni do dopasowywania punktów kodowych według kategorii . Zobacz standardu Unicode na liście kategorii.

Jeśli chcesz zidentyfikować i oddzielić słowa w sekwencji ideogramów, musisz przyjrzeć się bardziej wyrafinowanemu interfejsowi API. Zacząłbym od BreakIteratortypu.