Pytania otagowane jako tokenize

Tokenizacja to czynność polegająca na dzieleniu ciągu znaków na dyskretne elementy zwane tokenami.


16
Przetwarzanie (dzielenie) łańcucha w C ++ przy użyciu ogranicznika łańcucha (standardowy C ++)
Analizuję ciąg w C ++ przy użyciu następujących czynności: using namespace std; string parsed,input="text to be parsed"; stringstream input_stringstream(input); if (getline(input_stringstream,parsed,' ')) { // do some processing. } Przetwarzanie za pomocą separatora pojedynczego znaku jest w porządku. Ale co, jeśli chcę użyć łańcucha jako separatora. Przykład: Chcę podzielić: scott>=tiger z …
361 c++  parsing  split  token  tokenize 



10
Scanner vs. StringTokenizer vs. String.Split
Właśnie dowiedziałem się o klasie Scanner w Javie i teraz zastanawiam się, jak porównuje / konkuruje z StringTokenizer i String.Split. Wiem, że StringTokenizer i String.Split działają tylko na ciągach znaków, więc dlaczego miałbym chcieć używać Scanner for a String? Czy Scanner ma być po prostu kompleksowym rozwiązaniem do rozdzielania?

4
Szukasz jasnej definicji tego, czym są „tokenizer”, „parser” i „leksery” oraz w jaki sposób są one ze sobą powiązane i używane?
Szukam jasnej definicji tego, czym są „tokenizer”, „parser” i „lexer” i jak są one ze sobą powiązane (np. Czy parser używa tokenizera lub odwrotnie)? Muszę utworzyć program, który przejdzie przez pliki źródłowe c / h, aby wyodrębnić deklarację danych i definicje. Szukałem przykładów i mogę znaleźć trochę informacji, ale naprawdę …
151 parsing  lexer  tokenize 

5
Czy wiersz kodu Pythona może znać poziom zagnieżdżenia wcięć?
Z czegoś takiego: print(get_indentation_level()) print(get_indentation_level()) print(get_indentation_level()) Chciałbym dostać coś takiego: 1 2 3 Czy kod może się w ten sposób odczytać? Chcę tylko, aby dane wyjściowe z bardziej zagnieżdżonych części kodu były bardziej zagnieżdżone. W ten sam sposób, w jaki ułatwia to odczytanie kodu, ułatwiłoby to odczytanie danych wyjściowych. Oczywiście …


11
Jak pozbyć się interpunkcji za pomocą tokenizera NLTK?
Dopiero zaczynam używać NLTK i nie do końca rozumiem, jak uzyskać listę słów z tekstu. Jeśli używam nltk.word_tokenize(), otrzymuję listę słów i znaków interpunkcyjnych. Zamiast tego potrzebuję tylko słów. Jak pozbyć się interpunkcji? Również word_tokenizenie działa z wieloma zdaniami: punkty są dodawane do ostatniego słowa.
125 python  nlp  tokenize  nltk 

13
Dzielenie łańcucha na wiele wierszy w Oracle
Wiem, że do pewnego stopnia odpowiedziano na to za pomocą PHP i MYSQL, ale zastanawiałem się, czy ktoś mógłby mnie nauczyć najprostszego podejścia do dzielenia ciągu (rozdzielanego przecinkami) na wiele wierszy w Oracle 10g (najlepiej) i 11g. Tabela przedstawia się następująco: Name | Project | Error 108 test Err1, Err2, …
104 sql  string  oracle  plsql  tokenize 
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.