Jak mogę podzielić kolumny za pomocą wyrażenia regularnego, aby przenieść końcowe CAPS do osobnej kolumny?

11

Próbuję podzielić kolumnę za pomocą wyrażenia regularnego, ale wydaje się, że nie można poprawnie uzyskać podziału. Próbuję wziąć wszystkie końcowe CAPS i przenieść je do osobnej kolumny. Więc otrzymuję wszystkie CAPS, które są albo 2-4 CAPS z rzędu. Jednak opuszcza 'Name'kolumnę tylko wtedy, gdy 'Team'kolumna jest pusta.

Oto mój kod:

import pandas as pd

url = "https://www.espn.com/nba/stats/player/_/table/offensive/sort/avgAssists/dir/desc"

df = pd.read_html(url)[0].join(pd.read_html(url)[1])
df[['Name','Team']] = df['Name'].str.split('[A-Z]{2,4}', expand=True)

Chcę to:

print(df.head(5).to_string())
   RK             Name POS  GP   MIN   PTS  FGM   FGA   FG%  3PM  3PA   3P%  FTM  FTA   FT%  REB   AST  STL  BLK   TO  DD2  TD3    PER
0   1  LeBron JamesLA  SF  35  35.1  24.9  9.6  19.7  48.6  2.0  6.0  33.8  3.7  5.5  67.7  7.9  11.0  1.3  0.5  3.7   28    9  26.10
1   2   Ricky RubioPHX  PG  30  32.0  13.6  4.9  11.9  41.3  1.2  3.7  31.8  2.6  3.1  83.7  4.6   9.3  1.3  0.2  2.5   12    1  16.40
2   3   Luka DoncicDAL  SF  32  32.8  29.7  9.6  20.2  47.5  3.1  9.4  33.1  7.3  9.1  80.5  9.7   8.9  1.2  0.2  4.2   22   11  31.74
3   4   Ben SimmonsPHIL  PG  36  35.4  14.9  6.1  10.8  56.3  0.1  0.1  40.0  2.7  4.6  59.0  7.5   8.6  2.2  0.7  3.6   19    3  19.49
4   5    Trae YoungATL  PG  34  35.1  28.9  9.3  20.8  44.8  3.5  9.4  37.5  6.7  7.9  85.0  4.3   8.4  1.2  0.1  4.8   11    1  23.47

stać się tym:

print(df.head(5).to_string())
   RK             Name    Team    POS  GP   MIN   PTS  FGM   FGA   FG%  3PM  3PA   3P%  FTM  FTA   FT%  REB   AST  STL  BLK   TO  DD2  TD3    PER
0   1  LeBron James        LA    SF  35  35.1  24.9  9.6  19.7  48.6  2.0  6.0  33.8  3.7  5.5  67.7  7.9  11.0  1.3  0.5  3.7   28    9  26.10
1   2   Ricky Rubio        PHX    PG  30  32.0  13.6  4.9  11.9  41.3  1.2  3.7  31.8  2.6  3.1  83.7  4.6   9.3  1.3  0.2  2.5   12    1  16.40
2   3   Luka Doncic        DAL    SF  32  32.8  29.7  9.6  20.2  47.5  3.1  9.4  33.1  7.3  9.1  80.5  9.7   8.9  1.2  0.2  4.2   22   11  31.74
3   4   Ben Simmons        PHIL    PG  36  35.4  14.9  6.1  10.8  56.3  0.1  0.1  40.0  2.7  4.6  59.0  7.5   8.6  2.2  0.7  3.6   19    3  19.49
4   5    Trae Young        ATL    PG  34  35.1  28.9  9.3  20.8  44.8  3.5  9.4  37.5  6.7  7.9  85.0  4.3   8.4  1.2  0.1  4.8   11    1  23.47

python regex pandas

— chitown88
źródło

9

Możesz wyodrębnić dane do dwóch kolumn za pomocą wyrażenia regularnego takiego jak ^(.*?)([A-Z]+)$lub ^(.*[^A-Z])([A-Z]+)$:

df[['Name','Team']] = df['Name'].str.extract('^(.*?)([A-Z]+)$', expand=True)

Spowoduje to zachowanie do ostatniego znaku, który nie jest wielką literą w grupie „Nazwa” i ostatnich wielkich liter w grupie „Zespół”.

Zobacz regex demo # 1 i regex demo # 2

Detale

^ - początek łańcucha
(.*?)- Przechwytywanie grupy 1: dowolne zero lub więcej znaków innych niż znaki podziału linii, możliwie jak najmniej
lub
(.*[^A-Z]) - dowolne zero lub więcej znaków innych niż znaki podziału linii, jak najwięcej, do ostatniego znaku, który nie jest wielką literą ASCII (przyznane dopasowanie kolejnych wzorców) (zwróć uwagę, że ten wzór oznacza, że przed znakiem jest co najmniej 1 znak ostatnie wielkie litery)
([A-Z]+) - Przechwytywanie grupy 2: jedna lub więcej wielkich liter ASCII
$ - koniec sznurka.

— Wiktor Stribiżew
źródło

1

Wprowadziłem kilka zmian w funkcjach, może być konieczne dodanie pakietu re.

To trochę ręczne, ale mam nadzieję, że to wystarczy. Miłego dnia!

df_obj_skel = dict()
df_obj_skel['Name'] = list()
df_obj_skel['Team'] = list()
for index,row in df.iterrows():
    Name = row['Name']
    Findings = re.search('[A-Z]{2,4}$', Name)
    Refined_Team = Findings[0]
    Refined_Name = re.sub(Refined_Team + "$", "", Name)
    df_obj_skel['Team'].append(Refined_Team)
    df_obj_skel['Name'].append(Refined_Name)
df_final = pd.DataFrame(df_obj_skel)
print(df_final)

— Wysoka liczba oktanowa
źródło