Pytania otagowane jako pandas

Pandas to biblioteka Pythona do manipulacji i analizy danych, np. Ramki danych, wielowymiarowe szeregi czasowe i zestawy danych przekrojowych powszechnie spotykane w statystykach, eksperymentalnych wynikach nauki, ekonometrii lub finansach. Pandas jest jedną z głównych bibliotek nauki danych w Pythonie.

4
Oblicz procent podobnych wartości w ramce danych pandy
Mam jedną ramkę danych dfz dwiema kolumnami: Skrypt (z tekstem) i Głośnik Script Speaker aze Speaker 1 art Speaker 2 ghb Speaker 3 jka Speaker 1 tyc Speaker 1 avv Speaker 2 bhj Speaker 1 I mam następującą listę: L = ['a','b','c'] Za pomocą następującego kodu df = (df.set_index('Speaker')['Script'].str.findall('|'.join(L)) .str.join('|') …

2
Ustal, które kolumny są datetime
Mam ogromną ramkę danych z wieloma kolumnami, z których wiele jest typu datetime.datetime. Problem polega na tym, że wiele z nich ma również typy mieszane, w tym na przykład datetime.datetimewartości i Nonewartości (i potencjalnie inne nieprawidłowe wartości): 0 2017-07-06 00:00:00 1 2018-02-27 21:30:05 2 2017-04-12 00:00:00 3 2017-05-21 22:05:00 4 …
14 python  pandas 

3
Dlaczego przypisywanie za pomocą [:] kontra iloc [:] daje różne wyniki w pandach?
Jestem tak pomylony z różnymi metodami indeksowania ilocużywanymi w pandach. Powiedzmy, że próbuję przekonwertować ramkę danych 1-d na ramkę danych 2-d. Najpierw mam następującą 1-d ramkę danych a_array = [1,2,3,4,5,6,7,8] a_df = pd.DataFrame(a_array).T Zamierzam przekonwertować to na 2-d ramkę danych o rozmiarze 2x4. Zaczynam od przygotowania dwuwymiarowej ramki danych w …

1
Funkcja to_excel pand generuje nieoczekiwany błąd typu
Stworzyłem słownik ramki danych pand: d[k] = pd.DataFrame(data=data[i]) Zakładam więc, że d[k]jest to poprawna ramka danych pand. Następnie for k in d.keys(): d[k].to_excel (file_name) Mam wtedy błąd: TypeError: got invalid input value of type <class 'xml.etree.ElementTree.Element'>, expected string or Element Używam Python 3.7, pandy 0.25.3. Aktualizacja : jeśli zastąpić to_excelprzez …

3
Powolne pandy DataFrame MultiIndex reindex
Mam pand DataFrame formularza: id start_time sequence_no value 0 71 2018-10-17 20:12:43+00:00 114428 3 1 71 2018-10-17 20:12:43+00:00 114429 3 2 71 2018-10-17 20:12:43+00:00 114431 79 3 71 2019-11-06 00:51:14+00:00 216009 100 4 71 2019-11-06 00:51:14+00:00 216011 150 5 71 2019-11-06 00:51:14+00:00 216013 180 6 92 2019-12-01 00:51:14+00:00 114430 19 …

2
Generuj filtrowane binarne produkty kartezjańskie
Opis problemu Szukam wydajnego sposobu generowania pełnych binarnych produktów kartezjańskich (tabele ze wszystkimi kombinacjami prawdy i fałszu z pewną liczbą kolumn), filtrowane według określonych warunków wyłączności. Na przykład dla trzech kolumn / bitów n=3otrzymalibyśmy pełną tabelę df_combs = pd.DataFrame(itertools.product(*([[True, False]] * n))) 0 1 2 0 True True True 1 …

1
pandasUDF i pyarrow 0.15.0
Niedawno zacząłem otrzymywać błędy w wielu pysparkzadaniach uruchomionych w klastrach EMR. Errosy są java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)... Wszystkie wydają się występować w applyfunkcjach serii pand. …


9
utwórz macierz NxN z jednej pandy kolumnowej
Mam ramkę danych z każdym wierszem o wartości listy. id list_of_value 0 ['a','b','c'] 1 ['d','b','c'] 2 ['a','b','c'] 3 ['a','b','c'] muszę obliczyć wynik dla jednego wiersza i dla wszystkich innych wierszy Na przykład: Step 1: Take value of id 0: ['a','b','c'], Step 2: find the intersection between id 0 and id …
11 python  pandas  numpy 


3
pandy zastępują wartości w wielu kolumnach jednocześnie, w zależności od warunków wartości w jednej kolumnie
Mam takie DataFrame: df = pd.DataFrame(data={ 'col0': [11, 22,1, 5] 'col1': ['aa:a:aaa', 'a:a', 'a', 'a:aa:a:aaa'], 'col2': ["foo", "foo", "foobar", "bar"], 'col3': [True, False, True, False], 'col4': ['elo', 'foo', 'bar', 'dupa']}) Chcę uzyskać długość listy po podzieleniu na „:” w kolumnie 1, a następnie chcę zastąpić wartości, jeśli długość> 2 LUB …
11 python  pandas  apply 

2
Jak mogę podzielić kolumny za pomocą wyrażenia regularnego, aby przenieść końcowe CAPS do osobnej kolumny?
Próbuję podzielić kolumnę za pomocą wyrażenia regularnego, ale wydaje się, że nie można poprawnie uzyskać podziału. Próbuję wziąć wszystkie końcowe CAPS i przenieść je do osobnej kolumny. Więc otrzymuję wszystkie CAPS, które są albo 2-4 CAPS z rzędu. Jednak opuszcza 'Name'kolumnę tylko wtedy, gdy 'Team'kolumna jest pusta. Oto mój kod: …
11 python  regex  pandas 




Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.