Dominujące topologie modelowania hurtowni danych (Star, Snowflake) są zaprojektowane z myślą o relacjach jeden do wielu. Czytelność, wydajność i struktura zapytań znacznie się pogarsza w obliczu relacji wiele do wielu w tych schematach modelowania. Jakie są sposoby implementacji relacji wiele do wielu między wymiarami lub między tabelą faktów a wymiarem …
Uświadomiłem sobie, że moja firma stosuje proces ELT (ekstrakcja-transformacja-ładowanie) zamiast ETL (ekstrakcja-transformacja-ładowanie). Jakie są różnice między tymi dwoma podejściami i w jakich sytuacjach jedno byłoby „lepsze” od drugiego? Byłoby wspaniale, gdybyś mógł podać kilka przykładów.
Strojenie wydajności hurtowni danych za pomocą indeksów. Jestem dość nowy w SQL Server 2014. Microsoft opisuje następujące kwestie: „Uważamy indeks klastrowanego magazynu kolumn za standard do przechowywania tabel faktów hurtowni dużych danych i oczekujemy, że będzie on używany w większości scenariuszy hurtowni danych. Ponieważ indeks klastrowanego magazynu kolumn jest aktualizowalny, …
W przypadku korzystania z tabeli czasowej z wersją systemową (nowość w SQL Server 2016), jakie są skutki tworzenia zapytań i wydajności, gdy ta funkcja jest używana do obsługi powolnej zmiany wymiarów w dużej relacyjnej hurtowni danych? Załóżmy na przykład, że mam Customerwymiar 100 000 wierszy z Postal Codekolumną i Salestabelę …
Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było ono tematem na temat wymiany stosu administratorów bazy danych. Zamknięte 5 lat temu . Zastanawiam się, czy to pytanie jeszcze nie zostało zadane. Google ma dla mnie bardzo niewiele wyników, …
Od czasu do czasu pobieram publicznie dostępne zestawy danych w postaci dB Postgres. Te zestawy danych są z czasem aktualizowane / modyfikowane / rozszerzane przez host repozytorium. Czy istnieje polecenie lub narzędzie Postgres (najlepiej FOSS), które może pokazywać różnice między STARYM a NOWYM bazą danych Postgres? (Założeniem roboczym jest, że …
Potrzebuję obsługiwać dynamiczne pola i wartości w dużej przechowalni danych do przechowywania dziennika żądań API, moim przypadkiem użytkownika jest to, że muszę przechowywać wszystkie ciągi zapytań API i móc wykonywać zapytania przeciwko nim w przyszłości (więc nie jest to tylko przechowywanie, więc nie mogę używać dla nich obiektów blob) na …
Na podstawie mojej analizy kompletny model wymiarowy dla naszej hurtowni danych będzie wymagał ekstrakcji z ponad 200 tabel źródłowych. Niektóre z tych tabel zostaną wyodrębnione w ramach obciążenia przyrostowego, a inne będą obciążeniem pełnym. Należy zauważyć, że mamy około 225 źródłowych baz danych o tym samym schemacie. Z tego, co …
Mam 200 GB hurtowni danych w SQL Server. Występują naprawdę powolne czasy wykonywania niektórych zapytań; na przykład 12 godzin na proste deletezapytanie z inner join. Po przeprowadzeniu badań z planami wykonania zaktualizowałem statystyki 2 tabel biorących udział w zapytaniu, korzystając z tej WITH FULLSCANopcji. Zapytanie jest teraz wykonywane w mniej …
Zaczynamy projektować elementy składowe hurtowni danych i musimy być w stanie obsługiwać wszystkie strefy czasowe (nasi klienci pochodzą z całego świata). Po przeczytaniu dyskusji online (i książek) powszechnym rozwiązaniem wydaje się mieć osobny wymiar daty i godziny oraz znacznik czasu w tabelach faktów. Jednak pytanie, na które trudno mi odpowiedzieć, …
Część literatury na temat kompresji danych SQL Server, którą czytam, stwierdza, że koszt zapisu wzrasta około czterokrotnie, co byłoby normalnie wymagane. Wydaje się również sugerować, że jest to główny minus kompresji danych, silnie sugerując, że w przypadku bazy danych archiwum tylko do odczytu wydajność (z kilkoma wyjątkami) poprawi się dzięki …
Jestem całkiem nowy w PostgreSQL, nigdy wcześniej nie przeprowadzałem dużego wdrożenia, używając go. Ale mam duże doświadczenie w rozwiązaniach dla przedsiębiorstw i chcę spróbować zastosować część tego, czego się nauczyłem, korzystając z PostgreSQL. Mam witrynę dostosowaną do obsługi dużej liczby danych i ruchu. Infrastruktura zostanie zbudowana z wykorzystaniem Amazon (AWS) …
Na Oracle Exadata (11gR2) mamy stosunkowo rozbudowaną bazę danych. cpu_count to 24 równoległe_serwery_instancji to 2 parallel_threads_per_cpu to 2 Zauważyliśmy, obserwując w Oracle Enterprise Manager (OEM), że wydajność była okropna z powodu seryjnego wykonywania zapytań. Aby rozwiązać ten problem, wszystkie tabele, zmaterializowane widoki i indeksy zostały zmienione, aby wykorzystać równoległość. na …
Staramy się zoptymalizować projekt hurtowni danych, który będzie obsługiwał raportowanie danych w wielu strefach czasowych. Na przykład, możemy mieć raport dotyczący aktywności z miesiąca (miliony wierszy), która musi pokazywać aktywność pogrupowaną według pory dnia. I oczywiście ta godzina dnia musi być godziną „lokalną” dla danej strefy czasowej. Mieliśmy projekt, który …
Pracuję nad obliczeniem „tylnej części koperty” dla konfiguracji bazy danych raportowania 100 TB. Szukam tutaj myśli od ekspertów. Proponowane środowisko: Pojemność ~ 100 TB Tabele ~ 200, rozmiary od 1 GB do 5 TB. średni rozmiar może wynosić od 100 GB do 200 GB ETL - zadania mogą wymagać łączenia …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.