Czy ktoś może wyjaśnić „przypadki użycia” domyślnych wykresów Munina?


9

Podczas instalowania Munina aktywuje domyślny zestaw wtyczek (przynajmniej na Ubuntu). Możesz też po prostu uruchomić, munin-node-configureaby dowiedzieć się, które wtyczki są obsługiwane w twoim systemie. Większość tych wtyczek drukuje proste dane. Moje pytanie nie polega na wyjaśnieniu charakteru danych (no cóż ... może dla niektórych), ale czego szukasz na tych wykresach?

Łatwo jest zainstalować Munina i zobaczyć fantazyjne wykresy. Ale posiadanie wykresów i niemożność ich „odczytania” czyni je całkowicie bezużytecznymi.

Mam zamiar wyświetlić listę standardowych wtyczek, które są domyślnie włączone w moim systemie. To będzie długa lista. Dla kompletności zamierzam również wymienić wtyczki, które moim zdaniem powinny zrozumieć, i krótko wyjaśnić, do czego, moim zdaniem, są używane. Zarzuty są poprawne, jeśli się mylę z którymkolwiek z nich.

Podzielę więc te pytania na trzy części:

  • Wtyczki, w których nawet nie rozumiem danych
  • Wtyczki, w których rozumiem dane, ale nie wiem, na co powinienem uważać
  • Wtyczki, które myślę, że rozumiem

Wtyczki, w których nawet nie rozumiem danych

Mogą one zawierać pytania, które niekoniecznie dotyczą samego Munina. Niezrozumienie danych zwykle oznacza lukę w podstawowej wiedzy na temat systemów operacyjnych / sprzętu ....;) Możesz odpowiedzieć „giyf”.

Są to wtyczki, w których mogę tylko zgadywać, co się dzieje ... Nie chcę patrzeć na te „zgadywanie” ...

  • Dysk IO na urządzenie (IO / sekundę)
    Co to jest IO. Wiem, że oznacza wejście / wyjście. Ale to tak daleko, jak to możliwe.
  • Opóźnienie dysku na urządzenie (średnie oczekiwanie we / wy)
    Nie jest wskazówką, co oznacza „oczekiwanie we / wy” ...
  • Czas obsługi IO
    Ten jest ogromnym bałaganem i prawie niemożliwe jest zobaczenie czegoś na wykresie.

Wtyczki, w których rozumiem dane, ale nie wiem, na co powinienem uważać

  • IOStat (bloki / drugi odczyt / zapis)
    Zakładam, że rzeczą, na którą należy zwrócić uwagę, są kolce? Co oznaczałoby, że urządzenie jest intensywnie używane?
  • Dostępna entropia (bajty)
    Zakładam, że jest to ważne przy generowaniu liczb losowych? Dlaczego miałbym to przedstawiać na wykresie? Jak dotąd wartość zawsze była prawie stała.
  • VMStat (uruchomione / procesy uśpienia we / wy)
    Jaka jest różnica między tym a wykresem „procesów”? Oba pokazują procesy uruchamiania / uśpienia, podczas gdy wykres „Procesy” wydaje się zawierać więcej szczegółów.
  • Przepustowość dysku na urządzenie (bajty / sekundę odczyt / zapis)
    Jaka jest różnica między tym a wykresem „IOStat”?
  • użycie tabeli i-węzłów
    Czego powinienem szukać na tym wykresie?

Wtyczki, które myślę, że rozumiem

Zgaduję tutaj kilka rzeczy ... popraw mnie, jeśli się mylę.

  • Zużycie dysku w procentach (procent)
    Ile miejsca na dysku jest zajęte / pozostałe. Ponieważ zbliża się to do 100%, powinieneś rozważyć oczyszczenie lub rozszerzenie partycji. Jest to niezwykle ważne dla partycji root.
  • Przepustowość zapory (pakiety / sekundę)
    Liczba pakietów przechodzących przez zaporę. Jeśli zwiększa się to przez dłuższy czas, może to oznaczać atak DOS (lub po prostu otrzymujemy duży plik). Może również dać ci wyobrażenie o wydajności zapory. Jeśli poziomuje się i potrzebujesz więcej „mocy”, powinieneś rozważyć równoważenie obciążenia. Jeśli poziomuje się i widzi korelację z obciążeniem procesora, może to również oznaczać, że twój sprzęt nie jest wystarczająco szybki. Korelacje z użyciem dysku mogą wskazywać na nadmierne cele LOG w twojej konfiguracji FW.
  • błędy eth0 (wejścia / wyjścia pakietów)
    Błędy sieciowe. Jeśli ta wartość rośnie, może to oznaczać wadliwy sprzęt.
  • ruch eth0 (bity / sekunda wejście / wyjście)
    Surowy ruch sieciowy. Powinno to korelować z przepustowością zapory.
  • liczba wątków
    Ciągle rosnąca wartość może wskazywać na proces nieprawidłowego zamykania wątków. Zbadać!
  • procesy
    Podział aktywnych procesów (w tym spania). Szybki skok tutaj może wskazywać na bombę widelca. Powolna, ale stale rosnąca wartość może wskazywać, że aplikacja odradza podprocesy, ale nie zamyka ich prawidłowo. Zbadaj za pomocą ps faux.
  • priorytet procesu
    Pokazuje rozkład priorytetów procesu. Posiadanie tylko procesów o wysokim priorytecie nie jest zbyt przydatne. Rozważ niektóre z nich bez priorytetów.
  • użycie procesora
    Dość proste. Jeśli jest to gwałtowne, być może trwa atak lub proces blokuje procesor. Idf powoli rośnie i zbliża się do maksimum w normalnych operacjach, powinieneś rozważyć modernizację sprzętu (lub równoważenie obciążenia).
  • użycie tabeli plików
    Liczba aktywnie otwartych plików. Jeśli osiąga maksimum, możesz mieć proces otwierania, ale niepoprawne zwalnianie plików.
  • obciążenie średnie
    Pokazuje podsumowaną wartość obciążenia systemu. Powinny korelować z wykorzystaniem procesora. Rosnące wartości mogą pochodzić z wielu źródeł. Poszukaj korelacji z innymi wykresami.
  • wykorzystanie pamięci
    Graficzne przedstawienie twojej pamięci. Dopóki masz dużo nieużywanych + buforów + buforów, nic ci nie jest.
  • swap in / out
    Pokazuje aktywność na partycji wymiany. Powinno to zawsze wynosić 0. Jeśli widzisz na tym aktywność, powinieneś dodać więcej pamięci do swojego komputera!

Świetne pytanie, łatwe do zastosowania w kaktusach i innych aplikacjach graficznych. Wykresy często wyglądają świetnie, ale bardzo trudno jest zrozumieć, co one oznaczają, a bardziej, jak wygląda coś, co wymaga dalszej uwagi.
dunxd

2
Dla „Dlaczego miałbym to przedstawiać na wykresie? Do tej pory wartość zawsze była prawie stała”. pamiętaj, że większość informacji jest zwykle cenna tylko w przypadku problemów.
Steve Schnepp,

Odpowiedzi:


11

Dysk IO na urządzenie (IO / sekundę)

W przypadku tradycyjnych dysków twardych jest to bardzo ważna liczba. Operacja we / wy to operacja odczytu lub zapisu na dysku. Dzięki obrotowym wrzecionom można poruszać się od kilkudziesięciu do około 200 IOPS na sekundę, w zależności od prędkości dysku i schematu użytkowania.

To nie wszystko: nowoczesne systemy operacyjne mają harmonogramy we / wy, które próbują scalić kilka żądań we / wy jako jedno i przyspieszyć w ten sposób. Również kontrolery RAID i tak dalej przeprowadzają inteligentne zmiany kolejności żądań we / wy.

Opóźnienie dysku na urządzenie (średnie oczekiwanie na operacje we / wy)

Ile czasu zajęło wykonanie żądania We / Wy na indywidualnym dysku, aby faktycznie odebrać dane z tego miejsca. Jeśli to unosi się przez kilka milisekund, wszystko jest w porządku, jeśli to kilkadziesiąt ms, to zaczynasz widzieć pocenie się twojego podsystemu dyskowego, jeśli to setki więcej ms, masz duże kłopoty, a przynajmniej masz bardzo, bardzo wolny system.

Czas usługi IO

Jak działa Twój podsystem dyskowy (prawdopodobnie zawierający wiele dysków).

IOStat (bloki / drugi odczyt / zapis)

Ile bloków dysku zostało odczytanych / zapisanych na sekundę. Poszukaj skoków, a także średniej. Jeśli średnia zacznie zbliżać się do maksymalnej przepustowości podsystemu dyskowego, czas zaplanować aktualizację wydajności. Właściwie zaplanuj to w ten sposób przed tym punktem.

Dostępna entropia (bajty)

Niektóre aplikacje chcą uzyskać „prawdziwe” losowe dane. Jądro zbiera tę „prawdziwą” losowość z kilku źródeł, takich jak aktywność klawiatury i myszy, generator liczb losowych znaleziony na wielu płytach głównych, a nawet z plików wideo / muzycznych (może to zrobić wideo-entropyd i audio-entropyd).

Jeśli w systemie zabraknie entropii, aplikacje oczekujące na te dane będą się zatrzymywać, dopóki nie otrzymają danych. Osobiście w przeszłości widziałem, jak to się dzieje z demonem Cyrus IMAP i jego usługą POP3; wygenerował długi losowy ciąg przed każdym logowaniem i na zajętym serwerze, który bardzo szybko zużył pulę entropii.

Jednym ze sposobów na pozbycie się tego problemu jest przełączenie aplikacji na używanie tylko danych pół losowych (/ dev / urandom), ale nie jest to już więcej w tym temacie.

VMStat (uruchomione / procesy uśpienia we / wy)

Nie myślałem o tym wcześniej, ale sądzę, że to mówi ci o statystykach We / Wy na proces, lub głównie, jeśli wykonują jakieś We / Wy, czy nie, a jeśli I / O blokuje aktywność We / Wy lub nie.

Przepustowość dysku na urządzenie (bajty / sekundę odczyt / zapis)

Jest to czysto bajt odczytu / zapisu na sekundę, i częściej jest to forma bardziej czytelna dla człowieka niż bloki , które mogą się różnić. Rozmiar bloku może się różnić ze względu na używane dyski, używany system plików (i jego ustawienia) i tak dalej. Czasami rozmiar bloku może wynosić 512 bajtów, innym razem 4096 bajtów, a czasem coś innego.

użycie tabeli i-węzłów

W systemach plików z dynamicznymi i-węzłami (takimi jak XFS) nic. W systemach plików posiadających statyczne mapy i-węzłów (takich jak ext3) wszystko. Jeśli masz kombinację statycznych i-węzłów, ogromny system plików oraz ogromną liczbę katalogów i małych plików, możesz spotkać się z sytuacją, w której nie możesz utworzyć więcej plików na tej partycji, nawet jeśli teoretycznie byłoby dużo wolnego miejsca. Brak wolnych i-węzłów == źle.


biorąc pod uwagę użycie i-węzła. Obecnie używam ext4, a maksymalne-indody i otwarte-i-węzły na tym wykresie są bardzo bliskie (otwarte: rozmiar tabeli 31,11 k: 32,12 k). Co pozostawia mi około 1k i-węzłów. Ponieważ system jest świeżo zainstalowany, nie sądzę, że to wskazuje na problem. Czy ext4 dynamicznie alokuje i-węzły? Nie znalazłem nic na ten temat w Google ...
ekshuma

Widzisz df -i, raportuje twoje bieżące użycie i-węzła. ext4 naprawił i-węzły, na przykład moje raporty Fedory 16 dla mojej partycji rootrootfs 3276800 238083 3038717 8% /
Janne Pikkarainen

Hmmm ... ciekawe. Sugeruje to, że wykres Munina jest nieprawidłowy. Po prostu nie zdawałem sobie sprawy, że wykres Munina pokazuje tylko jedną wartość. Czy nie powinno pokazywać jednej wartości na system plików, aby była pomocna? Zobacz także df -izrzut ekranu ( i44.tinypic.com/oixkiq.png ) kontra wykres Munina ( i39.tinypic.com/dxl64z.png )
ekshuma

... Wartość na wykresie (25,57k) nie jest wcale widoczna na dfwyjściu.
ekshuma

Po dalszym dochodzeniu widzę, że wtyczka Munin open_inodesbierze wartość /proc/sys/fs/inode-nr. To jądro, a nie wartość systemu plików. Trochę więcej googlingu wskazało mi na to: mjmwired.net/kernel/Documentation/sysctl/fs.txt#119 Z tego dokumentu zakładam, że można znaleźć limit inode-max. Ale ten plik nie istnieje w moim systemie. Czy to możliwe, że nie dotyczy to już nowych jąder? Pozwoliłoby mi to usunąć ten wykres z mojej instancji Munin!
ekshuma
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.