Statuspagina's versus Dashboards

Dashboards en statuspagina’s zijn twee verschillende dingen. Een dashboard is bedoeld voor beheerders en laat gedetailleerde statistieken zien die gebruikt kunnen worden voor correlatie. Een statuspagina is daarentegen bedoeld voor eindgebruikers, en laat een simpel beschikbaar/niet beschikbaar zien.

Wanneer je eenb statuspagina wilt toevoegen aan je infrastructuur dan heb je een hoop keuzes uit self-hosted (open-source) paketten, en betaalde diensten die door third-parties gehost worden. ZO kun je bijvoorbeeld beginnen met het overzicht van Awesome Status Pages op GitHub.

Wander vond daarentegen dat er iets simpels miste dat je met een enkel configuratie bestand ergens in een container of een VM kon draaien, specifiek geënt op OpenShift/Kubernetes of andere dingen die je met Prometheus kunt monitoren.

In deze video laat hij openshift-status zien, een klein tooltje dat een statuspagina voor één of meerdere clusters maakt aan de hand van Prometheus queries. Geen externe databases, of andere dependencies, alleen een enkele binary en een configuratie bestand.

CLI Monitoring met btop/bpytop

Iedereen die ooit wat op een Unix, Linux, of BSD commandline gedaan heeft kent waarschijnlijk het tooltje top wel. Een handig manier om snel een overzicht van het CPU en geheugen van je processen te krijgen. Nu is er niks mis met het top commando, maar het mist informatie over dingen als netwerk en disk gebruik, en erger nog, het ziet er niet 733t uit.

Blijf in Controle met Mission Center

In het verleden hebben we al vaker gekeken naar grafische systeem monitoring tools, maar er kan natuurlijk altijd meer bij.

Één van de meer recente toevoegingen aan het landschap is “Mission Center”, een tool die geïnspireerd lijkt door de standaard systeem mnonitoring view in nieuwere versies van Windows.

Een handige toevoeging van Mission Center is het ook kunnen bekijken van de load op verschillende delen van je videokaart(en), zoals de video encoding/decoding of het gebruik van de processors op je GPU.

Monitoring like an SRE: The Mindset

Today’s organizations increasingly depend on digital systems and services. Any disruption or downtime can have a significant impact on revenue, user experience and brand reputation. To mitigate such risks, Site Reliability Engineering (SRE) has emerged as a vital discipline that focuses on building and maintaining highly reliable and scalable systems. Effective monitoring stands as a fundamental pillar of SRE.

Custom Metrics op OpenShift

In OpenShift is een monitoring stack aanwezig, gebaseerd op Prometheus, die standaard al erg veel rijk metrics verzamelt over allerlei onderdelen van je platform. Zo kunnen applicatie-teams hier al standaard van alles in over vinden over het geheugen-, CPU-, disk-, en netwerk-gebruik van hun applicaties.

Wanneer een team hun applicatie wil verrijken met custom metrics dan kan dat ook, maar hier moeten wel zowel aan de platform kant als aan de applicatieve kant een aantal dingen voor gedaan worden.

IT-monitoring: ben jij wel ‘in control’?

IT-monitoring is een doorlopend, cruciaal onderdeel binnen elke organisatie. Loopt alles naar behoren? Zijn er afwijkingen die kunnen leiden tot incidenten? Veel professionals staan hier niet al te veel bij stil en doen dit elke dag via een vaste routine.

Deze blog heb ik speciaal geschreven voor de mensen die hun infrastructuur nog steeds monitoren zoals hun systeembeheerders het al jaren doen en vaak ook nog eens zien als de beste oplossing. Is het eigenwijsheid of onwetendheid?