Videó-alapú azonosítási platform skálázása

2024. dec. 1.

Client: Egészségügyi technológiai szolgáltató

KubernetesPrometheusGrafanaDockerNode.js
View Project →

Ez a projekt egy videó-alapú azonosítási platform átalakítását foglalta magába, amely kritikus éles környezeti problémákat tapasztalt a csúcs használati időszakokban egy megbízható, skálázható rendszerré.

A kihívás

A platform kritikus azonosítási folyamatokat kezelt, de az állásidő és a teljesítményproblémák befolyásolták a szolgáltatás elérhetőségét. A rendszer nem rendelkezett megfelelő megfigyelhetőségi képességekkel a problémák gyors diagnosztizálásához, és a skálázási mechanizmusok nem kezelték hatékonyan a csúcs terheléseket.

Megoldásunk

Mint Site Reliability Engineers, három alapvető pillérre fókuszáltunk:

1. Éles környezeti stabilitás

Átfogó monitorozási és riasztási rendszereket implementáltunk Prometheus és Grafana használatával, amelyek láthatóságot biztosítanak az alkalmazás minden rétegébe. Világos SLI-k és SLO-k megállapításával proaktívan tudtunk kezelni a problémákat, mielőtt azok kritikus incidensekké váltak volna.

2. Infrastruktúra skálázhatóság

Docker-rel konténerizáltuk az alkalmazást, és Kubernetes-szel orchestráltuk, lehetővé téve a vízszintes skálázást a kereslet alapján. Az infrastruktúra most automatikusan alkalmazkodik a forgalmi csúcsok kezeléséhez manuális beavatkozás nélkül.

3. Megfigyelhetőség és megbízhatóság

A disztribuált tracing és strukturált naplózás implementálásával jelentősen csökkentettük az átlagos helyreállítási időt (MTTR). A platform most 10x-ös korábbi csúcs terhelést képes kezelni, miközben 99.9%-os üzemidőt tart fenn.

Eredmények

  • 99.9% üzemidő elérve a csúcs használati időszakokban
  • 10x kapacitás növekedés automatikus skálázással
  • 80% csökkenés az incidens válaszidőben
  • Nulla kritikus incidens az implementáció óta

A platform most éles környezetben használható és zökkenőmentesen skálázható a növekvő igények kielégítésére.