Certifikat udløb-nedbrud: Postmortem-skabelon til IT-teams

Dette er en sammenstykket postmortem baseret på reelle mønstre fra certifikatudløbshændelser. Organisation, navne og specifikke detaljer er fiktive — fejlmodi, tidslinje og læringer er det ikke. Brug dette som skabelon til at dokumentere og lære af jeres egne hændelser.

Hændelsesresumé

Dato: Tirsdag, [Dato]
Varighed: 4 timer 17 minutter (03:14 – 07:31)
Påvirkning: Autentifikationstjeneste utilgængelig. Alle brugere ude af stand til at logge ind. Cirka 2.400 mislykkede loginforsøg under nedbrudsvinduet. Tre enterprise-kunder kontaktede support inden intern detektion.
Grundårsag: TLS-certifikat på autentifikations-API-endepunktet udløb kl. 03:14. Certifikatet var ikke i den overvågede inventar. Fornyelsesadvarsel blev sendt til en distributionsliste der var deaktiveret seks måneder tidligere under en teamomstrukturering.
Alvorlighed: P1

Tidslinje

18 måneder tidligere: Autentifikationstjeneste migreret fra monolit til separat microservice. Nyt underdomæne oprettet (auth-api.ditdomæne.dk). Certifikat skaffet manuelt via CA-portalen. Tilføjet til et overvågningsregneark vedligeholdt af ingeniøren der ledede migrationen.

12 måneder tidligere: Ingeniøren der ledede migrationen skifter til et andet team. Regnearket overdrages ikke. Certifikatovervågningsansvar er effektivt uassigneret.

45 dage tidligere: CA sender fornyelsespåmindelse til den e-mailadresse der blev angivet ved certifikatudstedelse — en teamdistributionsliste der blev udfaset under en reorganisering. E-mailen bouncer. Ingen modtager den.

14 dage tidligere: CA sender anden påmindelse. Samme resultat.

03:14: Certifikat udløber. Autentifikationstjeneste begynder at returnere TLS-fejl til alle klienter.

03:14 – 05:40: Ingen interne advarsler affyres. Syntetisk overvågning dækker hovedwebsitet og tre primære API-endepunkter. Auth-api-underdomænet er ikke i den syntetiske overvågningskonfiguration.

05:40: Første supportsag oprettet af en enterprise-kunde der rapporterer "login virker ikke." Sag tildelt supportkø med standardprioritet.

05:58: Anden enterprise-kunde mailer sin account manager direkte. Account manager eskalerer internt.

06:03: On-call ingeniør paged. Begynder undersøgelse.

06:11: Grundårsag identificeret — TLS-certifikatudløb bekræftet ved brug af openssl s_client. Certifikat viser not-after tidsstempel i fortiden.

06:11 – 07:20: Nødfornyelsesproces for certifikat. CA-portallogin-legitimationsoplysninger ikke i password manager — gemt lokalt på laptopen til ingeniøren der oprindeligt opsatte tjenesten. Nødkontakt for at hente legitimationsoplysninger. Manuel domænevalidering. Certifikatudstedelse. Certifikatinstallation og tjenesterestart.

07:31: Autentifikationstjeneste bekræftet operationel. Alt-klart kommunikeret til berørte kunder.

Total varighed: 4 timer 17 minutter.

Bidragende faktorer

1. Certifikat ikke i managed inventar. Auth-api-certifikatet var i et personligt regneark, ikke teamets certifikathåndteringssystem. Da den ansvarlige ingeniør skiftede teams, blev certifikatet effektivt usporet.

2. Fornyelsesadvarsler routet til en forældet e-mailadresse. Certifikatet blev udstedt med en team-e-mailadresse der blev udfaset under en reorganisering. CA-fornyelsespåmindelser havde ingen steder at gå.

3. Overvågningsgab på det berørte underdomæne. Den syntetiske overvågningskonfiguration blev oprettet inden autentifikationsmicroservice'en blev splittet ud. Det nye underdomæne blev aldrig tilføjet til overvågningsomfanget. Vores guide til at bygge en komplet certifikatoversigt beskriver hvordan automatiseret opdagelse lukker dette hul.

4. Legitimationsoplysningsstyringsfejl. CA-portalens legitimationsoplysninger var gemt lokalt frem for i det delte legitimationsoplysningslager. Dette forlængede hændelsen med over en time mens legitimationsoplysninger blev hentet.

5. Ingen certifikatinventarejerskabsproces. Der var ingen proces der krævede at certifikatejerskab overdrages når ingeniører skifter teams eller forlader organisationen. Ejerskab blev implicit og derefter fraværende.

Hvad der ikke var en bidragende faktor

Det er værd at bemærke hvad der ikke forårsagede denne hændelse:

Certifikatet selv var gyldigt og korrekt konfigureret da det først blev udstedt.
Fornyelsesprocessen, når den erst var igangsat, virkede korrekt.
Teamets reaktion når hændelsen var detekteret var kompetent og rimeligt hurtig.

Fejlen lå fuldstændigt i processerne omkring certifikatlivscyklusstyring — ikke i certifikatteknologien selv. Dette er mønsteret i næsten alle certifikatudløbshændelser: certifikatet gør hvad det skal, og fejlen er i de menneskelige og procesmæssige systemer der er ment til at styre det.

Handlingspunkter

Øjeblikkelig (inden for 48 timer):

Auditér alle certifikater på tværs af alle underdomæner ved brug af CT-log-enumeration. Producér en komplet liste over hvert certifikat knyttet til organisationens domæner.
Tilføj alle opdagede certifikater til det centrale certifikathåndteringssystem med tildelte ejere.
Tilføj auth-api og alle andre manglende underdomæner til den syntetiske overvågningskonfiguration.
Flyt CA-portallegitimationsoplysninger til det delte legitimationsoplysningslager.

Kortfristet (inden for 2 uger):

Implementer certifikatovervågning med advarsler ved 90, 60, 30 og 14 dage inden udløb. Rout advarsler til funktionelle teamadresser, ikke individuelle eller midlertidige distributionslister.
Definer og dokumenter processen for certifikatejerskabsoverdragelse når ingeniører skifter teams.
Gennemgå alle certifikater for fornyelsespåmindelseskontaktadresser. Opdater dem der peger på individuelle adresser eller forældede distributionslister.

Mellemfristet (inden for 6 uger):

Evaluer ACME-automatisering for alle certifikater hvor det er teknisk muligt. Mål: eliminer manuel fornyelse for alle produktionscertifikater.
Implementer kontinuerlig CT-overvågning så nye certifikater udstedt til organisationens domæner detekteres automatisk og tilføjes til det managed inventar.
Kør en tabletop-øvelse der simulerer certifikatudløb på en anden kritisk tjeneste for at validere at responsprocessen virker inden den er nødvendig i en reel hændelse.

Brug denne skabelon til jeres egne hændelsesanalyser

En god postmortem er skyldfri — den fokuserer på systemiske fejl, ikke individuelle fejltagelser. Ingeniøren der ikke overdrog regnearket fulgte ingen bestemt proces, fordi ingen proces eksisterede. Svaret er ikke at bebrejde individet men at bygge den proces der gør individets afgang irrelevant for certifikatkontinuitet. Den bredere fremgangsmåde er beskrevet i vores guide til at undgå udløbne certifikater.

Spørgsmålene der er værd at stille i enhver certifikatudløbspostmortem:

Hvordan endte dette certifikat uden for det managed inventar?
Hvem var ansvarlig for at overvåge dette certifikat — og vidste de det?
Hvilke advarsler var konfigureret? Hvortil gik de? Modtog nogen dem?
Hvem lang tid gik der mellem udløb og detektion? Hvorfor var detektion ikke hurtigere?
Hvad forlængede løsningstiden? Var legitimationsoplysninger, adgang eller procedurer utilgængelige?
Hvilken procesændring gør denne specifikke fejlvej umulig i fremtiden?

CertControl adresserer de systemiske huller der gør certifikatudløbshændelser tilbagevendende frem for engangsforekomster: kontinuerlig inventar fra CT-logs, overvågning med funktionel advarselsrouting, ACME-automatisering hvor muligt og rapportering der gør certifikatlandskabet synligt for de ansvarlige. Se vores artikel om certifikat-alarmopsætning for konkrete anbefalinger til advarselsrouting og eskaleringslag.

Hvad CertControl gør for at forhindre denne hændelse i at gentage sig

De fem bidragende faktorer i postmortem'en ovenfor er ikke specielle for denne organisation — de er standardmønstrene. Her er hvordan CertControl lukker hvert hul:

Certifikat ikke i managed inventar — lukket via CT-log-opdagelse. CertControl forespørger Certificate Transparency-logs og opdager automatisk alle certifikater nogensinde udstedt til jeres domæner — inklusiv underdomæner oprettet under migrationer, certifikater udstedt af andre teams og systemer ingen internt kendte til. Auth-api-certifikatet ville have været i registret fra dag ét, ikke i en ingeniørs regneark.
Advarsler routet til forældet e-mailadresse — lukket via navngivet ejerskab i systemet. Hvert certifikat i CertControl har en navngivet ejer tildelt i platformen. Advarsler routes til den person direkte — ikke til en CA-distributionsliste der kan udfases under en reorganisering. Ejerskab er i systemet; det forsvinder ikke når ingeniøren skifter team.
Overvågningsgab på underdomæne — lukket via automatisk opdagelse af nye udstedelser. CertControl overvåger CT-logs løbende og opdager automatisk nye certifikater på dine domæner. Nye underdomæner og tjenester tilføjes til overvågningsinventaret uden at nogen manuelt skal huske at tilføje dem til en konfiguration.
Legitimationsoplysninger ikke tilgængelige under hændelse — reduceret via ACME-automatisering. For certifikater der understøtter det eliminerer CertControls ACME-integration selve fornyelsesbehov og dermed behovet for CA-portaladgang. Certifikater fornyes automatisk inden udløb; scenariet med at skulle hente legitimationsoplysninger fra en fraværende kollegas laptop opstår ikke.
Ingen ejerskabsoverdragelsesproces — lukket fordi ejerskab er i systemet, ikke hos personer. Når en ingeniør skifter team, er certifikatejerskabet stadig i CertControl. En leder kan se hvilke certifikater der er tildelt den fraflyttende ingeniør og reassigne dem — i stedet for at opdage huller 18 måneder senere kl. 03:14.

Ofte stillede spørgsmål

Hvad var grundårsagen til dette certifikatnedbrud?

Et TLS-certifikat på et autentifikations-API-endepunkt udløb fordi det aldrig var i det managed inventar. Fornyelsespåmindelser gik til en distributionsliste der var udfaset under en teamomstrukturering, så ingen modtog dem, og underdomænet manglede i den syntetiske overvågning.

Hvorfor tog det over fire timer at løse?

Selve detektionen var forsinket fordi ingen interne advarsler dækkede det berørte underdomæne — det første signal kom fra en kundes supportsag to en halv time inde. Løsningen blev derefter forlænget med over en time fordi CA-portalens legitimationsoplysninger var gemt lokalt på en fraværende ingeniørs laptop frem for i det delte lager.

Hvad gør en certifikatudløbspostmortem nyttig?

Et skyldfrit fokus på systemiske fejl frem for individuelle fejltagelser. Nøglespørgsmålene er hvordan certifikatet forlod det managed inventar, hvem der ejede overvågningen, hvortil advarslerne gik, hvorfor detektionen var langsom, hvad der forlængede løsningen, og hvilken procesændring der gør netop den fejlvej umulig i fremtiden.

Hvordan forhindrer man at denne slags nedbrud gentager sig?

Byg kontinuerlig inventar fra CT-logs så intet certifikat forbliver usporet, tildel navngivet ejerskab i systemet frem for til midlertidige distributionslister, rout advarsler til funktionelle adresser, opbevar CA-legitimationsoplysninger centralt, og brug ACME-automation hvor muligt så manuel fornyelse ikke er på den kritiske vej.

Hvad var udtrykkeligt ikke en bidragende faktor?

Selve certifikatteknologien. Certifikatet var gyldigt og korrekt konfigureret da det blev udstedt, fornyelsesprocessen virkede da den blev igangsat, og teamets reaktion efter detektion var kompetent. Fejlen lå fuldstændigt i de menneskelige og procesmæssige systemer der skulle styre certifikatets livscyklus.

Se platformen Book demo

TLS-certifikat udløb tog et login-flow ned: Postmortem-skabelon