Verslag incident: Data niet zichtbaar en bijbehorende monitors niet actief
Caresharing voert regelmatig checks uit op de data die is opgeslagen in Caresharing Collab. Deze checks zijn bedoeld om de kwaliteit van de data te controleren. Ons programma dat deze checks uitvoert is op woensdag 21 juni geüpdatet. Deze update was nodig om andere vernieuwingen, elders in Caresharing Collab, te kunnen ondersteunen.
Door een fout in de update werd sommige data ten onrechte naar een ander deel van de database verplaatst, waardoor de data niet meer direct beschikbaar was. Dit is niet opgemerkt in het testproces dat wij uitvoeren bij dit soort updates.
Het betrof voornamelijk data afkomstig uit het laboratorium. Het bovengenoemde programma dat checks uitvoert beoordeelde data uit deze bron verkeerd, waardoor de data onterecht verplaatst werd en dus niet meer direct kon worden gebruikt.
Het gevolg voor gebruikers was dat laboratoriumgegevens tijdelijk niet zichtbaar waren. De onbeschikbaarheid van laboratoriumgegevens had ook gevolgen in monitors: monitor-items bleven in sommige gevallen op rood staan, terwijl ze groen hoorden te zijn. Sommige monitors werden helemaal niet getoond.
Deze gevolgen werden door gebruikers gemeld bij Customer Care vanaf de ochtend van donderdag 22 juni. Deze meldingen werden eerst behandeld als afzonderlijke incidenten.
Op vrijdag 23 juni werd er een verband tussen deze incidenten opgemerkt. Op dat moment hebben we een bericht geplaatst op https://status.caresharing.eu/. Ons technisch team heeft de hierboven beschreven oorzaak toen in kaart gebracht, en de update van woensdag 21 juni teruggedraaid. Hiermee werd alle bovengenoemde data weer terug in het systeem geplaatst.
Tijdens het weekend van 24 en 25 juni werden maatregelen genomen om laboratoriumdata en monitors weer goed te tonen. Op zondagavond werd door het technisch team gemeld dat het incident volledig was opgelost. Op maandagochtend 26 juni plaatsten wij dit bericht op onze statuspagina.
Op maandag 26 en dinsdag 27 juni bleek dat er toch nog nieuwe meldingen werden gedaan gerelateerd aan het incident. De oplossing die geïmplementeerd was tijdens het weekend onderving nog niet alle situaties. Hierop zijn opnieuw aanpassingen gedaan, die actief werden op woensdag 28 juni. In de tussentijd was een groot deel van de meldingen inmiddels wel geheel opgelost. Op onze statuspagina plaatsten wij dat er nog aan het probleem werd gewerkt. Op maandag 3 juli sloten wij, na een periode van extra monitoring, het incident af.
Bovenstaand verloop is zowel in het technische team als in de operationele teams besproken, om herhaling te voorkomen. Het testproces voor updates is aangepast zodat vergelijkbare issues worden ontdekt nog voordat ze worden geïmplementeerd. Aan operationele zijde is extra aandacht besteed aan het communicatieproces, zodat incidenten niet meer worden gemeld als ‘opgelost’ voordat er uitgebreide monitoring heeft plaatsgevonden.
Wij hopen dat u door het lezen van dit bericht meer inzicht heeft gekregen in de manier waarop wij dit incident hebben aangepakt. Wij streven ernaar onze processen voor afhandeling van incidenten doorlopend te verbeteren.