Britannia käytti Exceliä koronan seuraamiseen - rivit loppuivat, tietoja katosi

Kirjoittaja Petteri Pyyny @ 6.10.2020 13:18 Kommentteja (1)

Nolo moka: Britannia käytti Exceliä koronavirustartuntojen tilastointiin, hukkasivat tuhansia tietoja Sarjassamme "ei näin". Iso-Britannian terveysviranomainen, Public Health England (PHE), on mokannut raskaasti Britannian virallisten koronavirustartuntojen tilastoinnissa ja ilmoituksessa.
Ongelma syntyi siitä, että PHE keräsi yksityisten laboratorioiden tekemien koronavirustestien tulokset haluamassaan muodossa. Tässä tapauksessa tuo muoto oli pilkkueroteltu tekstitiedosto, joka tunnetaan yleisesti nimellä CSV (comma-separated values, pilkkuerotellut arvot). Tässä ei ollut mitään ongelmaa, CSV-tiedostoja käytetään yleisesti tiedot välitykseen eri tavalla toimivien tietokantojen kanssa ja yksinkertaisuudestaan johtuen - tai sen ansiosta - CSV on yleensä erittäinkin pomminvarma tietomuoto.

Ongelman aiheuttikin viranomainen itse. PHE:n omat kehittäjät käyttivät CSV-tiedostojen keräykseen vanhaa Microsoft Excelin tiedostomuotoa, XLS:ää, johon CSV-muodossa saapuva data eri yksityisiltä toimijoilta automaattisesti siirrettiin.

Ongelma syntyi siitä, että vanha, vuonna 1987 käyttöön otettu XLS-tiedostomuoto tukee korkeintaan 65 000 tietueriviä. Uudempi Excelin itsensä käyttämä tiedostoformaatti, XLSX, jonka Excel otti käyttöön jo vuonna 2007, tukisi miljoonaa riviä. Kun 65 000 rivin raja tuli vastaan, katosivat sen jälkeen järjestelmään tuodut tiedot kuin se kuvaannollinen pieru Saharaan.



Ylipäätään taulukkolaskennan tiedostoformaatin käyttäminen datan talletukseen on vähintäänkin mielenkiintoinen veto. Kuten BBC:n artikkelissa todetaan, käytännössä jokainen lukioikäinenkin tietotekniikkaa opiskeleva tietää, että tiedon tallennukseen on olemassa rajaton määrä parempia tiedostomuotoja kuin Excel-taulukkolaskennan formaatti. Kevyetkin oikeat tietokannat soveltuvat tiedon tallennukseen selkeästi paremmin kuin XLS - ja siksi niitä käytetäänkin käytännössä aina.

Ongelmasta muodostui vielä kokoaan isompi siksi, että PHE välittää koronaviruksen ajantasaiset tartuntatiedot myös Britannian julkiselle terveydenhuollolle, NHS:lle. Tietojen katoamisen vuoksi NHS ei ole osannut ottaa yhteyttä positiivisen virustestin saaneisiin henkilöihin. Lisäksi myös maan oma tilastointi, jonka pohjalta mm. erilaiset liikkumisrajoitukset tehdään, pohjautuu PHE:n tuottamaan dataan. Joka oli siis Excelin käytön vuoksi tuhansien tapausten verran vinossa.

Möhläyksen vuoksi ainakin 15 000 ihmisen testitulokset puuttuvat julkisista tiedoista.

AfterDawnin diilit uutiskirjeenä!

Etsimme jatkuvasti hyviä tietotekniikan ja kännyköiden diilejä ympäri nettiä ja uutisoimme niistä sivuillamme. Jos haluat saada tiedon uusista diileistä heti sähköpostiisi, tilaa diilien uutiskirjeemme.

Tilaamalla uutiskirjeemme hyväksyt sääntömme ja tietosuojakäytäntömme.

Edellinen Seuraava Kirjoita kommentti

1 kommentti

17.10.2020 00:37

human error


Lost in bit space.

Kommentoi uutista

Mikäli sinulla ei ole vielä AfterDawn-käyttäjätunnusta, syötä allaolevaan kaavakkeeseen toivomasi käyttäjätunnus sekä sähköpostiosoitteesi. Lähetämme sinulle jälkikäteen aktivointilinkin antamaasi sähköpostiosoitteeseen.

Mikäli sinulla on jo ennestään AfterDawn-käyttäjätunnus, kirjaudu sisään seuraavan välilehden kautta.

Kirjaudu sisään käyttäen AfterDawn -käyttäjätunnustasi tai sähköpostiosoitettasi.




Uutisarkisto