Tartalomjegyzék:
Videó: Талита Уильямс: Владейте данными о своём теле (November 2024)
Idén május végén, pontosan öt hónappal az Egyesült Államok 45. elnökének hivatalba lépése óta, az új közigazgatás tudomány és éghajlatváltozás iránti álláspontjával foglalkozó emberek csoportja ünnepelte saját különleges évfordulóját.
Nem messze az észak-texasi egyetem campusától, a Dallas-tól északra fekvő síkságon, több tucat ember találkozott a Data Rescue Dentonnál, hogy azonosítsák és letölthessék a szövetségi éghajlati és környezeti adatkészletek másolatait. Ezek a hackathon stílusú összejövetelek nagy figyelmet szenteltek az inaugurációt közvetlenül megelőző napokban; A Denton január óta az 50. ilyen esemény volt.
A kezdetben azon aggodalomra helyezve, hogy az új közigazgatás törli vagy elhomályosítja az éghajlatot és más környezeti adatokat, az adatmentők legrosszabb félelme valószínűleg valóra vált, amikor a Trump Fehér Ház egyik első akciója az volt, hogy az éghajlatváltozási oldalakat törölje a weboldaláról. Ezután az Egyesült Államok Mezőgazdasági Minisztériuma, miután eltávolította az állatjóléti ellenőrzési jelentéseket a weboldaláról, válaszolt a Nemzeti Földrajzi Információs Szabadságról szóló törvényre, amelyre 1.771 oldal teljes mértékben szerkesztett anyagot nyújtott be.
Bárki hozzáférhet a több mint 153 000 szövetségi adatkészlethez a központi kormányzati nyílt adatportálon, a data.gov címen. De ez csak egy töredéke azoknak az adatoknak, amelyek a kormányzati bürokrácia ködében léteznek, ne törődj vele a szerver még kisebb részével sem.
"Valahol a kormány információinak körülbelül 20 százaléka elérhető interneten" - mondta Jim Jacobs, a Stanfordi Egyetemi Könyvtár szövetségi kormányának információs könyvtára. "Ez egy meglehetősen nagy darab, ami nem érhető el. Noha az ügynökségek rendelkeznek saját wikikkel és tartalomkezelő rendszerekkel, csak akkor tudhat meg belőle néhányat, ha valaki FOIA-val használja."
Az biztos, hogy nagyon sok információ elfoglalt és most nem kormányzati szerverekön található. Az Data Refuge események és olyan projektek között, mint például a 2016. évi végső feltérképezés, több mint 200 TB kormányzati webhelyeket és adatokat archiváltak. A mentő szervezők azonban rájöttek, hogy a kormányzati ügynökségek tudományos adatainak terabyte-os teljes másolatának készítésére irányuló részleges erőfeszítések hosszú távon nem valósíthatók meg realisztikusan - olyan lenne, mintha a gyűrűvel kiengednék a Titanicot.
Tehát, bár a Data Rescue Denton az egyik a végső szervezett rendezvénye volt, a közös erőfeszítés szélesebb közösséget ösztönözött arra, hogy összehangoltan dolgozzon annak érdekében, hogy a kormányzati adatok felfedezettebbé, érthetőbbé és felhasználhatóbbá váljanak, írta Jacobs egy blogbejegyzésben.
Keresek a könyvtárakhoz
A Pennsylvaniai Egyetemen Bethany Wiggin a Penn Környezettudományi Program igazgatója, ahol központi szerepet tölt be az Data Refuge mozgalomban, az Data Rescue események kezdeményezője. A hangsúly most - a helyi alapú, időszakos epizódok helyett - elmozdult a hosszú távú erőfeszítések nemzeti kereteinek kiaknázása felé.
"Megértettük azokat a készségeket, amelyek a különböző helyszíneken fejlődtek ki mentőadat-események során, és valami méretezhető" - mondta Wiggin, különösen a kutatási könyvtárak között. "De ezek az erőfeszítések mindegyikük megkezdődött, mielőtt elindítottuk. A Data Refuge ereje az volt, hogy megvastagítsa ezeket a kapcsolatokat; katalizálja a régóta működő, lassan haladó projekteket, és rávilágítson rá, mennyire fontosak."
Wiggin a közelmúltban hozzájárult a Libraries + Network vezetéséhez, amely a kutatási könyvtárak, a könyvtári szervezetek és a nyílt adatcsoportok kialakulóban lévő partnersége, melyet a könyvtárak hagyományos szerepének kibővítése katalizált az információkhoz való hozzáférés megőrzésében. A résztvevők között szerepel a Stanford Egyetem kutatókönyvtára, a Kaliforniai Digitális Könyvtár és a Mozilla Alapítvány, olyan befogadókkal és együttműködéssel, amelyek olyan széles körű szervezetek, mint a Nemzeti Levéltár és a több szövetségi iroda vezető adatvezetői.
Az egyik projekt például a LOCKSS ("sok másolat biztonságban tartja a cuccokat"), amelyet Jacobs már évek óta koordinál. Ugyanazon az elvre épül, mint egy 200 éves könyvtári hálózat, amelyet a Szövetségi Letétkezelő Könyvtár Programnak hívnak; ezek a könyvtárak az Egyesült Államok Kormánynyomtató Irodájának (GPO) hivatalos kiadványai.
A LOCKSS ezzel szemben a rendszer magántulajdonban lévő digitális verziója, amely eddig 36 könyvtárból áll, amelyek a GPO-tól együttműködésben gyűjtik ki a kiadványokat. Ez egy olyan modell, amellyel a digitális információt széles körű fizikai szétszórás révén meg lehet védeni a törlés vagy a manipuláció ellen.
"Nem tudja biztosítani a megőrzést, hacsak nem rendelkezik a tartalom ellenőrzésével" - mondta Jacobs. "A letétkezelő könyvtárakat az elmúlt 200 évben fontosnak és hasznosnak tette az, hogy a kormányban senki sem tudta szerkeszteni egy dokumentumot anélkül, hogy 1500 könyvtárba ment volna és azt mondaná:" Igen, változtassa meg ezt az oldalt itt. ""
A LOCKSS szoftver a tartalom gyorsítótárát ellenőrzi bitszinten, és összehasonlítja azt más könyvtárak birtokában lévő tartalommal, amely Jacobs szerint a leromlott fájlok javításán keresztül segíti a hosszú távú megőrzést.
John Chodacki, a Libraries + Network újabb együttműködője, a California Digital Library kurátori igazgatója, egy virtuális információs eszköz, amely a Kaliforniai Egyetem rendszerének mind a 10 campusát kiszolgálja. Chodacki, együttműködve a Code for Science and Society fejlesztőjével, Max Ogden-kel és Philip Ashlock-szal, a data.gov főépítészével, hangsúlyozza, hogy a data.gov kétoldalú utcaként történő felhasználására összpontosítottak.
Először bebizonyították, hogy maga az adatmentés sokkal hatékonyabb lehet, ha magát az adat.gov másolatát begyűjti, és egy külső webhelyre, a datamirror.org oldalra helyezte, a megfigyelő szkriptekkel, amelyek ellenőrzik a frissítéseket. Aztán Chodacki és munkatársai szintén megvizsgálták, hogy a tükörbe beküldött adatkészletek és metaadatok bekerülhetnek-e az ügynökségek meglévő data.gov munkafolyamatainakbe a tükörben lévő stub oldalakon.
Az Obama 2013. évi végrehajtási végzése szerint, amely kötelezővé tette a data.gov gépi olvashatóságú adatok közzétételét, az ügynökségek továbbra is felelősek az ezen a portálon felsorolt rekordok létrehozásáért; Chodacki és Ogden elképzelése az, hogy a javasolt adatkészletek tömeges beszerzése egyszerűen elősegíti a munkaterhelés elosztását.
"Nem kell a teljes ökoszisztémát megismételnünk" - mondta Chodacki. "A szövetségi kormány és ezek az ügynökségek sokkal hosszabb ideig foglalkoznak az adatokkal, mint amilyen aggódó volt a nagy adatokról beszélni, sokkal robusztusabban, mint bárki másnál."
Köz-magán társulások
A költségek kérdése nyilvánvaló, amikor az ügynökségek képesek azonosítani, mely adatkészletek a legértékesebbek a nyilvánosság számára, majd a kormányzati portálon közzéteszik metaadataikhoz vagy tényleges adatállományukhoz mutató linkeket. A Kongresszusi Költségvetési Hivatal (CBO) jelentése a jelenleg a Szenátusban megnyitott OPEN kormányzati adatvédelmi törvényjavaslatról - amely az Obama végrehajtó rendjét törvénybe kodifikálná - becslései szerint annak teljes végrehajtása 2 millió dollárba kerül 2018 és 2021 között.
Kormányzati pénzben kifejezve, ami lényegében nem jelenti a kiadások valódi növekedését, zárta a CBO.
A hatékonyság azonban egy másik kérdés, amelyet Ed Kearns a Nemzeti Óceáni és Légköri Adminisztrációnál kísérletezik a magánpartnerekkel együtt, köztük az Amazon Web Services és a Google. Kearns, az NOAA vezérigazgatója elmondta, hogy a nagy adatprojekt egyik fő célja az NOAA-adatok nyilvános hozzáférhetőségének és felhasználásának fokozása.
A vállalatok meghatározzák, mely adatkészleteket akarják, és a NOAA minden további költség nélkül továbbítja azokat a nyilvánosság számára. Bármi van az NOAA-val, az az asztalon van - mondta Kearns, de az ötéves partnerség célja nem az, hogy minden NOAA-adatot felhőbe juttasson - csak stratégiai darabokat.
Az ilyen adatkészletek magánvállalatok felhőszolgáltatásainál történő tárolása számos előnyt kínál a 80-as évek stílusú FTP-hozzáféréshez, amely továbbra is standard a nagy adatállományok szövetségi ügynökségektől történő továbbítására. Először is, a NOAA adatállománya általában hatalmas - az ügynökség figyelemmel kíséri a Föld óceánjait, a légkört, a napot és az űr időjárását -, és néha hetekre vagy hónapokra van szükség a nyilvános kézbesítéshez.
Példa erre az ügynökség nagy felbontású NEXRAD II. Szintű Doppler radar-archívuma. Az amerikai meteorológiai társaság májusban közzétett tanulmánya szerint a teljes 270 terabyte NEXRAD archívum 2015 októberében történő átadása egyetlen ügyfélnek 540 napot igényelt volna, 203 310 USD költséggel. Az archívum teljes példánya még soha nem volt elérhető külső elemzéshez, mielőtt a NOAA együttműködött az Amazon-szal és a Google-lal, hogy egy felhőbe tegyék.
A kísérletnek érdekes korai eredményei is voltak a felhasználás növekedésével. A NOAA időjárási és előrejelzési weboldalai már a legmagasabb szintű forgalmat érik el a kormányzati oldalak között, de miután a Google nemrégiben integrált egy, körülbelül egy méretű éghajlati és időjárási adatkészletet a BigQuery adatbázisába, a vállalat beszámolója szerint 1, 2 adatlapot bocsátott ki ennek az adatállománynak. január 1-jétől április 30-ig - sokkal több, mint valaha hasonló időkereten keresztül volt elérhető NOAA szerverekből.
"A Google egy teljesen új közönség számára nyitotta meg azt" - mondta Kearns.
Nem csak az eső és az évszakos hőmérséklet. A Big Data partnereken keresztül már elérhető adatkészletek tartalmazzák a halászati információkat, a tengeri időjárást és az IBM által üzemeltetett katalógust, amely felsorolja a NOAA központok aktuális, előrejelzési, történelmi és térinformatikai adatkészleteit. A jövőbeli adatkészletek információkat tartalmazhatnak az ökoszisztémákról és a halászati genomikáról.
De a tervezés révén a partnerség lehetővé teszi az együttműködők számára, hogy cseresznyeket válasszanak a legjobban, és leginkább azzal a kockázattal járnak, hogy homályos, mégis potenciálisan nagy értékű adatkészletek nem látnak sok napfényt. Kearns szerint túl korai lenne azt mondani, hogy mi lehet értékes.
"Megdöbbentő számunkra az, hogy ezekkel az adatokkal mit lehet tenni, " - tette hozzá. "Nem tudjuk elképzelni az összes lehetséges felhasználást."
Kisebb léptékben Philadelphia városa egy magánjogi szervezettel is együttműködött a nyilvánosság adatállományainak közzététele érdekében, amely szerint a leghasznosabb. Noha a város mérete több napi működési manőverező képességet nyújt, mint egy szövetségi entitás, a Philly modellje az egyik megközelítés a még nem tették közzé az adatkészletek kiadásának stratégiáját.
Az Azavea, az adatmegjelenítésre szakosodott Philly-alapú szoftvercég, együttműködött a város információs tisztviselőjével, Tim Wisniewski-vel, hogy kidolgozza egy olyan nem közzétett adatkészlet listáját, amelyet a városban működő nonprofit szervezetek érdekelhetnek. Wisniewski és Azavea a város online metaadat-katalógusát és a városi osztályok bemeneteit is felhasználta a lista kidolgozásához. Az Azavea és más partnerek ezután bekerítették a listát a Philadelphia nonprofit szervezetekbe, és elindították az OpenDataVote nevű versenyt, amellyel a nyilvánosság szavazhat az ezen nonprofit szervezetek által benyújtott projektekről arról, hogy miként használják a kívánt adatkészleteket.
A közelmúltban nyertesnek bizonyult az oktatási nonprofit MicroSociety által előterjesztett javaslat, amely szerint a Philadelphia School District adományozóira vonatkozó városi adatokat használják fel a nonprofit programok iskolákban való hatásának mérésére.
"Azt mondhatjuk, hogy ez a város nonprofit szervezet érdekli egy adott adatkészletet, mert meg tudnak csinálni valamit vele, és hogy ez a sok ember támogatja őket" - mondta Wisniewski. "Lehetővé teszi, hogy a kezünkbe megyünk az osztályokhoz, ha egy szilárd felhasználási esetünk van, ahelyett, hogy azt mondanánk, hogy hé, tegye csak közzé ezeket az adatokat.
Régi adatok és az új
De mi történik akkor is, ha rengeteg hozzáférés van a már rendelkezésre álló adatokhoz, amikor az új politikák és finanszírozási irányelvek azt jelentik, hogy maga az adatok már nem keletkeznek? Ez valódi aggodalomra ad okot - mondta Ann Dunkin, aki Obama elnök alatt a Környezetvédelmi Ügynökség fő információs tisztje volt, és most Kaliforniában a Santa Clara megye informatikai vezetője.
"Az embereket aggasztják a régi adatok, de leginkább attól tart, hogy az új adatokat nem a korábbival azonos sebességgel bocsátják rendelkezésre, vagy egyáltalán nem állítják elő" - mondta Dunkin.
A Science magazin által a 2018. évi javasolt szövetségi költségvetés egyik elemzésében számos kormányzati ügynökség jelentős csökkentést valósítana meg kutatási költségvetésében, ha a költségvetést a javasolt módon fogadják el. A Nemzeti Egészségügyi Intézetekben megközelítőleg 22% -kal csökkentett összeg a kutatási egyetemeknek történő kifizetésekből származik; a NASA költségvetési kérelme kiküszöböli az üvegházhatású gázok kibocsátásának és más földtudományi programok nyomon követésének kezdeményezéseit. A NOAA éghajlati programjait szintén le lehet zárni hasonló szintű csökkentésekkel.
Hivatali ideje alatt az EPA arra törekedett, hogy adatgyűjtését eszközévé tegye bárki számára, hogy megértse környezetének egészségét és hogyan reagáljon rá. Rossz levegő nap? Ne menj kint. Csökkenti a szennyeződést? Tartsa távol a gyerekeket.
"Remélem, hogy vissza fog térni" - tette hozzá Dunkin. "Lehet, hogy tévedek, de ha azt mondod, hogy nem fogjuk rendelkezésre bocsátani az adatokat, akkor a logikus következtetés az, hogy az adatkészletek segíthetnek a nyilvánosság tagjainak elérésében, vagy pedig nem előállítják őket."
A Data Refuge Wiggin egy, a témához kapcsolódó történetmesélési projekten dolgozik, amely azt reméli, hogy további embereket ösztönöz majd az adatok folyamatos közzétételére, és alapot teremt a meglévő adatgyűjtési programok folytatására a szövetségi kormányban. A „Három történet a városunkban” elbeszélések a szövetkezeti adatok gyakran elrejtett hatásait mutatják be váratlan helyeken, először Philadelphiában, majd az ország többi részén.
"A Data Refuge mozgalom döntő eleme, amikor a következő szakaszba lépünk, segít az embereknek megérteni, milyen széles körben használják a szövetségi szinten előállított adatokat életükben" - mondta Wiggin. "Akár éghajlatnak, egészségnek vagy közbiztonságnak hívják, az továbbra is szövetségi adatok. Közösségekben, a városházaban, a rendőri erőfeszítésekben, a katonaságban. Nem szabad emlékezni arra, hogy mennyire fontosak ezek az adatok."
Erőforrások:
- EPA Environmental Dataset Gateway: A Környezetvédelmi Ügynökség metaadat-portálja.
- Open Data @ DOE: az Energiaügyi Minisztérium nyílt adatportálja.
- Az USDA Gazdaságkutatási Szolgáltatási Adatportálja
- NOAA Big Data Resources: Linkek a Big Data partnerek platformoldalainak, amelyek a NOAA által generált adatokat tárolják.
- Észak-Texasi Egyetem: Cyber Cemetery: Egy elhasználódott, elavult vagy redőnyös kormányzati weboldal archívuma.
- Környezeti adatok és kormányzási kezdeményezés Archiváló projekt oldal: Eszközök, kódok és alkalmazások a kormányzati adatok felfedezéséhez és archiválásához.
- Internetes archívum visszatérő gép
- Internetes archívum: Hogyan lehet elmenteni az oldalakat a visszacsatológépen: Hat módszer lehet az oldalak archiválásra történő kijelölésére.
- Kaliforniai Digitális Könyvtár: Végső web-archívum: Az Egyesült Államok kormányának weboldalainak gyűjteménye, amelyet a végső feltérképezésekről mentettek, 2008-tól napjainkig.
- FreeGovInfo.info: Széles körű tartalom az állami és szövetségi szintű adatportálokkal, valamint a nyílt adatokkal kapcsolatos híreket tartalmazó archívumok archívumával.
- Climate Mirror: Önkéntesen összegyűjtött klímaadatok gyűjteménye.
Ez a történet először a PC magazin digitális kiadásában jelent meg. Feliratkozás ma, eredeti eredeti történetek, hírek, áttekintések és hogyan!