Geokettle

Geokettle är en ETL applikation för hantera dataflöden genom att:

  • Extrakt - hämta 
  • Transform - bearbeta
  • Load - Ladda

Geokettle används för att automatisera dataströmmar så att de passar in i och kan integreras med annan information. Genom det grafiska gränssnittet kan ibland mycket komplexa uppgifter lösas på ett överskådligt sätt. Många datakällor kan läsas, bearbetas och integreras med varandra. Resultatet kan skrivas ut i filer eller tabeller med helt annan struktur.  Geokettlle stöder många typer av datakällor, speciellt alla spatiala format och inte minst  Open Geospatial Consortium (OGC) standarden.

Mer dokumentation finns under Spatialytics ETL

 

Applikationen

Applikationen har ett grafiskt utseende.

Steg

Vänstra sidan består av listor med många funktioner som kan dras in  på arbetsytan och kallas  "steg". Det finns hundratals steg att välja mellan. Så många att nästan alla typer av data kan läsas, transformeras och skrivas.

Hopp

Stegen kan sammanbindas med pilar som kallas "hopp".  Bilden visar applikationen Geokettle med Transformationen 'GeonamesToPostgres' aktivt på skrivbordet. Hoppen styr flödet som kan fördelas på olika sätt beroende på resultatet av ett enskilt steg.

Parametrar

Varje steg innehåller fält där värden kan skrivas in. Värdena kan vara variabler som sätts när en körning ska påbörjas eller som parametrar vid start från script. Bilden bredvid innehåller egenskaperna från steget "CVS file input" i bilden ovan och där filnamnet sätts samman av två parametrar.

Två typer av flöden

Jobb

Jobb är ett flöde som är seriellt och varje steg måste avslutas innan nästa påbörjas. Ett typiskt jobb kan vara att som bilden nedan visar; hämta en fil, packa upp den och kalla på en transformation för att bearbeta den.

Transformation

Transformation är ett flöde som pågår genom alla steg samtidigt. Typiskt exempel från första bilden där data läses från en fil, rad för rad med flödet fortsätter till nästa steg som beräknar en geometri som sen går vidare till att bestämma en kartprojektion, vidare till ett filter som bestämmer vilka attribut som ska finnas med innan det sista steget skriver informationen till en databastabell. Flera dataströmmar kan bearbetas samtidigt och varje dataström kan också delas genom olika villkor. Multipla datakällor kan går samman till en ström och vice versa kan en ström skrivas till olika tabeller eller filer.

Jobb och transformationer kan kalla på varandra och på så vis kan mycket komplexa dataflöden hanteras. Jobb och transformationerna kan köras direkt från Geokettle

 

Automatisering

Starta från en kommandorad

Efter att jobb och/eller transformationer är klara och gör det de ska, kan de sen köras utan att behöva starta Geokettle. De körs då istället i en konsolmiljö. Kommandot med sina parametrar kan sparas i en fil och en hel datakörning kan köras igång med ett klick.

Automatisera från operativsystemet

Operativsystemet, Windows, Linux, m.fl. med dess egenskaper att automatiskt starta processer, t.ex. på en viss tid, gör att en datakörning helt kan automatiseras.