Hoppa till huvudinnehåll

Baltic seabird dataset

Datamängden består av 2000 timmar videoinspelningar av lunnefåglar på Stora Karlsö, Sverige. Med AI har SLU använt datamängden för att studera och automatisera dokumentationen av fåglarnas beteenden. Data har dock också använts som en proxy datamängd av Zenseact under utvecklingen av autonom körning.

Baltic Seabird Dataset

Sammanfattning

Innehåll
Datasetet består av videoinspelningar på 2000 timmar av lunnefåglar Uria aalge - en sjöfågel som häckar på klippor i Östersjön. Kamerorna är installerade inuti en konstgjord häckningshylla för lunnefåglar, vilket ger unika möjligheter att filma fåglarna på nära håll.

Författare
Jonas Hentati Sundberg, docent vid Sveriges Lantbruksuniversitet (SLU)

Datatyp
Datasetet är en real-life och klass-obalanserad datamängd.

Anonymisering
Ingen anonymisering utfördes då datamängden inte innehåller några personuppgifter.

Annotering
2300 stillbilder annoterade med inramningar för de närvarande fåglarna och klassificering av dem som “Adult”, “Chick” and “Egg”.

Storlek
För närvarande, 28TB, men mer kan göras tillgängligt.

Tillgång
Datasetet är tillgängligt för alla AI Sweden partner. 

Villkor och regler
För att använda denna datamängd måste du följa Baltic Seabird Dataset Terms and Conditions tillgängliga nedan.

Baltic Seabird Dataset Terms and Condition

Specifikationer för datasetet

Videoinspelningar av lunnefåglar Uria aalge - en sjöfågel som häckar på klippor i Östersjön. Dessa fåglar tillbringar största delen av sin tid till havs, men från maj till juli varje år kommer de till Stora Karlsö för att lägga sina ägg på kalkstensklipporna.

CCTV-kamerasystemet installerades 2019. Inspelningarna för 2019 kommer från två kameror som filmar kontinuerligt med 60 bilder per sekund mellan 1 maj och 15 juli. Videomaterialet finns i .avi-filer med en genomsnittlig längd på 2 timmar och en total filstorlek på ungefär 2 TB. IR-ljus ger tydliga bilder även i totalt mörker.

År 2020 användes 4 kameror, vilket genererade cirka 5 TB data. På grund av COVID-lockdown besökte inga turister ön detta år, vilket ledde till ett ökat antal havsörnar och därmed ökade störningar för lunnefåglarna.

För att kunna använda maskininlärning har forskare från SLU och AI Sweden manuellt annoterat cirka 2300 stillbilder tagna från materialet med inramningar av ungefär 18000 objekt som tillhör någon av de tre kategorierna "Adult", "Chick", "Egg". Dessa annoteringar ingår i nedladdningspaketet för datamängden.

Mer specifikationer kan hittas här

 

Användningsfall hittills

1. SLU – Forskning om lunnefåglar med hjälp av AI

Challenge
I många år har SLU studerat beteendet hos lunnefåglar på Stora Karlsö med hjälp av CCTV. Arbetet innebar att titta på tusentals timmar av videoinspelningar för att identifiera olika beteenden hos fåglarna.

Tillvägagångssätt
Genom att utveckla en objektdetekteringsalgoritm som kan identifiera Adults, Chicks and Eggs, kunde SLU automatisera kategoriseringen av de olika beteendena samt identifiera nya.

De första stegen i utvecklingen av denna algoritm togs i Baltic Seabrid Hackaton som var samordnad av AI Sweden, SLU, och WWF 2019. Hackathonet resulterade i flera projekt, samt en tydlig avsikt från forskarna vid SLU att fokusera mer på AI-driven sjöfågelforskning.

Resultat
Genom denna metod kunde SLU spara månader av att titta på videoinspelningar samtidigt som de gick framåt i att upptäcka nya beteenden som är svåra för människor att identifiera.

Datavetare utvecklar för närvarande en målspårningsalgoritm för att följa individuella fåglar bildruta för bildruta, med målet att identifiera individuella fåglar. Sjöfågelforskare planerar att använda målspårningen av individer för att identifiera beteenden såsom socialisering, slagsmål, och parning.

Vidare läsning
→ Baltic Seabird Hackathon
→ Baltic Seabird Github Repo
→ The Baltic Seabird Project

 

 

2. Zenseact – Autonomous driving

Utmaning
Att övervinna svåra och tidskrävande juridiska hinder när man tränar federerade AI-modeller på verklig vägdata.

Tillvägagångssätt
Baltic Seabird-datasetet har viktiga likheter med data från autonom körning. För det första är datan verklig data, inte syntetisk. För det andra liknar utmaningarna relaterade till fågeldatasetet de som uppstår när man utvecklar lösningar för autonom körning. Exempel på detta är variationer i ljusförhållanden och skillnader i fåglarnas utseende, liknande skillnader mellan fotgängare. Men det finns också två viktiga skillnader mellan vägdata och fågeldata. Det finns ingen GDPR som reglerar sekretess för sjöfåglar, och det finns inga affärshemligheter gömda i datasetet.

Resultat
Tack vare tillgängligheten av Baltic Seabird-datasetet kunde Zenseact börja samarbeta med sina partners direkt och spara uppskattningsvis 6-12 månader av organisering och väntan på juridiska tillstånd. Kunskapen och erfarenheterna som samlades in genom att arbeta med proxydata i samarbete med andra var en annan fördel som påskyndade processen.

Lärdomar
1. Utveckla en förståelse för vad proxydata är och fördelarna det kan medföra, till exempel snabbare utvecklingstider, enklare samarbete med andra organisationer och möjligheten att bygga olika lösningar baserade på samma delade dataset.

2. Hitta dataset som är representativa för de utmaningar du har i det faktiska dataset som dina modeller kommer att använda. Utan dessa likheter mellan riktig data och proxydata kommer det vara svårt att dra generella slutsatser från arbetet med proxydata.

3. Hitta organisationer att samarbeta med. Dela kunskap med varandra och/eller jämför resultaten av olika lösningar.

Vidare läsning
→ What do breeding seabirds have in common with autonomous driving?
→ Working with proxy data in Data Factory 

Tillgång

Dataseten är tillgängliga för alla AI Sweden partner. Kontakta Beatrice Comoli för ytterligare instruktioner om hur du får tillgång till data. Om du är intresserad av att bli en partner till AI Sweden, att få tillgång till partnerförmåner, inklusive Data Factory och datasets, eller att dela ett dataset eller en modell, tveka inte att höra av dig.

Beatrice Comoli
Beatrice Comoli
Administrative Lead Data Factory
+46 (0)70-146 09 64