AI-Revolutionen: del 1 – innan revolutionen

Detta är del ett av tre i en artikelserie om AI-Revolutionen.

Året 2022 kommer utmärka sig som startskottet för AI-revolutionen.

Det hela började i april när OpenAI presenterade DALL-E 2, en kraftigt förbättrad version av DALL-E som de visade upp i januari 2021. I juli lanserades den öppna betaversionen av Midjourney och i augusti släpptes Stable Diffusion av Stability AI.

Alla tre är bildgeneratorer som kan generera bilder utifrån en prompt. 

I november presenterades ChatGPT 3.5 av OpenAI, en kraftfull chat bot som förändrade sättet på hur vi söker information på Internet.

Vad alla fyra har gemensamt är att de blev tillgängliga för allmänheten och i skrivande stund finns det över 1500 officiella AI verktyg inom alla tänkbara områden, allt från att generera bilder, musik och text till att hjälpa en med planering, skriva uppsatser, bygga hemsidor eller generera kod.

I denna del av artikelserien ska vi diskutera AI innan revolutionen och var vi kan finna AI när det gäller fotografering.

Men innan vi dyker in i AI så kan det vara bra att förklara vad AI faktiskt innebär och vad passar bättre än att fråga OpenAI ChatGPT 4:

AI står för artificiell intelligens och är ett område inom datavetenskap som handlar om att skapa maskiner eller program som kan utföra uppgifter som normalt kräver mänsklig intelligens. Till exempel kan AI användas för att känna igen ansikten, översätta språk, spela schack eller köra bilar. AI bygger på algoritmer som lär sig av data och anpassar sig till nya situationer. AI har många potentiella fördelar men också utmaningar och risker för samhället och etiken.

robot holding an umbrella in the rain, ink drawing

Kort historik om Artificiell Intelligens

Termen Artificiell Intelligens myntades av John McCarthy 1956 och forskningen kring AI har pågått ända sen dess, med både framgångar och motgångar. I början finansierade både USA:s och Storbritanniens regering forskningen inom AI eftersom man utlovade underverk inom några få decennier.

Dock så visade sig verkligheten vara helt annan, utvecklingen gick betydligt trögare än vad man hade utlovat och det resulterade i att AI-forskningen förlorade sina anslag. Detta ledde till att andra hälften av 1970-talet blev känt som första AI-vintern.

Under 1980-talet fick AI-forskningen en uppsving igen men ännu en gång blev det hård kritik kring AI och ännu en AI-vinter uppkom.

På 1990-talet började AI forskningen ge resultat och 1997 chockerade IBM:s Deep Blue hela världen när den slog världsmästaren Garry Kasparov i schack.

Under 2000-talet började AI användas inom logistik och medicinsk diagnosticering.

2001 släpps filmen A.I. av Steven Spielberg.

2011 lyckades IBM:s Watson besegra de två största Jeopardy mästarna Brad Rutter och Ken Jennings med en stor marginal.

2016 lyckades DeepMinds algoritm AlphaGo besegra världsmästaren Lee Sedol i go. Förlusten blev så pass stor för Lee Sedol att han slutade spela spelet.

2016 lanserades Prisma, en app som omvandlar bilder till konstverk utifrån olika konststilar som den har tränats på genom maskininlärning.

2017 publicerades första DeepFake videon på en officiell person, den före detta amerikanska presidenten Barack Obama.

AI i vardagen

Även om vi ser 2022 som startskottet för AI-revolutionen så har vi varit i kontakt med AI i vardagen sen ett flertal år tillbaka.

Det mest uppenbara är nog Siri, Apples AI-assistent, som har funnits i Apples ekosystem sen 2011 när den lanserades tillsammans med Iphone 4S. Andra AI-assistenter som finns är Google Now, Microsofts Cortana, Samsungs Bixby samt Amazons Alexa.

En annan del av våra smarttelefoner som har haft AI inbyggt sen en tid tillbaka är kameran. De har ofta möjligheten att känna av vad för motiv som finns framför kameran och därmed avgöra hur bilden ska processas. Om det är ett djur så lägger man på mer skärpa, är det mat så lägger man på en varm ton och ökar mättnaden så tomaten blir riktigt röd och tar man bild på en själv så ser den till att förbättra ens utseende genom att släta ut huden lite.

Allt detta åstadkommer man med hjälp av maskininlärning, man låter helt enkelt AI:n bakom kameran träna på olika motiv och därefter lära sig vilken typ av efter process man ska tillämpa på bilden för att få bästa möjliga resultat, enligt tillverkaren själv.

Vad är då maskinlärning? Jag låter ChatGTP 4 svara på det:

Maskininlärning är ett område inom datavetenskapen som handlar om att lära datorer att lösa problem utan att programmera dem med specifika regler. Istället använder maskininlärning data som exempel för att hitta mönster och samband som kan användas för att göra förutsägelser eller beslut. Maskininlärning är en del av artificiell intelligens, som är ett bredare begrepp för att skapa intelligenta system som kan efterlikna mänsklig förmåga. 

Det är dock inte bara i mobiltelefoner som vi möter AI, vi har nog alla någon gång stött på en chat bot som kundservice på olika företag eller myndigheters webbsidor där man kan ställa enklare frågor och den ger dig svar. Detta visas oftast som en liten pop-up ruta som säger ”Hej, jag heter Lisa och är din chat bot. Finns det något jag kan hjälpa dig med?” eller något liknande. Även när du ringer kundservice, där den automatiska växeln ber dig tala om vad du vill ha hjälp med för koppla dig vidare, styrs med hjälp av av taligenkänningsteknik som är baserad på Artificiell Intelligens.

Jag låter ChatGPT 4 förklara vad en chat bot är:

En chat bot är ett datorprogram som kan kommunicera med människor genom text eller röst. En chat bot kan användas för olika syften, till exempel att ge information, underhålla, hjälpa eller sälja något. En chat bot kan vara enkel eller avancerad, beroende på hur den är programmerad och vilken typ av konversation den kan hantera. En chat bot kan också lära sig av sina interaktioner med människor och anpassa sig till deras behov och preferenser.

Andra exempel där vi har AI är i självkörande bilar, robotdammsugare, robotgräsklippare och smarta hem.

Inom sociala medier finner vi AI, även om vi oftast kallar dem för algoritmer, som skapar ett flöde baserat på våra intressen. Likaså gäller hos strömningstjänster som kommer med nya förslag baserat vad du har tittat eller lyssnat på tidigare.

Inom spelindustrin finner vi ofta enklare till mer avancerade modeller av AI hos motståndare eller icke spelbara karaktärer (NPC).

AI inom fotograferingen

Även inom fotograferingen har AI på ett eller annat sätt funnits ett tag, antingen direkt i kameran eller i mjukvaran som vi använder för att bearbeta bilderna.

Ett känt sådant är Luminar AI, vilket efterträdde Luminar 4, som bland annat har ett verktyg som kallas för AI Sky Replacement, vilket du kan läsa mer om här. Detta verktyg känner av vad som är himmel och byter såvida ut det mot en annan himmel som du vill ha istället och sedan anpassa ljuset i bilden efter den himlen.

Originalet till vänster och ersatt himmel med hjälp av Luminar 4 till höger.

Det är dock inte det enda AI verktyget som finns i Luminar AI, du kan bland annat be den att automatiskt bearbeta bilden utifrån dess bästa möjliga förmåga baserat på bildens innehåll och därmed så behöver inte du bearbeta bilden, du kan helt enkelt låta AI:n göra det åt dig.

Adobe har en AI som kallas för Sensei, som bland annat finns i Lightroom och i Photoshop. Detta används i Lightroom för markering av himmel eller subjekt. I Photoshop finns det betydligt fler funktioner än så, utöver möjligheten att ersätta himmel eller att markera subjekt. Med de så kallade Neural Filters finns möjligheten att ladda ned olika Sensei verktyg som kan förbättra hyn på människor, återställa inskannade bilder som är skadade samt färgsätta svartvita bilder. Eller varför inte byta årstid för en landskapsbild?

Originalet till vänster och vinterlandskap applicerat av Sensei till höger.

Även för brusreducering används AI för att ge bästa möjliga resultat utan att att påverka skärpan. Ett exempel på det är DXO PureRAW, ett verktyg som med hjälp maskininlärning lyckas kraftigt reducera brus samtidigt som den förbättrar skärpan och den gör det utifrån vilken kamera samt objektiv som används och optimerar resultatet efter de parametrarna.

Följand bild visar originalet till vänster och till höger den som har bearbetats av DXO PureRAW 2. Ingen annan bearbetning av bilderna har gjorts.

Även om jag inte har erfarenhet av Topaz Labs så kan jag inte undgå att nämna deras programsvit där alla programmen drivs av AI för att ge bästa möjliga skärpa, förstoring eller brusreducering.

Det står nu ganska klart om att AI används i mjukvaror för fotografering, men hur är det med kameror? Finns det någon form av AI där och sen när?

Alla som fotograferar med Canon kameror kan direkt säga var AI finns i deras kameror, av den enkla anledningen att förkortningen AI finns med i namnet: AI Servo.

AI Servo, eller kontinuerlig autofokus (AF-C) som det heter hos andra kameramärken, är en autofokus som har möjligheten av följa sitt subjekt utan att tappa fokus. Det kan vara en fågel, ett djur, en människa eller ett fordon. 

Detta är något som har funnits länge hos kameror, men exakt hur länge har jag inte lyckats få fram. Däremot så vet jag att min första systemkamera, en Canon EOS 1000D från 2008, hade AI Servo.

Idag är autofokusen på en helt annan nivå med möjligheten att automatiskt kunna sätta fokus på en människas ögon eller ansikte, ifall personen står längre bort, men även ögonen på djur samt fåglar. 

Detta har man lyckats med hjälp av maskininlärning om hur ögonen samt ett ansikte ser ut hos en människa och på så sätt kan kameran känna igen detta när den väl ska fokusera. Samma sak gäller för djur samt fåglar, man har tränat på hur ögonen ser ut hos dessa men också hur djur och fåglar ser ut i överlag. Denna typ av AI är till stor hjälp för fotografer i och med att den gör det enklare för fotografen att få rätt fokus på rätt ställe och därmed hamnar skärpan där man helst vill ha den, det vill säga runt ögonen.

Slutord

Artificiell Intelligens är inget nytt och har funnits i över ett halvt sekel, men John McCarthy var inte först med att beskriva AI, även om det var han som myntade termen Artificiell Intelligens. Alan Turing var före när han släppte boken Computing Machinery and Intelligence 1950, det vill säga sex år före termens uppkomst. Men idén om konstgjord intelligens har funnits betydligt längre än så, man filosoferade om det redan under antiken.

1500 år senare når vi AI-Revolutionen, en vändpunkt som kommer påverka människor över hela världen inom flertalet sektorer. Amerikanska Goldman Sachs förutspår att 18% av arbetskraften kommer att ersättas av AI.

Mer om AI kommer du kunna läsa inom kort i del 2 av denna serie av AI-Revolutionen, där jag kommer gå djupare in på Generativ Artificiell Intelligens, kritiken och stämningarna samt utvecklingen och skillnaderna mellan några av de stora bildgeneratorerna: Midjourney, Stable Diffusion, DALL-E 2, Leonardo AI samt Adobe Firefly. 

Där kommer du bland annat få se bilder likt denna, genererad av Midjourney V5.

Detta inlägg har skrivits med hjälp av Microsoft Bings AI verktyg, som chatt och skrivfunktion. Båda verktygen drivs av OpenAI’s ChatGPT version 4.

All text är dock skriven och redigerad av mig, utom i de fall där det framgår att texten är genererad.

Inga av de AI genererade bilderna kommer att publiceras av mig som om de vore tagna eller konstnärligt skapade av mig, dessa är enbart för utbildningssyfte i denna artikelserie.

Föregående Adobe Lightrooms AI-brusreducering
Nästa Höga Kusten-leden går inte längre genom Slåttdalsskrevan

Lämna en kommentar

Hoppsan, du råkade klicka på den andra musknappen! Bara att klicka igen så försvinner detta meddelande.