AI-Revolutionen: del 3 – framtiden

Detta är del tre av tre i en artikelserie om AI-revolutionen

Som en avslutande del i denna artikelserie kommer vi titta närmare på generativ artificiell intelligens om dess utveckling och problem som den dras med. Vi kommer även titta på framtiden och försöka förutspå vad som kommer härnäst och vilka problem det kommer medföra.

Den snabba utvecklingen

Strax efter att jag hade publicerat del två av denna artikelserie så fick jag nys om Stable Diffusion XL samt att Leonardo AI lanserade en ny funktion som förändrar allting!

Inom generativ artificiell intelligens går utvecklingen framåt med en väldans fart, några av de bilder som ursprungligen skulle ha varit med i del två fick bytas ut då nya versioner av Midjourney släpptes, men även för Leonardo AI då nya modeller hade tränats upp och släppts för den plattformen.

Midjourney

Fördelen med Midjoruney är att vi kan välja vilken version vi vill använda oss av när man genererar en bild och detta gör det möjligt för oss att se hur pass snabb utvecklingen har varit och hur pass stora steg det är mellan varje version. I följande bildserie har vi version 3, 4, 5.0 samt 5.2. Att tidigare versioner inte finns med är på grund av att vi kan inte välja att bilden ska vara i porträttformat samt att den tredje versionen är tillräcklig för att visa utvecklingen av Midjoruney. Alla bilderna använder sig av samma prompt och samma frö. 

beatiful portrait of a beautiful woman, clearblue eyes, irish red curly hair, bokeh, soft light, warm tone, sharp focus on eyes and lips, 85 mm f/2.0

Den som är mest imponerande i denna bildserie är inte de stora stegen mellan version tre och fyra samt version fyra och fem, utan att detta är vad man har lyckats med på lite mindre än ett år. Version tre släpptes 25:e juli 2022 och version 5.2 släpptes 22:a juni 2023. 

Detta leder oss till den stora frågan, hur kommer Midjourney version sex se ut? Vilka funktioner kommer det ha?

I version 5.2 tillkom möjligheten att kunna zooma ut en bild. I följande bilder kan vi se den genererade originalbilden samt den utzoomade. Upplösningen på det slutliga resultatet förblir dock detsamma.

Stable Diffusion

När bilderna för Stable Diffusion V1.5 var klara så fick jag nys om Stable Diffusion XL, som Stability AI har arbetat på ett tag, och dess resultat är enastående. Att jag valde V1.5 och inte V2.1 var för att det användargränssnittet som jag använde mig av inte stödjer V2.1 och jag ville inte krångla till det med att installera en ny. Dessutom så är inte V2.1 så mycket bättre än V1.5, en del anser att V2.0 och V2.1 är en nedgradering. Men Stable Diffusion XL är helt annan best, dels på grund av att jag har inte kraftig dator nog för att kunna använda mig av det, men också för att resultaten är avsevärt mycket bättre. 

Bilderna nedan är genererade med Stable Diffusion XL 0.9, via Clipdrop, och med samma prompter som i del två i artikelserien.

Vad det gäller människor så är det långt mycket bättre än vad de äldre modellerna kunde åstadkomma. De är detaljrika, de föreställer människor och ser betydligt mycket mer verkliga ut än de som genererades till föregående artikel, speciellt Café bilden. 

Det som fortfarande är problematiskt är ögonen, de är inte naturliga och pupillen är inte rund. En annan detalj som är betydligt mer störande är texturer och hur den genererar material. allting är onaturligt detaljerat och betydligt tjockare än vad de borde vara. Detta syns främst i Café bilden.

När vi tittar på naturbilder så är den lite bättre i vissa aspekter men värre i andra. Av någon anledning är skärpedjupet extremt kort och onaturlig i rävbilden. Granen till vänster i samma bild har en konstig textur och skiftar i färg. Räven är bättre än i Stable Diffusion V1.5 men den lyckas fortfarande inte riktigt det.

Vattenfallsbilden är nog den som är bäst, den gör det som prompten ber den om förutom att den saknar en fors. Däremot så ser den mer artistisk ut än att vara verklighetstrogen.

Däremot landskapsbilden med ekan är underlig. Den lyckas bra med speglingen och hyfsat bra med ekan, men varför är det bara ekan som är i fokus? Alla andra bilder som har genererats med denna prompt har lagt fokus över hela bilden, men inte i detta resultat.

Det är inte långt kvar tills Stable Diffusion XL 1.0 släpps och med den så kommer resultaten vara ännu bättre och troligen mer verklighetstrogna än vad dessa bilder är.

Adobe Firefly

Även om Adobe Firefly i sig inte har förändrats direkt sen det lanserades så har det ändå hänt en del saker, det har flyttat in till Photoshop (Beta) och ger möjligheter till generativ fyllning.

Detta kan användas på två sätt, antingen utvidga en bild eller fylla den med något som inte var där tidigare. 

I följande bild har jag utvidgat ett foto där räven kom så pass nära att hon inte fick plats med hela huvudet i bilden.

Resultatet är oroväckande bra. Det ska dock påpekas att bilden förminskades ned till 1600 px på bredden innan jag utvidgade bilden med 50% och markerade det och körde generativ fyllning.

Följande bild tog jag när jag var ute och försökte fånga blixtar under ett åskoväder, tyvärr så fick jag inte en enda bilxt på bild. Med hjälp av generativ fyllning och följande prompt så kan jag åtgärda det.

multiple lightning strikes from thunder clouds

Detta kanske inte är den mest övertygande blixtnedslaget, men förhoppningsvis så förstår du som läsare principen med vad man kan åstadkomma med detta verktyg.

Leonardo AI

Som det nämndes tidigare, gällande Leonardo AI, så har nya modeller och funktioner lagts till och skillnaden med den nya Alchemy funktionen (ja, den heter så) så genererar den bilder med ett resultat som plattformen aldrig tidigare har lyckats med.

I följande bilder kan vi se en enorm förbättring gentemot de bilderna som representerade plattformen i del två i denna artikelserie. Kvalitén och detaljrikedomen är på en helt annan nivå, dock så är bilderna fortfarande väldigt stiliserade och försöker inte likna fotografier.

Hallucinationer

Generativ artificiell intelligens verkar kunna skapa otroliga bilder och likaså ge svar på alla frågor man ställer den, men någon gång ibland händer det något märkligt, den genererar något som man inte alls förväntade sig. Något som inte skulle vara där från början.

Detta fick två advokater erfara när de citerade ChatGPT gällande sex stycken rättsfall, varav ingen existerade i verkligheten.

Inom det visuella är det betydligt lättare att se när detta sker, som i bilderna nedan.

Man kan tydligt se hur extra rävar eller delar av räv (?) dyker upp i bilden trots att de inte ska vara med. Det är som om den tolkar prompten rätt men sen får den fnatt och lägger till samma sak, helt eller delvis, igen på ett mycket bisart sätt.

Detta är vad man inom generativ artificiellt intelligens kallar för hallucinationer och beter sig lite olika beroende på plattform, men huvudsaken är att den genererar något som inte är en del av det förväntade resultatet.

Bilderna ovan är ganska milda i jämförelse med vilka groteska bilder man kan få fram, som följande bild.

Denna bild är som tagen ur en mardröm med hästhuvudet som kommer upp ur vattnet.

Om vi frångår från det visuella ett tag så kan detta orsaka allvarliga problem, förutom att advokater fick böta för att dra upp sex icke existerande rättsfall som ChatGPT hallicunerade sig fram. 

Flitiga användare av ChatGPT har upptäckt att man kan få den att bryta gentemot de regler som är uppsatta för den genom att köra rollspel. Genom att tillge chatboten en roll och be den uppfylla den rollen så kan man utan problem be den att berätta godnattsagor om hur man skapar brandbomber. Även om detta i sig är ett allvarligt problem, det blir ännu värre om den får för sig att hallucinera sig fram hur man skapar något. Detta kan få förödande konsekvenser om den säger du ska blanda i ett visst medel som inte alls ska vara med och det spelar ingen roll om det är brandbomber, andra bomber eller droger. En felaktigt hallucinerad detalj, oavsett hur fel det är att skapa dessa saker från början, kan orsaka en explosionsartad brand som kan kräva flera liv, eller en direkt dödlig drog.

Även om man använder ChatGPT på mer professionell nivå som inom kemi, fysik, programmering eller annat, de stunder som dessa chatbottar hallicunerar fram ett svar kan ge enorma konsekvenser längre fram. Vi kan helt enkelt inte förlita oss på de svar som ChatGPT, eller Googles motsvarighet Bard, ger oss.

Hur många fingrar är det på en hand?

Ett fenomen som många har sett inom artificiellt genererade bilder är att AI modellerna lyckas inte riktigt få till det här med händer och det verkar inte spela någon större roll vilken modell man använder. Förvisso, när Midjourney V5 släpptes så var en av nyheterna i den versionen att den klarade av händer avsevärt mycket bättre än tidigare och det gör den, till en viss gräns. Sedan lyckas den inte alltid med antalet ben häller. Följande bild har bekymmer med både ben och händer.

För att illustrera problemet med händer, titta på bilden nedan. Här har vi åtta olika handposeringar där olika många fingrar syns. Vi människor vet att en hand har fem fingrar, färre om man har haft otur, men vi utgår alltid från att vi har fem fingrar även om vi ser bara två som gör V-tecknet. Men en AI-modell som tränas upp ser det inte så. Den tolkar från att en hand har allt mellan två och fem fingrar, för om du tittar på följande bild, på hur många kan du direkt räkna fem fingrar? 

Detta kan åskådliggöras genom att lägga alla bilderna på varandra och hur många fingrar är det nu? Detta är anledningen till att det genereras allt från två till tio fingrar på en hand och detta är bara för en hand! Vi krånglar till det ännu mer genom att knäppa båda händerna, eller när vi håller varandra i handen. Vad vi ser som en självklarhet är komplext för AI-modellen och det blir ännu krångligare när vi håller i saker.

Detta problem existerar också för djur, då deras ben kan vara i olika lägen utifrån om de står stilla, går eller galopperar. AI-modellerna förstår inte riktigt det och därför kan det bli lite som följande smått komiska bild på räv.

Den svarta lådan

Efter att AlphaGo slog världsmästaren Lee Sedol i go år 2016 så har AI stått sig obesegrad, tills januari i år. En amerikansk amatör lyckades slå KataGo, inte bara en gång utan hela 14 av 15 omgångar.

Med hjälp av en AI, som letar efter svagheter i andra AI program, kunde man testköra miljontals olika metoder tills man hittade en svaghet och det gjorde man.

Genom att spela på ett okonventionellt sätt, ett sätt som enkelt hade identifierats och överlistats av en professionell go spelare, så lyckades man slå KataGo, en vidareutveckling av AlphaGo som lanserades 2019. 

Detta är en seger som många har längtat efter, att människan äntligen slår AI, men segern har en bitter eftersmak. Hur kommer det sig att människan vann? Varför förstod inte AI:n vad den mänskliga spelaren höll på med?

Detta ställer frågan om KataGo verkligen förstår spelplanen eller stenarna man spelar med. Vad som är än värre, vi människor förstår inte hur detta kunde ske och man poängterar att detta kan vara ett fundamentalt fel i djuplärningssystemen som man använder för att träna AI med, inklusive ChatGPT.

Vi pratade nyligen om hallucinationer, detta är orsaken till det. AI:n förstår inte begrepp, hur saker och ting hör ihop och kan vid flertal tillfällen, som med de sex rättsfallen, hallucinera fram något som den fundamentalt borde veta är fel. 

På grund av detta så förstår vi inte fullt ut hur dessa AI-modeller fungerar och att ge dem mer data för att träna på hjälper inte, felet kommer fortsätta finnas kvar och AI:n kommer fortsätta med att hallucinera.

Med detta i åtanke kan man förstå varför många vill att man pausar utvecklingen av AI.

Framtiden

Utvecklingen inom generativ artificiell intelligens sker med en sån oerhörd hastighet att vi kan inte förutspå var vi är om ett år. Även när vi tittar tillbaka och jämför vad Midjourney har lyckats på ett år så kan vi inte rktkigt greppa vad nästkommande Midjourney kommer lyckas med. Midjourney V6 kanske ger ökad detaljrikedom, bättre på att förstå prompter, korrekt antal fingrar och ben. Det kan också vara en helt ny plattform, istället för Discord, som ger möjligheten att generera i högre upplösningar.

Likaså gäller med Stable Diffusion XL, vi har sett vad version 0.9 kan göra, vilket ändå är beta. Den skarpa versionen kommer släppas någon gång efter att den har artikeln har släppt och det kommer troligen ge bättre resultat än de bilderna som finns med här och den stora frågan är, vad kommer version 2 av XL kunna generera?

En som har utelämnats i den här artikeln såhär långt är DALL-E, det har inte varit så mycket väsen kring OpenAIs egen plattform och frågan är om det kommer ett DALL-E 3. Bing Image Creator, som är baserad på DALL-E 2, är betydligt bättre på att generera bilder än vad den klarar av på OpenAIs hemsida, detta kan vara ett tecken på vad vi har att vänta oss av DALL-E 3.

Dock så sträcker sig generativ artificiell intelligens långt bortom bilder och ChatGPT. Man börjar generera videor med denna teknik, om än ganska groteska i dagsläget. Samma sak kan man inte säga om musik, där har man kommit väldigt långt med tjänster som tillåter människor skapa låtar genom att välja hur många delar den ska bestå av, vilken rytm, stil och några minuter senare har du en ganska unik bakgrundslåt som du kan använda på YouTube. 

Men det handlar inte längre om bara om att skapa instrumental musik, man har kommit så pass långt med tekniken att man kan återskapa artisters röster. Detta hände Drake och Weeknd med den AI genererade låten Hearts on my sleeve. Den låten, trots att den aldrig framfördes av artisterna i sig, blev viral i sociala medier. Andra har tränat upp modeller på avlidna artister som Elvis och Johnny Cash. 

Vi har redan sett hur man med olika tekniker lyckats föryngra skådespelare som Samuel L Jacksson i filmen Captain Marvel samt i serien Secret Invasion, eller varför inte Jeff Bridges i filmen Tron Legacy. Man har lyckats återskapa avlidna skådespelare, som Peter Cushing i Star Wars Rogue One där karaktären Grand Moff Tarkin var helt renderad för att efterlikna hans utseende i första Star Wars filmen.

Nu har vi även möjligheten att skapa ny musik med bortgångna artister, som de nyss nämnda men också John Lennon, Freddie Mercury eller Michael Jackson. 

Detta väcker dock en smått skrämmande tanke, ett av de stora skivbolagen kan helt plötsligt komma med en låt och påstå att den låg i en byrålåda någonstans och man har nu restaurerat låten och släppt den. Det behöver inte vara en lögn, de kan vara ärliga och bara säga att det är dags att återuppväcka musikerna med en ny låt. Det kan vara en Beatles låt, det kan vara en låt med Amy Whinehouse eller en med Queens. Hur ska vi kunna avgöra ifall musik är äkta i framtiden om det finns verktyg redan idag som kan generera övertygande resultat som när ”Elvis” sjunger Baby I got your back?

Bekymret med framtiden är att vi lever just nu i ett samhälle där missinformation sprider sig lätt genom sociala medier, ibland händer det att även media hoppar på tåget. 

Problemet med att kunna urskilja vad som är äkta eller inte har gått så pass långt att ett riktigt foto i en fototävling har blivit avfärdad som AI genererad. 

Vad händer om en genererad bild publiceras i västerländsk media, låt säga ett våldsamt upplopp i ett mindre omtyckt land. Landet kommer självklart säga att bilden är fejk, upploppet ägde aldrig rum. Väst kommer med att de ljuger, de mörkar detta bara för att dölja vad som verkligen händer i landet för omvärlden. Västvärlden köper storyn, upploppet är så pass groteskt att man måste gå in i landet och avstyra detta för att få stopp på det. Man går i slutändan efter landets ledare, för att avsätta denne. Folk på Internet börjar granska bilderna och hittar problem med dem, saker stämmer inte. De påpekar detta öppet i sociala medier, men blir avfärdade som foliehattar med sina  konspirationsteorier. Man försöker föra debatt om det, men media vägrar publicera något.

Liknande sak hände faktiskt 20 år sen när Colin Powell presenterade beviset på att Irak hade massförstörelsevapen, ett bevis som var förfalskat, det fanns aldrig massförstörelsevapen i Irak. 

Den tekniken som nu finns kan starta ett krig, det kan förstöra en människas karriär, det kan förändra opinionen hos människor.

Även om man försöker komma tillrätta med detta genom att skapa nya lagar gentemot generativ artificiell intelligens i USA, Storbritannien samt EU så är det i stort sett försent. Pandoras ask är öppen och kommer aldrig att kunna förslutas igen. Modellerna är tränade på upphovsrättskyddat material och även på offentliga personer samt kändisar, det kommer aldrig gå att få bort då Stable Diffusion är Open Source och det finns verktyg som gör att vem som helst kan träna upp AI modeller på vem som helst.

Jag målar verkligen upp en dyster framtid och egentligen vill jag inte göra det, men jag är realist. Även om det är långt kvar tills vi kan få något liknande Skynet (Terminator) så finns det stora hot med den tekniken som finns idag och den används redan i ondo.

Dejtingsajter har börjat fyllas med AI-konton med genererade bilder och texter, allt för att lura människor som söker efter kärleken. I och med att man inte längre behöver stjäla bilder från andra profiler på Internet för att lura människor så kan man nu generera bilder på människor som inte existerar. 

Om det finns fejkade konton på dejtingsajter så bör vi ställa oss frågan, är alla konton på Twitter, Instagram samt Facebook riktiga människor? Om följande kvinna skulle dyka upp i ditt flöde, skulle du ta henne för en riktig person eller existerar hon inte?

Dessutom dyker det upp allt fler sofistikerade chatbottar som används som en virtuell dejtingapp för ensamma personer. Med all den teknik vi har just nu, om man integrerar alltihopa i en en enda app, du skulle kunna chatta med Anders, Lisa, Klara, se deras flöden, skriva skämt, argumentera med dem men inget av det är äkta. Allting är genererat av generativ artificiell intelligens.

Slutord

Vi har tagit oss igenom AI från dess början och fram till idag, vi har diskuterat hur det används inom fotograferingen till hur verklighetstrogna de generativa AI modellerna är. Vi har diskuterat vad som är äkta, vad som kan komma och vad som kommer komma.

För oss fotografer är det oerhört viktigt att vi förhåller oss till det äkta, till de bilder som skapas i en kamera. Just nu sker det en renässans inom filmfotografin, där folk går tillbaka till riktiga mörkrum för att framkalla sina bilder. Detta har förvisso pågått i ett par år nu, men med AI:ns framfart känns det som om att intresset för det har ökat. 

Men generativ artificiell intelligens har kommit för att stanna, vare sig vi vill det eller ej, och en del kommer att omfamna den nya tekniken medan andra kommer vara motståndare och det är inget nytt, det har hänt två gånger redan i historien. En gång när kameran kom och konstnärer var starka motståndare till den, andra gången när digitalkameran kom och de som fotade med film var de stora motståndarna.

Inga av de AI genererade bilderna kommer att publiceras av mig som om de vore tagna eller konstnärligt skapade av mig, dessa är enbart för utbildningssyfte i denna artikelserie.

Föregående AI-Revolutionen: del 2 - Generativ Artificiell Intelligens
Nästa Uppe på Krypen i Skuleskogen

Lämna en kommentar

Hoppsan, du råkade klicka på den andra musknappen! Bara att klicka igen så försvinner detta meddelande.