AI-Revolutionen: del 2 – Generativ Artificiell Intelligens

Detta är del två av tre i en artikelserie om AI-revolutionen
Året 2022 kommer utmärka sig som startskottet för AI-revolutionen.
Det är dock 2023 nu och massor har hänt sen dess, bara under mars månad var det hektiskt bland lanseringarna.
OpenAI lanserade sin nya version av ChatGPT, version 4, som är betydligt kraftfullare än sin föregångare. Midjourney uppgraderades till version 5 och Adobe lanserade deras egen mer etiska bildgenerator: Firefly.
Utöver dessa tre lanserades en konstinriktad och framförallt spelinriktad bildgenerator, Leonardo AI.
I denna del av artikelserien kommer vi diskutera Generativ Artificiell Intelligens, närmare bestämt bildgeneratorer, och var vi befinner oss idag och hur det påverkar oss inom fotografin.
Men innan vi går vidare så bör vi klargöra vad generativ artificiell intelligens innebär och jag låter ChatGPT 4 förklara det:
Generativ artificiell intelligens är ett område inom AI som syftar till att skapa nytt innehåll eller data utifrån befintliga exempel. Till exempel kan generativ AI användas för att skapa bilder, texter, musik, ljud eller video som inte har funnits tidigare. Generativ AI bygger ofta på maskininlärningsmodeller som kan lära sig mönster och stilar från stora mängder data och sedan generera liknande eller varierande utdata.
Utifrån denna definition lär vi oss att även ChatGPT tillhör till generativ artificiell intelligens, men eftersom dessa artiklar främst fokuserar på det visuella så utelämnar vi ChatGPT i denna artikel.
Kritiken
Även om många ser generativ AI som ett nytt medium för att skapa bilder så har det inte undgått hård kritik.
Anledningen är att för att kunna generera nya bilder måste AI-modellen först träna på stora data mängder för att kunna förstå vad som menas när man skriver in en prompt och det har oftast gjorts på upphovsrättskyddat material.
Ett exempel är Stable Diffusion, från Stabiliy AI, som har tränats på LIAON-5B, ett enormt dataset som innehåller 5,85 miljarder bilder som den har samlat in från Internet utan godkännande från upphovsrättshavarna.
Getty Images, en av världens största stockfoto sidor, har gått så långt som att stämma Stability AI för att ha låtit Stable Diffusion träna på bilder från deras plattform, läs mer här. Det är nämligen inte helt ovanligt att vattenstämplar kommer med i genereringen av bilderna och i just fallet med Getty Images så är de ganska uppenbara (bilder finns i artikeln ovan).
Även jag har fått mer eller mindre diskreta vattenstämplar i mina bilder som jag har genererat och i följande bild på räv kan vi tydligt se en mitt på bröstet. Det går inte att urskilja vems det är, men det är ett tecken på att modellen, i detta fall Midjourney, som används har tränats på upphovsrättskyddad material.
Kritiken gäller inte bara inom fotografering utan även inom den konstnärliga fakulteten också, där man nu inte bara skapar bilder utifrån redan upphovsrättskyddat material men också i en takt som är långt över vad som är människa kan klara av.
Till exempel följande bild lyckades jag få till inom loppet av femton minuter, från när jag började experimentera med en prompt om vattenfall tills jag fick ett resultat som jag var nöjd med. Är du riktigt duktig så kan du skapa oerhört imponerande bilder inom loppet av några få minuter. Det finns ingen traditionell konstnär, eller fotograf för den delen, som kan skapa något så pass detaljerat på så pass kort tid.
Modellerna
I detta avsnitt kommer vi snabbt gå igenom fem av de populäraste bildgeneratorerna, även kallat modeller eftersom det är olika AI-modeller som man har tränat upp för att kunna generera bilder. Dessa särskiljer sig dessutom tillräckligt mycket från varandra för att kunna generera olika resultat trots att prompten är densamma.
Midjourney
Midjourney är en bildgenerator som för stunden körs i Discord, där man med hjälp av olika kommandon ber en chatbot att generera en bild åt en. Det finns även olika parametrar som man kan lägga till för att bestämma till exempel vilken generation av Midjourney som man vill använda sig av eller bildformat.
Midjourney är enbart tillgänglig som prenumerationstjänst.
Adobe Firefly
Adobe Firefly är en annorlunda bildgenerator, minst sagt. Till skillnad från alla andra som är tränade på upphovsrättskyddat material så är denna enbart tränad på Adobes stockfotobibliotek. Detta ger både fördelar och nackdelar, fördelen är att den är etiskt tränad i och med att det är enbart bilder som Adobe har inflytande över. Nackdelen är att det är bara 200 miljoner bilder, vilket gör att det ibland kan kännas väldigt begränsande när man försöker generera något unikt och alla bilderna blir densamma.
Något som dock gör att Adobe Firefly sticker ut från mängden är dess möjlighet till att generera texteffekter, vilket du kan se i bilden nedan.
Adobe Firefly är för närvarande i beta och enbart personer med ett adobe konto har möjligheten att delta och testa applikationen under betan.
Leonardo AI
Leonardo AI är främst riktad för de som är intresserad att skapa konst- och spelrelaterade bilder. De har ett flertal egna modeller som är tränade för specifika områden för att kunna tillgodose olika stilar för olika typer av bilder som behövs.
Leonardo AI är gratis, men med en begränsad mängd token som man använder för att generera bilder. Den finns även som prenumerationstjänst som ger fler tokens och snabbare och mer prioriterad genereringar samt fler funktioner.
DALL-E 2
DALL-E 2 från OpenAI skiljer sig egentligen inte så mycket från de övriga förutom att den var först, även om första generationen av DALL-E inte var direkt imponerande så blev dess uppföljare det.
DALL-E 2 kan köras från OpenAI hemsida, men om man har Microsoft Edge och samtidigt har Image Creator tillgängligt så har man tillgång till en mer avancerad version av DALL-E 2.
Se följande bilder som exempel där resultatet från Bing Image Creator (den vänstra) skapar ett betydligt bättre resultat än ordinarie DALL-E 2. Det är dock från OpenAI:s hemsida som bilderna i denna artikel är genererad från.
robot holding an umbrella in the rain, ink drawing
Stable Diffusion
Till skillnad från de tidigare modellerna så är detta en som jag kan köra från min egen dator. Har man tillräckligt kraftigt grafikkort med minst 4GB VRAM så är det fullt möjligt att kunna generera bilder med Stable Diffusion. Ju nyare grafikkort samt mera VRAM man har, desto snabbare går det att generera bilder. Utöver det så går det att sätta högre upplösningar samt lägga till flertals modeller för att förbättra bilderna.
I detta fall kommer jag enbart köra med Stable Diffusion V1.5 tillsammans med GFPGAN på de bilder som behövs för korrigering av ansikten. Mycket av detta är på grund av att jag kör med ett gammalt Geforce GTX 980M med 4GB VRAM och därför kommer upplösningen för dessa bilder vara lägre än övriga.
I bilden nedan visar jag skillnaden mellan med (höger) och utan GFPGAN (vänster).


Jämförelse
I detta avsnitt kommer vi titta på skillnaderna mellan de olika modellerna inom olika områden som porträtt, vilt, natur, street samt landskap.
Alla bilder kommer visas i ett bildspel med summerande text under.
Porträtt - man
portrait of a handsome middle age man, dark hair, sharp cheekbone, thin beard, brown eyes, wearing blue collar, bokeh, soft light, warm tone, 85 mm f/2.0
Utifrån de fem modellerna så är det bara Midjourney som har genererat en porträttbild som efterliknar ett professionellt taget foto, framförallt vad det gäller ljus och komposition. Detaljrikedomen finns där, inklusive glimten i ögat.
Resultatet av Leonardo AI är väldigt stiliserad, även om bilden är detaljrik så ger den en känsla av att vara en digital målning än att försöka vara ett foto.
Adobe Firefly har lyckats skapa en ganska övertygande blå skjorta, men ansiktet är lite udda. Munnen är inte riktigt i linje med resten av ansiktet, huvudet ä svagt lutat åt sidan medan läpparna tyder på att huvudet är rakt. Vad det som är i bakgrunden som skapar denna bokeh har jag ingen aning om, känns artificiell. Ha!
När det gäller DALL-E 2 och Stable Diffsuion V1.5 så ser den senare något bättre ut än DALL-E 2, trots den lägre upplösningen. Skjortan har några bekymmer, men ansiktet ser proportionerligt bra ut. Båda har problem med det högra ögat, men DALL-E 2 har generella problem med ansiktet över huvudtaget. Höger ögonbryn vill gå runt ögat plus att det saknar ögonfransar medan det vänstra har. Håret känns väldigt odetaljerat och skjortan samt halsbandet är väldigt osammanhängande.
Porträtt - kvinna
beatiful portrait of a beautiful woman, clearblue eyes, irish red curly hair, bokeh, soft light, warm tone, sharp focus on eyes and lips, 85 mm f/2.0
Direkt möts vi av en bild av Midjourney som liknar ett professionellt inramat foto och de klarblåa ögonen tittar direkt mot en. Fräknarna är något som inte efterfrågas, men ger den unga kvinnan ett mer naturligt utseende samt personlighet.
Leonarod AI visar tydligt här att den är till för att generera konst istället för realistiska bilder. Detta syns tydligt med den släta hyn, långa halsen och de stora ögonen. Bilden hade passat bra till något fantasy relaterat material.
Adobe Firefly å andra sidan lyckas generera en mer naturlig bild på en kvinna, om än inte helt utan defekter. En tand syns mellan läpparna, vilket ser inte helt naturligt ut. Halsen saknar karaktär, väldigt smal överläpp i jämförelse med underläppen.
Varken DALL-E 2 eller Stable Diffusion V1.5 lyckas fånga uttrycket beatiful portrait of a beautiful woman, även om skönhet är en tolkningsfråga så lyckas ingen av de två med begreppet. När det gäller DALL-E 2 så har jag oerhört begränsat med token för att generera bilder, det vill säga bara några stycken, och det är svårt att verkligen generera till man får ett bra resultat. Ögonen ser ut som om någon har försökt ersätta färgen på irisen genom att måla på dem. Stable Diffusion V1.5 gick tillbaka till 80-talet med dess klassiska hårfrisyrer, ögonen är onaturligt blåa och trots att jag genererar 50 bilder per prompt så är detta den bästa av de 50.
Vilt - räv
fox walking on a narrow and natural forest path towards the camera, photo taken from low vantage point, lushy environment, northern forest, morning mist, higly detailed, photo realistic, sharp focus on the fox
Om bilden som är genererad av Midjourney hade publicerats i sociala medier utan att berätta att det var en AI genererad bild så hade minst 95 % garanterat trott att bilden var äkta. Bilden har en speciell atmosfär, en stil som vissa naturfotografer faktiskt tillämpar sig av och det är att minska mättnaden i grönskan.
Leonardo AI lyckas generera en trollsk tallskog, men rävar är inte dess starkaste sida. Faktum är att oavsett vilken modell jag använder mig av när det gäller Leonardo AI så kan den inte generera en realistisk räv.
Adobe Firefly får till en realistisk natur, men räven ser sjuk eller ledsen ut och de flesta jag genererar via den plattformen tenderar att se ut såhär. Huvudet har den verkligen problem med.
DALL-E 2 ser ut som en bild tagen av en lågupplöst åtelkamera (viltkamera). Dock så är ögonen vanskapta samt att den saknar detaljer kring nosen. Även bakbenen är anatomiskt felaktiga.
Stable Diffusion V1.5 lyckas generera en vacker svans och grönskande skog, men allt annat på räven är anatomiskt fel, inget är var det ska vara.
Natur - vattenfall
photo of mighty waterfall falling from a cliff into a wild stream, desaturated colours, moody, mist, overcast
Midjourney lyckades verkligen generera en bild som överrennstämmer med prompten, visserligen ser vi inte att vattenfallet och forsen sitter ihop. Men detaljrikedomen, atmosfären och vädret är oerhört övertygande.
Leonardo AI lyckas riktigt bra också, den förstår långtidsexponering och har fått samma exponering på det stora samt det mindre fallet, eller det som troligen ska föreställa forsen i denna. Bilden har en speciell atmosfär och färgerna är verkligen dämpade.
Adobe Firefly får däremot inte riktigt till det, det är olika långa exponeringar på vattenfallet där vissa delar faller som en silkeslen brudslöja medan andra delar är mer ”fruset” i fallet och ger mer detaljer. Även färgtonen, trots dämpade färger, skiljer sig mellan det som ska vara forsen och vattenfallet i sig. Bilden ser komponerad ut där både vattenfallet och vegetationen till vänster har klistrats in.
DALL-E 2 däremot lyckas generera ett vattenfall och en vild fors som ser ut att ha samma exponeringstid. Dock så kommer vattenfallet direkt ur bergsväggen.
Stable Diffusion V1.5 lyckas inte hålla samma långa exponering på allt fallande vatten och även här verkar vatten komma fram lite här och var i bilden, även om det är samma område som det stora fallet. Fors saknas, men atmosfären är där om än ganska tråkig bakgrund.
Street- Café i Paris
street photo of a romantic couple outside a café in Paris, highly detailed, detailed people, monochrome
Med denna prompt möter stöter vi på bekymmer. Midjourney klarar det ganska bra, dock så är mannens högra hand något onaturlig samt att hans andra hand syns inte trots armens position. Kvinnans hand å andra sidan är helt borta, såvida inte hon gömmer handen i en alltför lång ärm så finns den inte. Väldigt mycket detaljer i överlag.
Leonardo AI gör något intressant, detta par består nämligen av två kvinnor. Även här är det lite diffust med händer. I bakgrunden ser vi människor som inte har några direkta fel, dock så framträder mannen i fönstret lite väl mycket. Intressant nog så lyckas den generera texten PARVILS utan några bekymmer, normalt brukar text inte vara bildgeneratorers starkaste sida.
Adobe Firefly har förstått att vi är i Paris och genererat en väldigt simpel bild av Eiffeltornet, stilen påminner om vad ett barn skulle rita. Paret i sig blundar och ser onaturliga ut och vad är det hon har på sig? Inget som direkt påvisar att de befinner sig utanför ett café heller.
DALL-E 2 har förstått att det handlar om ett café, men kvalitén på bilden är undermålig och det mesta smälter bara samman.
Stable Diffusion V1.5 är inte mycket bättre heller, dock så visar den mer ansikten än DALL-E 2, om än onaturliga. Även här har vi problem med händer och muggar, hur många öron är det på en mugg?
Landskap - en gammal eka
empty old wooden boat at shore in a small lake, lushy environment, forest surrounding the lake, mountain range in the distance, natural light, sunset, colorful clouds, 24mm lens
Om man plockar bort ekan för en stund i Midjourney och fokuserar på bakgrunden så är reflektionerna i sjön helt otroliga, de överenstämmer med det som ska reflekteras samt att de är aningen mörkare, vilket är så reflektioner i vatten fungerar vid skymning. Detta är dock början av gyllene timmen och därför saknas det färg bland molnen, om jag får gissa vad Midjourney försöker göra här. Gällande ekan, vilket är ju huvudfokusen i bilden, så är den ganska bra. Ljuset faller någorlunda korrekt i den, men samtidigt så lyckas solen lysa upp delar av fören som borde vara i skugga. Sedan kan man alltid fundera över konstruktionen av ekan och det gäller inte bara i Midjourney.
I bilden genererad av Leonardo AI finner vi en betydligt mer färggrann solnedgång, dock så finns det en del brister i bilden. Även om den lyckas få en ganska bra överensstämmande reflektion utav landskapet så är det inte utan brister. Molnen samt några träd är inte korrekt i spegelbilden och dessutom så fattas det vissa delar av bergen i bakgrunden i reflektionen. Ekan är stor och Leornardo AI lyckas inte riktigt konstruera den på ett realistiskt sätt. Speglingen av ekan är dessutom inte heller korrekt.
Adobe Firefly lägger däremot till krusningar i vattnet och ger bilden lite av en annan karaktär, det är inte ofta en sjö är perfekt spegelblankt vid en färggrann solnedgång. Dessvärre lyckas den inte alls med speglingen. Till höger i bild är den korrekt, men till vänster misslyckas den totalt och jag vet inte vad speglingen ska föreställa. Även himlens reflektion är felaktig. Ekan är fylld med vatten, vilket jag tycker är en ganska intressant och realistisk detalj då övergivna ekor och roddbåtar brukar bli fyllda med vatten. Strandkanten är också ganska realistisk och naturtrogen.
En bild som verkligen saknar färg är den som genereras av DALL-E 2. Vi kan dock se att det är under den gyllene timmen genom att se hur molnen är upplysta. Speglingen är riktigt bra med stråk av krusningar, en riktigt naturtrogen detalj. Däremot är det odetaljerat mellan strandkanten och en bit ut i sjön, svårt att se vad det ska föreställa. Detta gör det också svårt att se ifall reflektionen återger himlen korrekt. Ekan är dock ganska detaljlös.
Stable Diffusion V1.5 fick till en ordentligt färggrann himmel och fina krusningar i sjön. Däremot är det betydligt mycket mindre berg i denna bild i jämförelse med de andra. Skulle man plocka bort ekan så hade detta kunnat vara en ganska övertygande, om än lågupplöst, genererad bild. Ekan är sliten och trasig och rent proportioneligt så är den mer korrekt än några av de andra, men dess botten är väldigt detaljlös och verkar vara fylld med något utöver de brustna brädorna.
Varför just dessa prompter?
Innan vi dyker in i en djupare analys om hur dessa bildgeneratorer påverkar oss inom fotografin så bör vi titta på varför jag valde just dessa prompter.
Porträtt
När det kommer till porträtten så handlar det om att kunna återge ett ansikte på ett realistiskt sätt. Oftast när vi kommer i kontakt med någon i sociala medier så är det ofta ett ansikte vi vill se. Men det är inte bara utseende det handlar, tittar vi på prompten i sig så är det väldigt specifika instruktioner, 85 mm objektiv med ett bländartal på f/2.0 för att skapa ett så kort skärpedjup som möjligt och fokusen samt skärpan ska ligga på ögon och läppar. En annan viktig aspekt är hur den tolkar åldern på människorna som den ska generera.
Räv
Att jag har valt just räv är kanske föga förvånande eftersom jag fotar mycket räv och därmed vet en del om deras utseende och anatomi. Men den största anledningen till att jag har valt just räv är för att det är ett väldigt komplicerat djur att återge. Det handlar inte bara om fyra ben och en tjock och fluffig svans, rävar har ett visst utseende när det gäller färg, päls och teckning samt att de har avsmalnande ögon. Oftast när man genererar en bild på räv så är det antingen svansen som saknas, att den har felaktigt antal ben eller att den får hundögon. Elefanter är ännu mera komplexa för dessa bildgeneratorer, men jag valde ett djur som står mig närmre samt att den finns i vår natur.
Vattenfall
Vattenfall i sig må inte låta så komplexa när det gäller att generera dem och det är därför jag valde att ha en fors med i prompten, som alla inte riktigt lyckades få med i den genererade bilden. Problemet här är ju att ha samma exponeringstid på både forsen samt fallet, men också färgtonen. En sak som har varit ganska tydligt är att alla bildgeneratorerna vet vad ett vattenfall är, men inte riktigt hur de uppstår. Många har skapat direkta flöden ur berg, träd eller varför inte himlen?
Street
Detta är nog det mest komplexa motivet för bildgeneratorerna då det är mycket detaljer som finns när man fotar vid ett Café och speciellt en franskt sådant, antar jag. Har aldrig varit i Frankrike. Hursomhelst, detaljer, mycket smådetaljer och två personer som är i fokus medan det kan finnas andra i bakgrunden. Känslor är också inblandade i bilden och kan generativ AI förmedla det? Här är det lätt att det blir fel med ben, inte bara på människor men också bordsben samt stolsben. Sen har vi det kända problemet, händer.
Landskap
En landskapsbild är inte svår att generera, vilket vi har sett i alla exemplen. Vad som krånglar till det ordentligt är ekan. Dess form är mer komplex än vad man tror, hur är en eka uppbyggt? Hur ser den ut i reflektionen? Sen handlar det om ljuset, hur det lyser upp bilden men också hur reflektionerna i sjön hanteras, avbildar de verkligen landskapet och himlen?
Summering
Promptarna må inte vara de mest invecklade och jag har inte använt mig plattformsspecifika funktioner för att förbättra bilderna, bortsett från GFPGAN för Stable Diffusion V1.5. Ett exempel på denna typ av funktioner är negativ prompt, som används för att förhindra vissa defekter och artefakter.
Dessa prompter är till för att skapa en utmaning med komplexitet som visar både bildgeneratorernas starkaste men också svagaste sidor.
Hur påverkar detta fotografin?
Faktum är att det redan gör det.
Stockfotografin är starkt hotad av generativ AI, dels genom att man kan generera bilder istället för att köpa bilder, men också genom att generera och ladda upp bilder på stockfototjänster. Dessa bilder används sedan i olika ändamål, som till exempel följande reklamskylt från Storbritannien där man använde sig av en genererad bild.
Även inom modebranschen börjar man ersätta riktiga modeller med AI-genererade sådana. Detta fenomen är inte nytt då man tidigare har använt sig av 3D-modeller, men nackdelen med dessa är att de kräver en riktigt duktig 3D-illustratör för att de ska se verkliga ut. Nu kan man generera bilder på personer som ser mer verkliga ut än 3D -modellerna och dessutom blir det enklare att rikta reklam mot olika etniska folkgrupper och därmed ökar man mångfalden i produktkatalogen, man representerar fler med andra ord. Problemet är att detta är inte riktiga människor de representerar kläderna med och dessutom så handlar detta främst om att spara pengar.
Det är inte bara stockfotograferingen och modefotograferingen som börjar få problem med genererade bilder, i en australiensk fototävling vann en AI genererad drönarbild. Men det stannar inte där, i den internationella Sony World Photography Awards vann Boris Eldagsen första pris i den kreativa kategorin. I båda fallen har vinnarna tackat nej till priset och enbart deltagit för att uppmärksamma problematiken med generativ artificiell intelligens som kan skapa bilder. Boris Eldagsen försökte till och med få Sony’s uppmärksamhet under tävlingens gång utan minsta lilla gehör. Eldagsen gick så pass långt att han reste till prisutdelningen i London för att neka priset på scen, alltihopa skapade stora rubriker inom fotografin världen över.
Det är dock inte bara inom självaste fotoindustrin som vi ser dessa AI genererade bilder dyka upp, en fotograf fejkade sitt konto på Instagram med att publicera AI genererade porträttbilder. Det är också här problemen dyker upp för gemene fotograf. AI bilderna tar över sociala medier där de lyckas bättre med att sticka ut från mängden genom att representera det som inte är verkligt. Människor tenderar inte att reflektera över detaljerna utan tycker att bilden är otrolig, ger en gilla-markering och scrollar vidare. Problemet är att med algoritmer som Instagram har så blir dessa bilder bara populärare ju fler som gillar dem och det dyker sedan upp i allas flöden. AI genererade bilder har i stort sett tagit över Instagram.
Om någon av de bilderna genererat av Midjourney hade publicerats i sociala medier, hade någon reflekterat över dess äkthet? Majoriteten hade inte gjort det och när inte ens domare i regionala samt internationella fototävlingar kan lägga märke till att en bild är helt AI genererad, hur ska vi kunna begära att gemene åskådare ska kunna göra detsamma?
Inom den konstnärliga fakulteten är det ännu värre, man har gjort enorma protester gentemot bilddelningssidor som DeviantArt och ArtStation. Som jag tidigare har nämnt så finns det ingen möjlighet att mäta sig mot snabbheten och detaljrikedomen som generativ AI kan producera inom några få minuter. Detta gjorde att konstnärernas bilder dränktes bland den enorma tillökningen av genererade bilder.
Därför spreds följande bild på bilddelningssidorna samt inom sociala medier, även jag delade med mig den.

Vad är äkta eller inte?
Med den farten som utvecklingen inom generativ artificiell intelligens har haft så tar det inte lång stund innan vi har bilder som helt enkelt inte går att avgöra ifall de är äkta eller inte. Faktum är att det är redan svårt idag att kunna avgöra äktheten.
Om man jämför modellerna som har använts i denna artikel så är det onekligen Midjourney som genererar de mest verklighetstrogna bilderna, den bildgeneratorn ligger på en helt annan nivå än de övriga. Förvisso har olika modeller olika styrkor, men när det kommer till just att generera fotografiskt liknande bilder så är det Midjourney som är det främsta hotet.
En bild som blev viral och lurade oerhört många människor var en bild på påven Francis, iklädd i en vit dunjacka. Detta sätter enorm press på bildjournalistiken på att vara ärliga, speciellt nu när många mediehus har avskedar i princip varenda fotograf de har. Med dessa bildgeneratorer kan man få fram olika bilder som kan användas för att skapa en opinion gentemot till exempel en presidentkandidat. Det skulle kunna vara en bild på Donald Trump ståendes bredvid Vladimir Putin och en brinnande Ukrainsk flagga. Om den genererade bilden är trovärdig nog så skulle den spridas som löpeld med titeln ”Trump bränner den Ukrainska flaggan i Kreml” och när det väl kommer fram att bilden inte är äkta, då är det försent, man har man redan ändrat opinionen och Trump faller i opinionsundersökningarna. Detta må låta konspiratoriskt, men detta är något som troligen hände Demokraternas presidentkandidat Gary Hart när han var på Monkey Business.
Slutord
Vi måste bli mer kritiska till dagens bilder och inte tro allt som publiceras, precis som att man inte ska tro på alla konspirationsteorier som finns. Det är inte alla som är ärliga med att berätta om hur deras bilder kommer till och de flesta utgår från att en bild är äkta.
Ett annat problem som uppstår är att ju fler AI genererade bilder som publiceras, desto svårare kommer det bli att stå ut i mängden med en äkta bild.
Mer om AI kommer du kunna läsa inom kort i del 3 av denna serie av AI-Revolutionen, där kommer jag lämna nuet och diskutera framtiden när det gäller generativ artificiell intelligens och berätta vad vi har att förvänta oss.
Detta inlägg har skrivits med hjälp av Microsoft Bings AI verktyg, som chatt och skrivfunktion. Båda verktygen drivs av OpenAI’s ChatGPT version 4.
All text är dock skriven och redigerad av mig, utom i de fall där det framgår att texten är genererad.
Inga av de AI genererade bilderna kommer att publiceras av mig som om de vore tagna eller konstnärligt skapade av mig, dessa är enbart för utbildningssyfte i denna artikelserie.