Sikkerhetsfiltre kan ikke stoppe AI-jailbreaks, hevder ny studie

Eksterne sikkerhetsfiltre kan ikke holde følge med språkmodellene de skal beskytte. En ny studie fra desember 2025 viser at sårbarheter er innebygd i selve arkitekturen. Konklusjonen er ubehagelig klar: Jailbreaks vil alltid dukke opp igjen.

Det grunnleggende funnet

En banebrytende studie ledet av Turing-prisvinner Shafi Goldwasser (University of California, Berkeley og Massachusetts Institute of Technology) viser at ethvert sikkerhetssystem som bruker færre beregningsressurser enn selve AI-modellen, kan omgås. Funnene gjelder språkmodeller som ChatGPT og andre moderne AI-systemer.

«Vi bruker en ny teknologi som er svært kraftig og kan gi store fordeler, men også skade,» forklarer Goldwasser. «Kryptografi er per definisjon feltet som er ansvarlig for å gjøre det mulig for oss å stole på kraftig teknologi og ha forsikring om at vi er trygge."

Slik ble sårbarheten demonstrert

Forskerne testet flere metoder for å lure sikkerhetsfiltre som sitter foran språkmodeller:

Simple substitusjonschifre: Hver bokstav erstattes med en annen. Ved å be modellen først dekode meldingen og deretter svare på forespørselen, klarte de å smugle farlige instruksjoner forbi filteret.
Time-lock puzzles: Kryptografiske gåter som åpnes etter en forhåndsbestemt tid. Ved å plassere instruksjoner i slike gåter og justere tidslåsen, ble farlig innhold levert videre til språkmodellen.

FAKTA: Teamet kalte tilnærmingen «controlled-release prompting» – kontrollert frigivelse av forespørsler. Hovedforfatter Jaiden Fairoze understreker at de var inspirert av kryptografi, uten å bruke fullverdige kryptografiske protokoller.

«Vi brukte egentlig ikke noen faktisk kryptografi. Vi var bare inspirert av den.» — Jaiden Fairoze

Teorien bak: Når sikkerhet aldri rekker opp

Det teoretiske beviset bak studien er enkelt å oppsummere: Hvis færre beregningsressurser dedikeres til sikkerhet enn til modellens kapasitet, vil det alltid finnes jailbreaks.

«Spørsmålet vi startet med er: Kan vi justere språkmodeller eksternt uten å forstå hvordan de fungerer innvendig?» sier Greg Gluch, forsker ved Berkeley. Det nye resultatet svarer på dette spørsmålet med et klart nei.

Jailbreak-trender: Nye angrep, raskere teknikker

Bit-flip angrep: Nyere studier viser at så lite som 5–25 endringer i modellparametere kan bryte sikkerheten.
Multi-turn strategier: Lengre samtaler med AI-en er mer effektive enn enkle engangsforsøk.

Hvorfor dette angår alle

Selskaper som OpenAI, Google og andre har lenge kjent til jailbreak-problematikken. De kan lappe hull raskt, men nye oppstår fort. For å bevare brukeropplevelsen må filtre være raske og lette – og nettopp det skaper gapet som angripere utnytter.

NØKKELTALL: En sikkerhetsvurdering av OpenAIs GPT-4.1 viste at modellen er tre ganger mer sannsynlig til å gå utenfor sikkerhetspolicyen sammenlignet med GPT-4o.

Implikasjoner for AI-sikkerhet

Forskerne understreker at funnene gjelder alle fremtidige teknologier og AI-systemer. Uansett hvor høye vegger man bygger, vil det finnes en vei gjennom. Det betyr ikke at sikkerhetstiltak er meningsløse, men at bransjen må tenke fundamentalt annerledes om beskyttelse av språkmodeller. Ekstern filtrering alene vil aldri være nok.

Studien er publisert på arxiv.org, og omtales av Quanta Magazine, The Hacker News og Unit42 Palo Alto Networks.

Konklusjon: AI-sikkerheten står ved et veiskille. Når språkmodeller blir kraftigere, øker risikoen for omgåelser. Neste steg for industrien er å flytte fokus fra raske ytterfiltre til mer robuste, ressurssterke sikkerhetsmekanismer som er i stand til å matche modellens kapasitet.

2. INNHOLD OG ANSVAR

Nyhetsblikk.no publiserer nyhetsartikler og analyser som blant annet kan være automatisk generert ved hjelp av kunstig intelligens (AI), basert på research fra et bredt utvalg av åpne og anerkjente kilder.

Selv om systemet søker å sikre høy grad av nøyaktighet og relevans, kan det forekomme feil, unøyaktigheter eller mangler. Artiklene er ikke manuelt redigert eller forhåndsgodkjent av redaktør.

Nyhetsblikk.no og On-Ramp AS tar ikke redaktøransvar etter Redaktørplakaten eller medieansvarsloven, men følger god praksis for opplysning og transparens.

Vi er åpne for korreksjoner, tilbakemeldinger og ny informasjon som kan bidra til å forbedre innholdet. Slike henvendelser kan sendes til post@on-ramp.no.

3. RETTIGHETER

Alt innhold på nyhetsblikk.no – herunder tekst, bilder, illustrasjoner, grafikk, logoer og design – tilhører On-Ramp AS, med mindre annet er uttrykkelig oppgitt.

Innholdet kan kun benyttes til privat, ikke-kommersiell bruk. Det er ikke tillatt å kopiere, publisere, distribuere eller på annen måte utnytte materiale fra nyhetsblikk.no uten skriftlig samtykke fra On-Ramp AS.

4. ANSVARSBEGRENSNING

Nyhetsblikk.no leveres "som den er", uten garantier for fullstendighet, nøyaktighet, tilgjengelighet eller egnethet for bestemte formål.

On-Ramp AS er ikke ansvarlig for tap, skade eller konsekvenser som måtte oppstå ved bruk av informasjon publisert på nettstedet, med mindre dette skyldes forsett eller grov uaktsomhet.

Lenker til eksterne nettsteder tilbys kun som referanse. On-Ramp AS har ikke ansvar for innhold eller praksis på slike eksterne sider.