Sikkerhetsfiltre kan ikke stoppe AI-jailbreaks, hevder ny studie - nyhetsblikk
annonse

Sikkerhetsfiltre kan ikke stoppe AI-jailbreaks, hevder ny studie

Eksterne sikkerhetsfiltre kan ikke holde følge med språkmodellene de skal beskytte. En ny studie fra desember 2025 viser at sårbarheter er innebygd i selve arkitekturen. Konklusjonen er ubehagelig klar: Jailbreaks vil alltid dukke opp igjen.

Det grunnleggende funnet

En banebrytende studie ledet av Turing-prisvinner Shafi Goldwasser (University of California, Berkeley og Massachusetts Institute of Technology) viser at ethvert sikkerhetssystem som bruker færre beregningsressurser enn selve AI-modellen, kan omgås. Funnene gjelder språkmodeller som ChatGPT og andre moderne AI-systemer.

«Vi bruker en ny teknologi som er svært kraftig og kan gi store fordeler, men også skade,» forklarer Goldwasser. «Kryptografi er per definisjon feltet som er ansvarlig for å gjøre det mulig for oss å stole på kraftig teknologi og ha forsikring om at vi er trygge."

Slik ble sårbarheten demonstrert

Forskerne testet flere metoder for å lure sikkerhetsfiltre som sitter foran språkmodeller:

  • Simple substitusjonschifre: Hver bokstav erstattes med en annen. Ved å be modellen først dekode meldingen og deretter svare på forespørselen, klarte de å smugle farlige instruksjoner forbi filteret.
  • Time-lock puzzles: Kryptografiske gåter som åpnes etter en forhåndsbestemt tid. Ved å plassere instruksjoner i slike gåter og justere tidslåsen, ble farlig innhold levert videre til språkmodellen.
FAKTA: Teamet kalte tilnærmingen «controlled-release prompting» – kontrollert frigivelse av forespørsler. Hovedforfatter Jaiden Fairoze understreker at de var inspirert av kryptografi, uten å bruke fullverdige kryptografiske protokoller.
«Vi brukte egentlig ikke noen faktisk kryptografi. Vi var bare inspirert av den.» — Jaiden Fairoze

Teorien bak: Når sikkerhet aldri rekker opp

Det teoretiske beviset bak studien er enkelt å oppsummere: Hvis færre beregningsressurser dedikeres til sikkerhet enn til modellens kapasitet, vil det alltid finnes jailbreaks.

«Spørsmålet vi startet med er: Kan vi justere språkmodeller eksternt uten å forstå hvordan de fungerer innvendig?» sier Greg Gluch, forsker ved Berkeley. Det nye resultatet svarer på dette spørsmålet med et klart nei.

Jailbreak-trender: Nye angrep, raskere teknikker

  • Bit-flip angrep: Nyere studier viser at så lite som 5–25 endringer i modellparametere kan bryte sikkerheten.
  • Multi-turn strategier: Lengre samtaler med AI-en er mer effektive enn enkle engangsforsøk.

Hvorfor dette angår alle

Selskaper som OpenAI, Google og andre har lenge kjent til jailbreak-problematikken. De kan lappe hull raskt, men nye oppstår fort. For å bevare brukeropplevelsen må filtre være raske og lette – og nettopp det skaper gapet som angripere utnytter.

NØKKELTALL: En sikkerhetsvurdering av OpenAIs GPT-4.1 viste at modellen er tre ganger mer sannsynlig til å gå utenfor sikkerhetspolicyen sammenlignet med GPT-4o.

Implikasjoner for AI-sikkerhet

Forskerne understreker at funnene gjelder alle fremtidige teknologier og AI-systemer. Uansett hvor høye vegger man bygger, vil det finnes en vei gjennom. Det betyr ikke at sikkerhetstiltak er meningsløse, men at bransjen må tenke fundamentalt annerledes om beskyttelse av språkmodeller. Ekstern filtrering alene vil aldri være nok.

Studien er publisert på arxiv.org, og omtales av Quanta Magazine, The Hacker News og Unit42 Palo Alto Networks.


Konklusjon: AI-sikkerheten står ved et veiskille. Når språkmodeller blir kraftigere, øker risikoen for omgåelser. Neste steg for industrien er å flytte fokus fra raske ytterfiltre til mer robuste, ressurssterke sikkerhetsmekanismer som er i stand til å matche modellens kapasitet.

annonse

Kommentarer

0 kommentarer

Vi godtar kun kommentarer fra registrerte brukere. Dette gjør vi for å opprettholde en trygg og respektfull debatt, samt for å unngå spam og misbruk. Registrering er gratis og tar bare noen sekunder.

Laster kommentarer...
Du mottar allerede pushvarsler

Instillinger for pushvarsler

✓ Du vil ikke motta flere varsler.

Ønsker du å motta push varsler om nye artikler på nyhetsblikk.no?

Få beskjed når vi publiserer nye artikler som kan interessere deg.