Artikel

Förbättrad säkerhet med OWASP för stora språkmodeller

Taco Hiddink

Behovet av säkerhetsriktlinjer för LLM

Med stor makt följer stort ansvar, och användningen av stora språkmodeller medför unika säkerhetsutmaningar som kräver en skräddarsydd uppsättning OWASP-riktlinjer.

På Brainial är Brainial ISO 27001-certifierade för att garantera säkerheten för de data som våra kunder laddar upp till sin Brainial AI-baserade Tender Assistant. Vi tillämpar OWASP-standarden eftersom den tillhandahåller en omfattande uppsättning riktlinjer och bästa praxis för att identifiera och minska vanliga säkerhetsrisker i webbapplikationer.

‍

I takt med att tekniken fortsätter att utvecklas har stora språkmodeller (LLM), såsom GPT-X, ChatGPT och dess efterföljare, blivit allt vanligare. LLM avser maskininlärningsmodeller som tränats på enorma mängder data och används i appar som ChatGPT. GPT-4 från OpenAI, BERT och LaMDA 2 från Google samt RoBERTa eller LLaMA 2 från Meta är exempel på LLM. Dessa modeller har förmågan att generera människoliknande text, vilket gör dem till ett värdefullt verktyg för uppgifter som natural language processing, innehållsgenerering och digitala assistenter.

‍

På Brainial utnyttjar, tränar och finjusterar Brainial också våra egna LLM-modeller (till exempel vår egenutvecklade TenderGPT-modell ) som vi använder i anbudsprocessen, till exempel för att sammanfatta data, svara på frågor om anbud och generera svar och utkast till text för att möjliggöra AI-assisterad förslagsskrivning.

LMM är mycket kraftfulla, men med stor kraft följer stort ansvar, och användningen av stora språkmodeller medför unika säkerhetsutmaningar som kräver en skräddarsydd uppsättning OWASP-riktlinjer.

‍

OWASP:s topp 10 för Large Language Model

‍

Projektet OWASP Top 10 for Large Language Model syftar till att utbilda utvecklare, designers, arkitekter, chefer och organisationer om de potentiella säkerhetsriskerna vid implementering och hantering av stora språkmodeller (LLM). Projektet tillhandahåller en lista över de tio mest kritiska sårbarheterna som ofta förekommer i LLM-applikationer, med fokus på deras potentiella inverkan, hur lätta de är att utnyttja och hur vanliga de är i verkliga applikationer.

Exempel på sårbarheter är bland annat prompt , dataläckage, otillräcklig sandboxning och obehörig kodkörning. Målet är att öka medvetenheten om dessa sårbarheter, föreslå åtgärder och i slutändan förbättra säkerheten för LLM-applikationer.

‍

källa: https://owasp.org/www-project-top-10-for-large-language-model-applications/

‍

Hur vi tillämpar LLM OWASP Top 10 på Brainial

När vi tränar, finjusterar och implementerar stora språkmodeller i vår applikation kontrollerar och validerar vi mot de vanliga LLM OWASP-sårbarheterna. Detta säkerställer en säker användning av LLM-teknik och datasäkerhet för våra kunders LLM-modeller och data.

‍

På Brainial tillämpar Brainial följande kontroller och förebyggande åtgärder.

‍

LLM01: Prompt

Angripare kan manipulera LLM genom specialdesignade inmatningar, vilket får systemet att utföra angriparens avsikter. Detta kan göras direkt genom att manipulera systemets prompt indirekt genom manipulerade externa inmatningar, vilket kan leda till dataexfiltrering, social manipulation och andra problem.

‍

Sårbarheter:

Direkta prompt skriver över systemmeddelanden
Indirekta prompt kapar konversationskontexten
En användare använder en LLM för att sammanfatta textdata som innehåller en indirekt prompt

Våra förebyggande åtgärder:

Privilegiekontroll tillämpas på LLM-åtkomst till backend-system
Mänsklig inblandning krävs för att funktionaliteten ska kunna användas.
Externt innehåll är åtskilt från användaruppmaningar

‍

LLM02: Osäker hantering av utdata

Osäker utdatahantering är en sårbarhet som uppstår när en nedströms komponent blint accepterar utdata large language model LLM) utan ordentlig granskning. Detta kan leda till XSS och CSRF i webbläsare samt SSRF, privilegieeskalering eller fjärrkörning av kod på backend-system.

‍

Sårbarheter:

LLM-utdata matas in direkt i ett systemskal eller liknande funktion, vilket resulterar i fjärrkörning av kod.
JavaScript eller Markdown genereras av LLM och returneras till en användare, vilket resulterar i XSS.

Våra förebyggande åtgärder:

Korrekt utdatavalidering tillämpas på svar som kommer från modellen till backend-funktioner.
Utdata från modellen tillbaka till användarna kodas för att minska risken för oönskade tolkningar av koden.

‍

LLM03: Förgiftning av träningsdata

Med ”förgiftning av träningsdata” avses manipulering av data eller finjusteringsprocessen för att införa sårbarheter, bakdörrar eller partiskhet som kan äventyra modellens säkerhet, effektivitet eller etiska beteende. Detta medför risk för försämrad prestanda, utnyttjande av nedströmsprogramvara och skada på anseendet.

‍

Sårbarheter:

En illvillig aktör skapar felaktiga eller skadliga dokument riktade mot en modells träningsdata.
Modellen använder förfalskad information eller overifierade data som återspeglas i resultatet.

Våra förebyggande åtgärder:

Vi verifierar legitimiteten hos riktade datakällor under både tränings- och finjusteringsfaserna.
Data för olika modeller separeras under träningen.
Utbildningen sker i isolerade utbildningspipelines.

‍

LLM04: Modell för förnekande av tjänst

Modell-Denial of Service inträffar när en angripare interagerar med en stor språkmodell (LLM) på ett sätt som förbrukar exceptionellt mycket resurser. Detta kan leda till en försämring av tjänstens kvalitet för dem och andra användare, samt potentiellt medföra höga resurskostnader.

‍

Sårbarheter:

Ställa frågor som leder till återkommande resursanvändning genom generering av stora volymer uppgifter i en kö.
Skicka frågor som är ovanligt resurskrävande
Kontinuerligt överflöd av indata: En angripare skickar en ström av indata till LLM som överskrider dess kontextfönster.

Våra förebyggande åtgärder:

Hastighetsbegränsning tillämpas för att begränsa antalet förfrågningar som en enskild användare eller IP-adress kan göra.
Implementera validering och sanering av inmatningar för att säkerställa att inmatningarna följer definierade gränser och kontextfönster, samt begränsa resursanvändningen per begäran eller steg.

‍

LLM05: Sårbarheter i modellkedjan

Modellkedjesårbarheter i LLM kan äventyra träningsdata, ML-modeller och distributionsplattformar, vilket kan leda till partiska resultat, säkerhetsöverträdelser eller totala systemfel. Sådana sårbarheter kan bero på föråldrad programvara, känsliga förtränade modeller, förorenade träningsdata och osäkra plugin-konstruktioner.

‍

Sårbarheter:

Finjustering med en sårbar förtränad modell
Bristande insyn i inferenskedjan
Användning av föråldrade, utgångna eller underhållna modeller

Våra förebyggande åtgärder:

Vi tillämpar MLOps bästa praxis för våra egna modeller
Externa modeller valideras med hjälp av modell- och kodsignering.
Vi övervakar rörledningar för sårbarheter och upprätthåller en policy för patchning.

‍

LLM06: Offentliggörande av känslig information

LLM-applikationer kan oavsiktligt avslöja känslig information, proprietära algoritmer eller konfidentiella data, vilket kan leda till obehörig åtkomst, stöld av immateriell egendom och integritetsintrång. För att minska dessa risker bör LLM-applikationer använda datasanering, implementera lämpliga användningspolicyer och begränsa de typer av data som returneras av LLM.

‍

Sårbarheter:

Oavsiktlig avslöjande av konfidentiell information på grund av fel
Överanpassning eller memorering av känslig data under träning
Skräddarsydda uppmaningar som används för att kringgå inmatningsfilter och avslöja känslig information

Våra förebyggande åtgärder:

Regeln om minsta möjliga behörighet tillämpas vid träning av modeller.
Robust validering och sanering av indata tillämpas
En säker modellkedja och strikt åtkomstkontroll tillämpas enligt designen.

‍

LLM07: Osäker plugin-design

Plugins kan vara utsatta för skadliga förfrågningar som leder till skadliga konsekvenser som dataexfiltrering, fjärrkörning av kod och privilegieeskalering på grund av otillräckliga åtkomstkontroller och felaktig validering av inmatningar. Utvecklare måste följa robusta säkerhetsåtgärder för att förhindra utnyttjande, såsom strikta parametriserade inmatningar och riktlinjer för säker åtkomstkontroll.

‍

Sårbarheter:

Autentisering utan uttrycklig behörighet till ett visst plugin-program
Plugins som accepterar alla parametrar i ett enda textfält eller som råkod, SQL eller programmeringsuttryck
Angripare skapar förfrågningar för att injicera sitt eget innehåll med kontrollerade domäner

Våra förebyggande åtgärder:

Vi undviker att använda plugins eller standardchattgränssnitt som ChatGPT, utan utvecklar istället vår egen kod enligt våra egna mjukvaruutvecklingsstandarder som baseras på vedertagna bästa praxis.

‍

LLM08: Överdriven funktionalitet eller åtkomst

Överdriven agens i LLM-baseradeagents en sårbarhet som orsakas av överdriven funktionalitet, överdrivna behörigheter eller för stor autonomi. För att förhindra detta måste utvecklare begränsa plugin- eller agentfunktionalitet, behörigheter och autonomi till vad som är absolut nödvändigt, spåra användarautentisering, kräva mänskligt godkännande för alla åtgärder och implementera autentisering i nedströms system.

‍

Sårbarheter:

En LLM-agent får åtkomst till onödiga funktioner från en modell
En LLM-agent har onödiga behörigheter och åtkomst till funktioner från andra (nedströms) system.

Våra förebyggande åtgärder:

Vi undviker öppna funktioner och använder modeller och agents detaljerad funktionalitet.
Loggning och övervakning av aktiviteten hos LLM-modeller och agents som standard.
Vårt motto är "Håll det enkelt, håll det säkert" och vi håller fast vid det när vi utvecklar och tränar våra modeller.

‍

LLM09: Överdriven tillit till LLM-resultat

Överdriven tillit till resultaten från LLM kan leda till allvarliga konsekvenser såsom felaktig information, juridiska problem och säkerhetsrisker. Detta inträffar när en LLM anförtros att fatta kritiska beslut eller generera innehåll utan tillräcklig övervakning eller validering.

‍

Sårbarheter:

LLM tillhandahåller felaktig information
LLM genererar meningslös text
Otillräcklig riskkommunikation från LLM-leverantörer

Förebyggande åtgärder:

Vi kommunicerar tydligt LLM-risker och begränsningar till våra användare och i våra applikationer.
Regelbunden övervakning och granskning av LLM-resultat genomförs.
Vi möjliggör dubbelkontroll av LLM-resultat med tillförlitliga källor eller i sammanhanget i vår applikation och ber våra användare att också kontrollera att resultaten är korrekta.

‍

LLM10: Modellstöld

Stöld av LLM-modeller innebär obehörig åtkomst till och exfiltrering av LLM-modeller, vilket medför risk för ekonomiska förluster, skada på anseendet och obehörig åtkomst till känslig data. Robusta säkerhetsåtgärder är nödvändiga för att skydda dessa modeller.

‍

Sårbarheter:

Angriparen skapar indata för att samla in modellutdata
Sidokanalattack för att extrahera modellinformation
Angripare får obehörig åtkomst till LLM-modell
Läckage av modellartefakter och vikter

Våra förebyggande åtgärder:

Vi har implementerat starka åtkomstkontroller och autentisering, och vi övervakar regelbundet revisions- och åtkomstloggar enligt beskrivningen i våra ISO 27001-policyer.
MLOps-distributionen är automatiserad med styrning som tillämpas
Vattenmärkning av utdata från våra LLM är en del av vårt forsknings- och utvecklingsarbete.

‍

Slutsats

LLM-världen är fortfarande ny och kan vara överväldigande, med mycket forskning och experiment som fortfarande pågår och många områden som ännu inte utforskats. Det är dock uppenbart att alla företag som arbetar med LLM behöver riktlinjer och kontroller, och OWASP-standarden är en bra utgångspunkt. Eftersom NLP-teknik och LLM är en central del av vår AI-drivna Tender Assistant är vi fast beslutna att förse våra kunder och användare med en lösning som är säker och pålitlig. Därför har vi implementerat en policy för användning av LLM och LLM OWASP-riktlinjerna som en del av vår ISO 27001-certifiering. Läs mer om våra säkerhetsåtgärder i vår ISO 27001-certifiering.

Med Brainial AI-drivna teknik kan anbudsteam enkelt hitta och kvalificera anbud, se till att de inte missar någon viktig information, snabbt och grundligt sätta sig in i anbudshandlingarna och snabbt och enkelt hitta den information de behöver. Genom att ta itu med dessa utmaningar Brainial anbudsteam att spara tid, minska kostnaderna för misslyckanden och fatta mer välgrundade beslut om anbud. Kolla in vår AI-drivna Tender Assist .

Behovet av säkerhetsriktlinjer för LLM

OWASP:s topp 10 för Large Language Model

Hur vi tillämpar LLM OWASP Top 10 på Brainial

LLM01: Prompt

LLM02: Osäker hantering av utdata

LLM03: Förgiftning av träningsdata

LLM04: Modell för förnekande av tjänst

LLM05: Sårbarheter i modellkedjan

LLM06: Offentliggörande av känslig information

LLM07: Osäker plugin-design

LLM08: Överdriven funktionalitet eller åtkomst

LLM09: Överdriven tillit till LLM-resultat

LLM10: Modellstöld

Slutsats

Läs mer

Från kaos till klarhet i din anbudsprocess?