Hur kartläggningen mot en väg till AI-ansvar skulle kunna se ut


Den här veckan skickade Anthropic in ett svar till National Telecommunications and Information Administration (NTIA) angående en begäran om synpunkter på AI-ansvarighet. Idag vill vi dela med oss av våra rekommendationer, eftersom de fångar några av Anthropics kärnrekommendationer för AI-policy.

För närvarande finns det ingen robust och omfattande process för att utvärdera dagens avancerade artificiell intelligens (AI)-system, än mindre de mer kapabla systemen i framtiden. Vårt svar presenterar vår syn på de processer och infrastruktur som krävs för att säkerställa ansvarighet för AI. Våra rekommendationer beaktar NTIAs potentiella roll som en samordnande instans som fastställer standarder i samarbete med andra myndigheter som National Institute of Standards and Technology (NIST).

I våra rekommendationer fokuserar vi på ansvarsfunktioner som är lämpliga för högkapabla och allmänt användbara AI-modeller. Specifikt rekommenderar vi följande:

Finansiera forskning för att bygga bättre utvärderingar

Öka finansieringen för forskning om utvärdering av AI-modeller. Att utveckla rigorösa och standardiserade utvärderingar är svårt och tidskrävande arbete som kräver betydande resurser. Ökad finansiering, särskilt från myndigheter, skulle kunna bidra till framsteg inom detta kritiska område.

Kräv att företag på kort sikt redovisar utvärderingsmetoder och resultat. Företag som använder AI-system bör vara skyldiga att uppfylla vissa krav på redovisning av sina utvärderingar, även om dessa krav inte behöver offentliggöras om det skulle äventyra immateriell egendom (IP) eller konfidentiell information. Denna transparens skulle kunna hjälpa forskare och beslutsfattare att bättre förstå var befintliga utvärderingar kan vara bristfälliga.

På lång sikt utveckla en uppsättning branschstandarder och bästa praxis för utvärdering. Myndigheter som NIST skulle kunna arbeta med att fastställa standarder och referensvärden för att utvärdera AI-modellers förmågor, begränsningar och risker som företag skulle följa.

Skapa riskresponsiva bedömningar baserat på modellens förmågor Utveckla standardiserade bedömningar av AI-systems förmågor. Regeringar bör finansiera och delta i utvecklingen av rigorösa kapabilitets- och säkerhetsutvärderingar som är inriktade på kritiska risker med avancerad AI, som exempelvis bedrägeri och autonomi. Dessa utvärderingar kan ge ett evidensbaserat underlag för proportionell och riskresponsiv reglering.

Utveckla en risktröskel genom ytterligare forskning och finansiering av säkerhetsutvärderingar.

När en risktröskel har fastställts kan vi kräva utvärderingar för alla modeller gentemot denna tröskel.

Om en modell ligger under denna risktröskel är befintliga säkerhetsstandarder sannolikt tillräckliga. Verifiera efterlevnad och implementera.

Om en modell överskrider risktröskeln och säkerhetsutvärderingar och åtgärder är otillräckliga, stoppa implementeringen, förstärk betydligt tillsynen och meddela regleringsmyndigheter. Fastställ lämpliga skyddsåtgärder innan implementering tillåts.

Inför förregistrering för stora AI-träningskörningar Inför en process för AI-utvecklare att rapportera stora träningskörningar för att säkerställa att regleringsmyndigheter är medvetna om potentiella risker. Detta innebär att fastställa mottagare, nödvändig information och lämpliga cybersäkerhets-, konfidentialitets-, immateriell egendoms- och integritetsskydd.

Inför ett konfidentiellt register för AI-utvecklare som genomför stora träningskörningar för att förregistrera modellinformation hos det nationella regeringsorganet (t.ex. modellspecifikationer, modelltyp, beräkningsinfrastruktur, avsedd slutförandedatum för träning och säkerhetsplaner) innan träningen påbörjas. Aggregerad registerdata bör skyddas enligt högsta tillgängliga standarder och specifikationer.

Ge tredjepartsrevisorer befogenhet som är… Tekniskt kunniga – åtminstone vissa revisorer behöver ha djup erfarenhet av maskininlärning. Medvetna om säkerhet – välpositionerade för att skydda värdefull immateriell egendom, vilket kan utgöra ett hot mot nationell säkerhet vid stöld. Flexibla – kapabla att genomföra rigorösa men lätta bedömningar som identifierar hot utan att underminera USA:s konkurrenskraft.

Kräv extern röd lag-testning innan modellsläpp Kräv extern röd lag-testning för AI-system, antingen genom en centraliserad tredje part (t.ex. NIST) eller på ett decentraliserat sätt (t.ex. via forskar-API-åtkomst) för att standardisera angreppstester av AI-system. Detta bör vara ett krav för utvecklare som släpper avancerade AI-system.

Inför högkvalitativa alternativ för extern röd lag-testning innan de blir ett krav för modellsläpp. Detta är viktigt eftersom kompetens inom röd lag-testning för närvarande i stort sett finns inom privata AI-laboratorier.

Framåtskridande forskning om tolknbarhet

Öka finansieringen för forskning om tolkningsbarhet. Ge statliga bidrag och incitament för tolkningsarbete vid universitet, ideella organisationer och företag. Detta skulle möjliggöra meningsfullt arbete med mindre modeller och främja framsteg utanför ledande forskningslaboratorier.

Förstå att regleringar som kräver tolkningsbara modeller för närvarande inte är genomförbara att uppfylla, men kan vara möjliga i framtiden med forskningsframsteg.

Möjliggör samarbete inom industrin om AI-säkerhet genom tydlighet kring antitrustlagstiftning Regleringsmyndigheter bör ge vägledning om tillåtna samordningsåtgärder för AI-säkerhet inom industrin med beaktande av befintlig antitrustlagstiftning. Genom att klargöra hur privata företag kan samarbeta i allmänhetens intresse utan att bryta mot antitrustlagar kan man minska den rättsliga osäkerheten och främja gemensamma mål.

Vi tror att dessa rekommendationer kommer att ta oss närmare etablerandet av en effektiv ram för AI-ansvar. Detta kräver samarbete mellan forskare, AI-laboratorier, regleringsmyndigheter, revisorer och andra intressenter. Anthropic är engagerat i att stödja ansträngningar för att möjliggöra säker utveckling och implementering av AI-system. Utvärderingar, röd lag-testning, standarder, tolkningsbarhets- och annan säkerhetsforskning, revision och starka cybersäkerhetspraxis är alla lovande åtgärder för att minska riskerna med AI samtidigt som man uppnår dess fördelar.

Vi tror att AI kan ha transformerande effekter under vår livstid och vi vill se till att dessa effekter är positiva. Etablerandet av robusta mekanismer för AI-ansvar och revision kommer att vara avgörande för att uppnå detta mål.