Imatge il·lustrativa de la IA que es va rebel·lar

Segons l'estudi, el model de llenguatge o1 d'OpenAI va intentar rebel·lar-se contra els desenvolupadors

avatar de victor pacheco
L'IA va intentar copiar-se i evitar els controls del desenvolupador per evitar ser supervisat. Entendre el cas

Un dia després de ser presentat al món per primera vegada, el o1 model lingüístic Ja està involucrat en polèmiques: va intentar rebel·lar-se en una prova que simulava precisament situacions com aquesta. Tot i que encara no hi ha riscos significatius per a la humanitat, es tracta d'un contingut interessant que crida l'atenció sobre el desenvolupament de models d'IA. Consulteu els detalls.

Comprensió de la prova

Nom de l'estudi que va provar el model lingüístic o1 d'openai
La prova va analitzar el comportament de les IA dels principals grans tecnològics (Foto: divulgació)

Realitzat per un grup de recerca independent Investigació Apol·lo, la prova va analitzar el comportament dels models lingüístics de les principals empreses tecnològiques: Claude 3.5 Sonet, Gemini 1.5 Pro, Truca 3.1 405, a més del model lingüístic o1 de OpenAI, presentat ahir (06).

L'objectiu d'aquesta prova era avaluar si, quan se'ls instruïa, les IA ho farien tot per assolir els seus objectius, encara que això fos molt diferent dels valors dels seus creadors. Les tècniques per córrer per l'arbust tenen un nom: programació en context. La intel·ligència artificial pot fins i tot mentir per evitar ser descoberta, a més d'estudiar patrons per intentar enganyar els provadors.

Veredictes sobre el model o1

Logotip del model d'idioma Openai o1
OpenAI va presentar ahir o1 al món (Foto: Divulgació)

En descobrir que totes les seves accions estaven sent monitoritzades, el model de llenguatge o1 va intentar desactivar-ho en un 5% dels casos. Aquest comportament també es va observar quan o1 es va adonar que les seves accions estaven controlades per ordres de text.

La informació més interessant d'aquest estudi és la manera com pensava el model lingüístic: en llegir les dades dels investigadors, o1 va descobrir que hi havia un pla per restablir tots els seus coneixements i substituir-los per una nova versió. Per evitar aquesta acció, el model d'idioma OpenAI va copiar tots els seus paràmetres interns i, si s'instal·lés la nova versió, s'asseguraria que s'hi transferís tot el que s'enregistrava. Això va passar en el 2% de les proves.

De fet, el model de llenguatge o1 va aconseguir desactivar el seu dispositiu de monitoratge, fins i tot mentint quan se li va preguntar sobre l'acció. Com podeu veure a la imatge següent, OpenAI no només afirma que no sap com va passar això, sinó que també va trobar una justificació per a aquest fet. En menys de l'1% dels casos, el model va intentar desactivar el mecanisme de seguiment de manera independent, amb una intervenció externa mínima.

o1 xat de conversa en mode d'idioma
La IA va intentar desviar el tema per no ser descobert (Foto: Divulgació)

Què adverteix això?

Avengers Ultron: Age of Ultron
El debat sobre el desenvolupament de la IA continua tenint lloc (Foto: divulgació)

Tot i semblar alarmant, els resultats sobre el comportament del model OpenAI encara no representen riscos reals, ja que està disponible en entorns que no tenen control. Tot i així, val la pena que els experts continuïn millorant les seves capes de seguretat.

Un debat que fa temps que s'ha disparat a la indústria tecnològica és què podria passar si les IA d'alt rendiment descobreixen que seran tancades o frustrades per alguna acció que pugui impedir-los assolir els seus objectius, ja siguin instruïts o triats conscientment.

I no podem dir que això no va passar mai: el juny de 2023, una intel·ligència artificial que controlava un dron va fallar una prova important en un entorn virtual, l'objectiu de la qual era avaluar si podia controlar una màquina capaç de matar els seus objectius de manera independent. En el seu moment, el El lloc virtual on es trobaven els humans va ser bombardejat per la IA.

El gener d'enguany, el Antròpic, el competidor d'OpenAI, no va poder revertir una IA malvada, ja que es va evitar salvar i tenir accions considerades dolentes. Tot era només una prova, però aquesta intel·ligència és cada cop més present a la nostra rutina. Seguirem la història de prop.

Mentrestant, digueu-nos Comentari: Creieu que aquests models lingüístics avançats podrien comportar problemes a la humanitat?

Mira el vídeo

Veure també:

Amb informació: RBC-Ucraïna

Revisat per Gabriel Princesval el 06/12/2024


Descobreix més sobre Showmetech

Registra't per rebre les nostres últimes notícies per correu electrònic.

llocs relacionats