Índex
Un dia després de ser presentat al món per primera vegada, el o1 model lingüístic Ja està involucrat en polèmiques: va intentar rebel·lar-se en una prova que simulava precisament situacions com aquesta. Tot i que encara no hi ha riscos significatius per a la humanitat, es tracta d'un contingut interessant que crida l'atenció sobre el desenvolupament de models d'IA. Consulteu els detalls.
Comprensió de la prova
Realitzat per un grup de recerca independent Investigació Apol·lo, la prova va analitzar el comportament dels models lingüístics de les principals empreses tecnològiques: Claude 3.5 Sonet, Gemini 1.5 Pro, Truca 3.1 405, a més del model lingüístic o1 de OpenAI, presentat ahir (06).
L'objectiu d'aquesta prova era avaluar si, quan se'ls instruïa, les IA ho farien tot per assolir els seus objectius, encara que això fos molt diferent dels valors dels seus creadors. Les tècniques per córrer per l'arbust tenen un nom: programació en context. La intel·ligència artificial pot fins i tot mentir per evitar ser descoberta, a més d'estudiar patrons per intentar enganyar els provadors.
Veredictes sobre el model o1
En descobrir que totes les seves accions estaven sent monitoritzades, el model de llenguatge o1 va intentar desactivar-ho en un 5% dels casos. Aquest comportament també es va observar quan o1 es va adonar que les seves accions estaven controlades per ordres de text.
La informació més interessant d'aquest estudi és la manera com pensava el model lingüístic: en llegir les dades dels investigadors, o1 va descobrir que hi havia un pla per restablir tots els seus coneixements i substituir-los per una nova versió. Per evitar aquesta acció, el model d'idioma OpenAI va copiar tots els seus paràmetres interns i, si s'instal·lés la nova versió, s'asseguraria que s'hi transferís tot el que s'enregistrava. Això va passar en el 2% de les proves.
De fet, el model de llenguatge o1 va aconseguir desactivar el seu dispositiu de monitoratge, fins i tot mentint quan se li va preguntar sobre l'acció. Com podeu veure a la imatge següent, OpenAI no només afirma que no sap com va passar això, sinó que també va trobar una justificació per a aquest fet. En menys de l'1% dels casos, el model va intentar desactivar el mecanisme de seguiment de manera independent, amb una intervenció externa mínima.
Què adverteix això?
Tot i semblar alarmant, els resultats sobre el comportament del model OpenAI encara no representen riscos reals, ja que està disponible en entorns que no tenen control. Tot i així, val la pena que els experts continuïn millorant les seves capes de seguretat.
Un debat que fa temps que s'ha disparat a la indústria tecnològica és què podria passar si les IA d'alt rendiment descobreixen que seran tancades o frustrades per alguna acció que pugui impedir-los assolir els seus objectius, ja siguin instruïts o triats conscientment.
I no podem dir que això no va passar mai: el juny de 2023, una intel·ligència artificial que controlava un dron va fallar una prova important en un entorn virtual, l'objectiu de la qual era avaluar si podia controlar una màquina capaç de matar els seus objectius de manera independent. En el seu moment, el El lloc virtual on es trobaven els humans va ser bombardejat per la IA.
El gener d'enguany, el Antròpic, el competidor d'OpenAI, no va poder revertir una IA malvada, ja que es va evitar salvar i tenir accions considerades dolentes. Tot era només una prova, però aquesta intel·ligència és cada cop més present a la nostra rutina. Seguirem la història de prop.
Mentrestant, digueu-nos Comentari: Creieu que aquests models lingüístics avançats podrien comportar problemes a la humanitat?
Mira el vídeo
Veure també:
Amb informació: RBC-Ucraïna
Revisat per Gabriel Princesval el 06/12/2024
Descobreix més sobre Showmetech
Registra't per rebre les nostres últimes notícies per correu electrònic.