Índex
Qualsevol a qui se li pregunti com Xat GPT, l'agent d'IA més popular actualment funciona, molts tindran la resposta a la punta de la llengua: intel·ligència artificial. Però aquesta resposta és molt vaga. Tot i ser un dels camps d'estudi amb major investigació i desenvolupament en informàtica actual, la intel·ligència artificial engloba diversos temes científics.
Un d'ells és la clau de com funcionen ChatGPT i la majoria dels agents d'IA disponibles al web: els LLM. En aquest article explorarem amb detall com aquest concepte va revolucionar la intel·ligència artificial i el nostre món.
Què són els grans models de llenguatge (LLM)?
Grans models lingüístics (LLMs, Large Language Models, en portuguès) són algorismes per a Aprenentatge profund (Deep Learning, en portuguès) capaç de realitzar una sèrie de tasques Processament del llenguatge natural (Processament del llenguatge natural, en portuguès). Uf, tantes sigles, oi?
Els LLM utilitzen models de transformadors i s'entrenen mitjançant conjunts de dades massius. Alguns exemples de conjunts de dades populars són: LAION-2B-en, CCAW e WikiText-103. Un model de transformador pot semblar un robot que es transforma en un cotxe, però en el camp de la IA és l'arquitectura més habitual per a un LLM.
El transformador està format per a codificador (codificador, en portuguès) i a descodificador (descodificador, en portuguès). Bàsicament, el codificador s'encarrega de separar les paraules d'una frase o text en petites parts anomenades fitxes, i el descodificador realitza operacions matemàtiques per identificar les relacions entre aquestes fitxes.
La gran diferència entre els transformadors i l'arquitectura utilitzada fa anys, LSTM (Memòria a curt termini, o memòria a llarg termini), és que els transformadors funcionen amb mecanismes d'autoatenció, és a dir, són capaços d'aprendre més ràpidament quan es plantegen parts d'una frase o fins i tot el seu context, per generar prediccions.
Els LLM són sistemes d'IA versàtils que, a més de poder processar el llenguatge humà, també poden realitzar altres tasques com ara analitzar estructures de proteïnes i generar codi de programació. Per funcionar de manera eficient, els LLM requereixen una formació prèvia i una sintonització acurada per gestionar funcions com la classificació de text, el resum i la resposta a preguntes, cosa que els fa valuosos per a indústries com la sanitària, les finances i l'entreteniment.
Components clau
Els LLM estan formats per múltiples capes de xarxes neuronals. En una xarxa neuronal (xarxa neuronal, en anglès), bàsicament s'utilitza una variable com a entrada, processada amb diferents pesos i equacions matemàtiques per una o més capes, i es genera un valor de sortida.
El primer tipus de xarxa neuronal present als LLM és la capa d'inserció (capa d'incrustació, en anglès). S'encarrega del procés d'inserció, capturant la semàntica i el significat sintàctic de l'entrada, de manera que el model entén el context.
Després tenim la capa de feedforward (FFN, Feedforward Network, en anglès) que es compon de múltiples capes interconnectades que transformen les entrades d'inserció. En aquest procés, aquestes capes permeten que el model reculli abstraccions de nivell superior, és a dir, entendre la intenció de l'usuari amb l'entrada de text.
A continuació, tenim la capa recurrent que interpreta les paraules del text d'entrada en seqüència. S'encarrega de captar la relació entre les paraules d'una frase.
Finalment, però no menys important, tenim el mecanisme d'atenció que permet al LLM centrar-se en parts individuals del text d'entrada que són rellevants per a la tasca assignada. Aquesta capa permet que el model generi les sortides més adequades i precises.
Com funcionen
Ara que sabem què són els LLM i quins són els seus components clau, podem entendre amb més claredat com funcionen. Bàsicament, els LLM basats en transformadors prenen una entrada, la codifiquen i després la descodifiquen per produir una sortida prevista. Tanmateix, abans que un LLM pugui prendre una entrada de text i generar una sortida prevista, necessita formació per dur a terme funcions generals i ajustar-lo per permetre'l realitzar tasques específiques.
formació prèvia (Preentrenament, en anglès) és un procés clàssic en l'àmbit de Aprenentatge automàtic (Aprenentatge automàtic, en anglès) dins de la Intel·ligència Artificial. Aquest procés, com el seu nom indica, consisteix en la formació prèvia dels LLM utilitzant grans conjunts de dades textuals de bilions de paraules de llocs web com ara Wikipedia, GitHub, entre d'altres. Després de tot, el LLM ha d'aprendre d'algun lloc, com un nen petit, oi?
Durant aquesta etapa, el LLM realitza l'anomenat aprenentatge no supervisat (Aprenentatge sense supervisió, en anglès) – un procés en què els conjunts de dades simplement es llegeixen sense instruccions de manipulació específiques. En altres paraules, sense un "instructor", el propi algorisme d'IA del LLM és responsable d'aprendre el significat de cada paraula i les relacions entre elles. A més, LLM també aprèn a distingir paraules segons el context. Per exemple, aprèn a entendre si "dreta" significa "correcte" o és simplement "el contrari de l'esquerra".
Ara el procés d'ajustament (Sintonització fina, en anglès) serveix per “ajustar” amb precisió el LLM per dur a terme de manera eficient tasques específiques, com ara la traducció de textos, optimitzant el seu rendiment. L'ajust de les indicacions (preguntes i instruccions donades al LLM) funciona com una mena d'ajustament, ja que és capaç d'entrenar el model per dur a terme una tasca determinada.
Perquè un model d'idioma gran pugui realitzar una tasca específica, com ara la traducció, s'ha d'ajustar per a aquesta tasca específica. L'ajustament final optimitza el rendiment per a tasques específiques.
L'ajustament ràpid té una funció similar a l'ajustament fi, entrenant un model per dur a terme una tasca específica mitjançant indicacions de poques proves o indicacions de prova zero. A continuació, es mostra un exemple d'exercici d'"anàlisi de sentiments" amb un missatge de pocs cops:
Texto de entrada: Essa casa é linda!
Sentimento da frase: Positivo
Texto de entrada: Essa casa é horrível!
Sentimento da frase: Negativo
A partir dels resultats obtinguts en aquest exemple, LLM entendria, a través del significat semàntic de "horrible" i perquè es va proporcionar un exemple contrari, que el sentiment de l'usuari en el segon exemple és "negatiu".
Escenaris d'ús
Com hem esmentat anteriorment, els LLM es poden utilitzar per a diversos propòsits:
- Recuperació d'informació: En aquest cas podem imaginar el seu ús en cercadors web, com Google o Bing. Quan un usuari utilitza la funció de cerca d'aquests serveis, està utilitzant LLM per produir informació en forma de resposta a la seva sol·licitud. Els LLM són capaços de recuperar informació, resumir-la i comunicar la resposta en forma de conversa amb l'usuari.
- Generació de text i codi de programació: Els LLM són el "motor" principal darrere de la IA generativa com ChatGPT, i poden generar text i codi de programació a partir d'entrades i indicacions. Per exemple, chatGPT és capaç d'entendre patrons i pot respondre de manera eficient a les peticions dels usuaris com ara "escriure un poema sobre flors a l'estil de Manuel Bandeira" o "escriure un codi Python capaç d'ordenar una llista de pel·lícules en ordre alfabètic".
- Chatbots i IA de conversa: Els LLM ja poden oferir servei al client mitjançant agents de chatbot que conversen amb els consumidors, interpreten el significat de les seves preguntes i preocupacions i ofereixen respostes o orientacions adequades.
A més d'aquests escenaris d'ús, els LLM estan demostrant ser una eina d'IA prometedora en els camps de la tecnologia, la salut i la ciència, el màrqueting, el dret i també per al seu ús en sistemes bancaris. Per fer-vos una idea, actualment els LLM són capaços de predir amb un alt grau de precisió aparició de càncer de mama simplement analitzant conjunts de mostres cel·lulars amb un nivell de precisió més alt que molts metges experimentats.
LLM i transformador generatiu pre-entrenat (GPT)
O Transformador generatiu pre-entrenat (GPT) és un tipus específic de LLM que utilitza una arquitectura de transformador i va ser desenvolupat per l'empresa OpenAI. Està dissenyat per comprendre, generar i manipular el llenguatge natural (com el portuguès o l'anglès) d'una manera altament eficient i realista.
Desglossant el nom, podem entendre millor què és un GPT:
- Generativa (generatiu, en portuguès): indica que el model genera text, és a dir, és capaç de produir noves frases, respostes, resums, codis, etc.
- Pre-entrenat (Preentrenat, en portuguès): Això vol dir que està entrenat prèviament en una gran quantitat de text d'Internet, com ara llibres, articles, llocs web i altres. Aleshores es pot ajustar per a tasques específiques.
- transformador: Com hem esmentat anteriorment, aquesta és l'arquitectura de la xarxa neuronal que proporciona la base per al model. És altament paral·lelitzable (pot executar diverses tasques simultàniament) i eficient per manejar seqüències llargues de text.
La gran diferència entre GPT i altres LLM és la seva fase de formació, que consta de 3 processos diferents:
- Entrenament previ: S'extreuen quantitats massives de dades d'Internet, llibres i fins i tot vídeos i música, i després es processen en fitxes.
- Instruccions d'ajustament: Aquí s'"ensenya" al model com ha de respondre a instruccions específiques, alineant les seves respostes perquè siguin més precises.
- Aprenentatge de reforç mitjançant la retroalimentació humana: semblant a l'afinació, aquí l'"ensenyament" es fa a través de la retroalimentació humana que indueix el procés de "aprenentatge de reforç", on la IA aprèn què és "correcte" i què està "malament" mitjançant repeticions i informació proporcionada per un agent extern, en aquest cas, l'usuari que utilitza la IA.
Història: des de milers de milions de paraules fins a textos complexos
Tot i que l'auge dels models lingüístics només es va produir el 2017, des del 1990 els models d'alineació d'IBM van ser pioners en el modelatge de llenguatge estadístic. L'any 2001, un model format amb 3 milions de paraules va aconseguir el "estat de l'art" pel que fa a la precisió en la interpretació de textos i la construcció de frases cohesionades.
A partir del 2012 Xarxes neuronals va guanyar més protagonisme al món de la IA i aviat es va començar a utilitzar per a tasques lingüístiques. El 2016, Google va adoptar Neural Machine Translation (Traducció automàtica neuronal, en portuguès) utilitzant models basats en aquest concepte. El 2018, l'empresa OpenAI es va dedicar al desenvolupament d'agents d'IA basats en LLM i va llançar GPT-1 per a proves, i va ser només l'any següent que GPT-2 va començar a cridar l'atenció del públic a causa dels seus possibles usos poc ètics.
El 2020 el GPT-3 va arribar amb accés restringit només a través de l'API, però només l'any 2022 ChatGPT (l'agent d'IA "impulsat" per GPT-3) va captar l'atenció del públic de tot el món.
El GPT-4 es llançarà el 2023 amb capacitats multimodals, tot i que no s'han publicat detalls tècnics. El 2024, OpenAI va llançar model o1, centrat a generar llargues cadenes de raonaments. Aquestes eines han impulsat l'adopció generalitzada de LLM en diversos camps de recerca.
A partir del 2024, tots els LLM més grans i eficients es basen en l'arquitectura del transformador, amb alguns investigadors experimentant i provant amb altres arquitectures, com ara Xarxes neuronals recurrents (Xarxes neuronals recurrents, en portuguès).
Els avantatges i limitacions dels LLM
Amb una àmplia gamma d'aplicacions, els LLM són excepcionalment beneficiosos per a la resolució de problemes, ja que proporcionen informació en un estil clar i senzill que és fàcil d'entendre per als usuaris. A més, es poden utilitzar per a la traducció d'idiomes, la finalització de frases, l'anàlisi de sentiments, la resposta a preguntes, les equacions matemàtiques i molt més.
El rendiment dels LLM millora constantment a mesura que s'afegeixen més dades i paràmetres. En altres paraules, com més aprens, millor seràs. A més, els grans models lingüístics poden mostrar el que s'anomena "aprenentatge en context". Un cop s'ha entrenat prèviament un LLM, l'indicador de pocs tirs permet que el model aprengui de l'indicador sense cap paràmetre addicional. D'aquesta manera, està aprenent contínuament.
En demostrar l'aprenentatge en context, els LLM aprenen ràpidament perquè no requereixen pes, recursos i paràmetres addicionals per a la formació. Són ràpids en el sentit que no necessiten molts exemples per ser més "intel·ligents".
Una característica clau dels LLM és la seva capacitat per respondre a consultes imprevisibles. Un programa informàtic tradicional, per exemple, rep ordres en la seva sintaxi acceptada o d'un conjunt determinat d'entrades d'usuari. D'altra banda, un LLM pot respondre al llenguatge humà natural i utilitzar l'anàlisi de dades per respondre una pregunta o sol·licitud no estructurada d'una manera que tingui sentit. Tot i que un programa informàtic típic no reconeixeria un missatge com "Quines són les cinc bandes de rock més grans de la història?", un LLM podria respondre amb una llista de cinc bandes d'aquest tipus i un cas raonablement convincent de per què són els millors.
Tanmateix, pel que fa a la informació que proporcionen, els LLM només poden ser tan fiables com les dades que reben. Si reben informació falsa en la fase de formació prèvia, proporcionaran informació falsa en resposta a les consultes dels usuaris. De vegades, els LLM també poden "al·lucinar" creant respostes i fins i tot fonts literàries falses quan no són capaços de produir una resposta precisa.
Per exemple, el 2022, l'agència de notícies Fast Company va preguntar a ChatGPT sobre el trimestre financer anterior de l'empresa Tesla. Tot i que ChatGPT va proporcionar un article de notícies coherent com a resposta, gran part de la informació que hi conté es va inventar. Com que es tracta d'un sistema basat en IA, se sap que millora constantment, però encara és incorrecte confiar al 100% de les respostes produïdes pels LLM.
Pel que fa a la seguretat, les aplicacions orientades a l'usuari basades en LLM són tan propenses a errors com qualsevol altra aplicació. Els LLM també es poden manipular mitjançant inputs maliciosos per proporcionar certs tipus de respostes per sobre d'altres, incloses les respostes perilloses o poc ètiques.
Finalment, un dels problemes de seguretat amb els LLM és que els usuaris poden carregar dades segures i confidencials per augmentar la seva pròpia productivitat. Però els LLM utilitzen les entrades que reben per entrenar encara més els seus models i no estan dissenyats per ser voltes segures, ja que poden exposar dades sensibles en resposta a consultes d'altres usuaris.
LLM i la intel·ligència darrere de les paraules
Com un nen que es deixa anar en una biblioteca gegant, els LLM són sistemes intel·ligents d'IA que aprenen a entendre i reproduir el llenguatge humà natural a partir de grans quantitats de dades. Tot i que ofereix molts avantatges als usuaris corrents i es converteix en una potent eina auxiliar en l'entorn professional, les capacitats i els perills dels LLM encara s'han d'estudiar amb molta cura.
I tu, què t'ha semblat l'explicació d'aquest article sobre els LLM? Deixa la teva opinió als comentaris.
veure més
Fonts: ElasticSearch, CloudFare, IBM
Revisat per Tiago Rodrigues el 16/04/2025
Descobreix més sobre Showmetech
Registra't per rebre les nostres últimes notícies per correu electrònic.