Vés al contingut

PaLM (model de llenguatge)

De la Viquipèdia, l'enciclopèdia lliure

PaLM (Pathways Language Model) és un model de llenguatge gran basat en transformadors de 540.000 milions de paràmetres desenvolupat per Google AI.[1] Els investigadors també van entrenar versions més petites de PaLM, models de 8 i 62 mil milions de paràmetres, per provar els efectes de l'escala del model.[2]

PaLM és capaç de realitzar una àmplia gamma de tasques, com ara raonament de sentit comú, raonament aritmètic, explicació d'acudits, generació de codi i traducció.[3][4][5][6] Quan es va combinar amb una indicació de la cadena de pensament, PaLM va aconseguir un rendiment significativament millor en conjunts de dades que requerien el raonament de diversos passos, com ara problemes de paraules i preguntes basades en la lògica.[7][3]

El model es va anunciar per primera vegada l'abril de 2022 i va romandre privat fins al març de 2023, quan Google va llançar una API per a PaLM i diverses altres tecnologies.[8] L'API estarà disponible primer per a un nombre limitat de desenvolupadors que s'uneixin a una llista d'espera abans d'obrir-se al públic.[9]

Google i DeepMind van desenvolupar una versió de PaLM 540B anomenada Med-PaLM que està ajustada a dades mèdiques i supera els models anteriors en els punts de referència de resposta a preguntes mèdiques.[10][11] Med-PaLM va ser el primer a obtenir una puntuació aprovada a les preguntes de llicència mèdica dels Estats Units i, a més de respondre amb precisió tant a preguntes d'opció múltiple com a preguntes obertes, també proporciona raonaments i és capaç d'avaluar les seves pròpies respostes.[12]

Google també va ampliar PaLM mitjançant un ViT per crear PaLM-E, un model de llenguatge visual d'última generació que es pot utilitzar per a la manipulació robòtica.[13][14] El model pot realitzar tasques de robòtica de manera competitiva sense necessitat de reciclatge o afinació.[15]

Entrenament

[modifica]

PaLM està entrenat prèviament en un corpus d'alta qualitat de 780.000 milions de fitxes que inclouen diverses tasques de llenguatge natural i casos d'ús. Aquest conjunt de dades inclou pàgines web filtrades, llibres, articles de la Viquipèdia, articles de notícies, codi font obtingut dels dipòsits de codi obert a GitHub i converses a les xarxes socials.[16][17] Es basa en el conjunt de dades utilitzat per entrenar el model LaMDA de Google.[17] La part de converses a les xarxes socials del conjunt de dades constitueix el 50% del corpus, cosa que ajuda el model en les seves capacitats de conversa.[17]

El PaLM 540B es va entrenar sobre dos pods TPU v4 amb 3.072 xips TPU v4 a cada pod connectat a 768 amfitrions, connectats mitjançant una combinació de paral·lelisme de model i dades, que és la configuració de TPU més gran descrita fins ara.[18][19] Això va permetre una formació eficient a escala utilitzant 6.144 xips, la qual cosa va marcar un rècord d'eficiència de formació més alta assolit per als LLM a aquesta escala d'utilització de FLOPs de maquinari del 57,8%.[20]

Referències

[modifica]
  1. Narang, Sharan. «Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance» (en anglès). ai.googleblog.com. [Consulta: 17 març 2023].
  2. PaLM: Scaling Language Modeling with Pathways. 
  3. 3,0 3,1 PaLM: Scaling Language Modeling with Pathways. 
  4. Anadiotis, George. «Google sets the bar for AI language models with PaLM» (en anglès). VentureBeat, 12-04-2022. [Consulta: 17 març 2023].
  5. Bastian, Matthias. «Google PaLM: Giant language AI can explain jokes» (en anglès). THE DECODER, 05-04-2022. [Consulta: 17 març 2023].
  6. «Google: Why Is No One Talking About PaLM (NASDAQ:GOOG) | Seeking Alpha» (en anglès). seekingalpha.com, 12-12-2022. [Consulta: 17 març 2023].
  7. Narang, Sharan. «Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance» (en anglès). ai.googleblog.com. [Consulta: 17 març 2023].
  8. Vincent, James. «Google opens up its AI language model PaLM to challenge OpenAI and GPT-3» (en anglès). The Verge, 14-03-2023. [Consulta: 17 març 2023].
  9. Huffman, Scott. «PaLM API & MakerSuite: an approachable way to start prototyping and building generative AI applications» (en anglès). [Consulta: 17 març 2023].
  10. Large Language Models Encode Clinical Knowledge. 
  11. «MedPaLM: New Chatbots Will Soon Be Better Than Waiting For A Doctor» (en anglès). The Medical Futurist, 17-01-2023. [Consulta: 17 març 2023].
  12. Matias, Yossi. «Our latest health AI research updates» (en anglès). Google, 14-03-2023. [Consulta: 17 març 2023].
  13. . 
  14. Driess, Danny. «PaLM-E: An embodied multimodal language model» (en anglès). ai.googleblog.com. [Consulta: 17 març 2023].
  15. Edwards, Benj. «Google's PaLM-E is a generalist robot brain that takes commands» (en anglès). Ars Technica, 07-03-2023. [Consulta: 17 març 2023].
  16. Narang, Sharan. «Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance» (en anglès). ai.googleblog.com. [Consulta: 17 març 2023].
  17. 17,0 17,1 17,2 PaLM: Scaling Language Modeling with Pathways. 
  18. PaLM: Scaling Language Modeling with Pathways. 
  19. «An empirical analysis of compute-optimal large language model training» (en anglès). www.deepmind.com. [Consulta: 17 març 2023].
  20. Anadiotis, George. «Google sets the bar for AI language models with PaLM» (en anglès). VentureBeat, 12-04-2022. [Consulta: 17 març 2023].