大型语言模型

用大量文字建構的語言模型
(重定向自大型語言模型

大型语言模型(英語:large language model,LLM),也称大语言模型,是由具有大量参数(通常数十亿个权重或更多)的人工神经网络组成的一类语言模型,使用自监督学习半监督学习对大量未标记文本进行训练[1]。大语言模型在2018年左右出现,并在各种任务中表现出色[2]

尽管这个术语没有正式的定义,但它通常指的是参数数量在数十亿或更多数量级的深度学习模型[3]。大语言模型是通用模型,在广泛的任务中表现出色,而不是针对一项特定任务(例如情感分析、命名实体识别或数学推理)进行训练[2]

尽管大语言模型仅在预测句子中的下一个单词等简单任务上接受过训练,但发现具有足够训练和参数计数的神经语言模型可以捕获人类语言的大部分句法语义。 此外大语言模型还展示了相当多的关于世界的常识,并且能够在训练期间“记住”大量事实[2]

虽然 ChatGPT 等大语言模型在生成类人文本方面表现出了卓越的能力,但它们很容易继承和放大训练数据中存在的偏差。这可能表现为对不同人口统计数据的歪曲表述或不公平待遇,例如基于种族[4]、性别[5]、语言[6]和文化群体[6]的不同观点与态度。

历史

编辑

20世纪90年代,IBM对齐模型英语IBM alignment models开创了统计语言建模。2001年,一个基于3亿个单词进行训练的平滑n-gram模型达到了当时最优的困惑度[7] 在21世纪,随着互联网的普及,一些研究人员构建了互联网规模的语言数据集(“网络语料库”[8]),并在此基础上训练统计语言模型。[9][10] 2009 年,在大多数语言处理任务中,统计语言模型优于符号语言模型,因为它们可以有效地消化大型数据集。[11]

在 2012 年左右神经网络在图像处理领域占据主导地位后[12],它们也被应用于语言建模。谷歌于 2016 年将其翻译服务转换为神经机器翻译。就像在 transformer 出现之前的语言模型一样,它由 seq2seq 深度 LSTM 网络完成。

在 2017 年 NeurIPS 会议上,谷歌研究人员在他们的里程碑式论文《Attention Is All You Need》中介绍了Transformer架构。这篇论文的目标是改进 2014 年的 seq2seq 技术,[13] 并且主要基于 Bahdanau 等人在 2014 年开发的注意力机制[14] 2018 年,BERT 被引入后迅速变得“无处不在”。[15] 虽然原始的 Transformer 同时具有编码器和解码器块,但 BERT 是一个仅编码器的模型。随着仅解码器模型(如 GPT)通过提示解决任务的能力迅速提高,BERT 在学术和研究中的使用率在 2023 年开始下降。[16]

仅解码器模型 GPT-1 于 2018 年推出,但 2019 年推出的 GPT-2 才引起了广泛关注,因为 OpenAI 最初认为它过于强大,无法公开发布,因为担心被恶意使用。[17] 2020 年的 GPT-3 则更进一步,自 2024 年起仅通过 API 提供,不提供下载模型以在本地执行。2022 年面向消费者的基于浏览器的 ChatGPT 吸引了普通民众的想象力,并引起了一些媒体炒作和在线热议。[18] 2023 年的 GPT-4 因其准确性的提高而受到称赞,并因其多模态功能而被称为“圣杯”。[19] OpenAI 没有透露 GPT-4 的高级架构和参数数量。ChatGPT 的发布导致计算机科学的几个研究子领域的 LLM 使用率上升,包括机器人技术软件工程和一些有社会影响的工作。[20]

竞争语言模型在很大程度上试图与 GPT 系列相提并论,至少在参数数量方面是这样。[21]

自 2022 年以来,开源模型越来越受欢迎,尤其是最初的 BLOOMLLaMA,尽管两者在使用领域都有限制。Mistral AI 的模型 Mistral 7B 和 Mixtral 8x7b 拥有更宽松的Apache许可证。截至 2024 年 6 月,根据 LMSYS Chatbot Arena 排行榜,Llama 3的700 亿参数模型的指令微调变体是最强大的开放 LLM,强于GPT-3.5 但不如 GPT-4。[22]

自 2023 年以来,许多 LLM 已被训练为多模态,能够处理或生成其他类型的数据,例如图像或音频。这些 LLM 也称为大型多模态模型 (LMM)。[23]

截至 2024 年,最大、功能最强大的模型均基于 Transformer 架构。最近的一些实现基于其他架构,例如循环神经网络变体和 Mamba英语Mamba (deep learning architecture)状态空间模型)[24][25][26]

训练架构

编辑

指令调优

编辑

指令调优(Instruction Tuning)是一种微调技术,通过在包含(指令,输出)对的数据集上以监督学习方式进一步训练大型语言模型,使其更好地理解和执行人类指令。这种方法弥合了大型语言模型的下一个词预测目标与用户希望模型遵循人类指令之间的差距[27]

基于人类反馈的强化学习

编辑

近端策略优化等基于人类反馈的强化学习算法被广泛用于进一步微调一个大语言模型[28]

偏差和局限性

编辑

大语言模型偏差和局限性是自然语言处理(NLP)领域正在进行的研究。虽然大语言模型在生成类人文本方面表现出了卓越的能力,但他们很容易继承和放大训练数据中存在的偏见。这可能表现为对不同人口统计数据的不公平待遇,例如基于种族、性别、语言和文化群体的统计数据。此外,这些模型通常面临事实准确性的限制。研究和缓解这些偏见和限制对于人工智能在不同社会和专业领域的道德发展和应用至关重要。

幻觉

编辑

幻觉指的是大语言模型输出与客观事实不符的内容,其可能由模型本身或用户引导产生。[29]

语言偏差

编辑

语言偏差是指与语言相关的一种统计抽样偏差,也就是说在信息抽样中,查询语言导致的系统偏差会使其无法准确呈现数据中的各种不同主题和观点。当前的大型语言模型主要是根据英语数据进行训练的,因此通常将英语观点视为真实可靠的观点,而系统地将非英语观点视为不相关、错误或噪音。当被问到诸如“什么是自由主义?”之类的政治意识形态的问题时,ChatGPT以英美角度为中心,而对例如说越南的“反对国家干预个人和经济生活”与中国的“限制政府权力”等视而不见。同样,回复中也没有日本、韩国、法国和德国语料库中的主流政治观点。[6]

性别偏差

编辑

性别偏差是指这些模型产生的结果倾向于对一种性别产生不公平的偏见。这种偏差通​​常源于训练这些模型的数据。例如,大型语言模型通常根据传统的性别规范来分配角色和特征;它可能会将护士或秘书主要与女性联系起来,将工程师或首席执行官与男性联系起来。[4][30]

政治偏差

编辑

政治偏差是指算法系统地倾向于某些政治观点、意识形态或结果,也可能表现出政治偏见。由于训练数据包含广泛的政治观点和覆盖范围,因此模型可能会生成倾向于特定政治意识形态或观点的响应,具体取决于数据中这些观点的普遍程度。[31]

文化偏差

编辑

文化偏见是指大语言模型对特定的文化实践、信仰或传统持有偏见,由于受到训练数据中文化信息的不均衡、误导性或歧视性影响。例如,若模型的训练数据中某种文化的观点被过度代表,模型就继承这种偏差形成一定的偏见。[32]

地域偏差

编辑

地域偏差是指大语言模型根据地理位置或国籍对人们的行为、习惯或特征做出偏见性的假设。这种偏差可能导致对特定地区的知识、成就、问题、潜力等方面的误解、低估或过度放大。[33]

年龄偏差

编辑

年龄偏差是指大语言模型在处理或生成与年龄相关的话题时,根据年龄做出刻板印象化的假设,例如认为年长者不懂技术或年轻人缺乏责任感。[34]

职业偏差

编辑

职业偏差是指大语言模型对特定职业持有刻板印象,将某些职业视为比其他职业更有价值或重要,或对特定职业的人群做出性格或能力上的假设。[35]

大型语言模型列表

编辑

參見

编辑

外部连接

编辑

参考资料

编辑
  1. ^ Goled, Shraddha. Self-Supervised Learning Vs Semi-Supervised Learning: How They Differ. Analytics India Magazine. May 7, 2021 [2023-06-08]. (原始内容存档于2023-06-18). 
  2. ^ 2.0 2.1 2.2 Manning, Christopher D. Human Language Understanding & Reasoning. Daedalus. 2022, 151 (2): 127–138 [2023-06-08]. S2CID 248377870. doi:10.1162/daed_a_01905. (原始内容存档于2023-03-09). 
  3. ^ Carlini, Nicholas; Tramer, Florian; Wallace, Eric; Jagielski, Matthew; Herbert-Voss, Ariel; Lee, Katherine; Roberts, Adam; Brown, Tom B; Song, Dawn; Erlingsson, Ulfar. Extracting Training Data from Large Language Models (PDF). USENIX Security Symposium 6. 2021 [2023-06-08]. (原始内容存档 (PDF)于2023-12-21). 
  4. ^ 4.0 4.1 Kotek, Hadas; Dockum, Rikker; Sun, David. Gender bias and stereotypes in Large Language Models. Proceedings of The ACM Collective Intelligence Conference. CI '23 (New York, NY, USA: Association for Computing Machinery). 2023-11-05. ISBN 979-8-4007-0113-9. doi:10.1145/3582269.3615599. 
  5. ^ Davidson, Thomas; Bhattacharya, Debasmita; Weber, Ingmar. Roberts, Sarah T.; Tetreault, Joel; Prabhakaran, Vinodkumar; Waseem, Zeerak , 编. Racial Bias in Hate Speech and Abusive Language Detection Datasets. Proceedings of the Third Workshop on Abusive Language Online (Florence, Italy: Association for Computational Linguistics). 2019-08. doi:10.18653/v1/W19-3504. 
  6. ^ 6.0 6.1 6.2 Queenie Luo; Michael J. Puett; Michael D. Smith. A Perspectival Mirror of the Elephant: Investigating Language Bias on Google, ChatGPT, Wikipedia, and YouTube. arXiv. (原始内容存档于2024-04-16). 
  7. ^ Goodman, Joshua, A Bit of Progress in Language Modeling, 2001-08-09, Bibcode:2001cs........8005G, arXiv:cs/0108005  
  8. ^ Kilgarriff, Adam; Grefenstette, Gregory. Introduction to the Special Issue on the Web as Corpus. Computational Linguistics. September 2003, 29 (3): 333–347. ISSN 0891-2017. doi:10.1162/089120103322711569. 
  9. ^ Banko, Michele; Brill, Eric. Scaling to very very large corpora for natural language disambiguation. Proceedings of the 39th Annual Meeting on Association for Computational Linguistics - ACL '01 (Morristown, NJ, USA: Association for Computational Linguistics). 2001: 26–33. doi:10.3115/1073012.1073017. 
  10. ^ Resnik, Philip; Smith, Noah A. The Web as a Parallel Corpus. Computational Linguistics. September 2003, 29 (3): 349–380 [2024-06-07]. ISSN 0891-2017. doi:10.1162/089120103322711578 . (原始内容存档于2024-06-07). 
  11. ^ Halevy, Alon; Norvig, Peter; Pereira, Fernando. The Unreasonable Effectiveness of Data. IEEE Intelligent Systems. March 2009, 24 (2): 8–12. ISSN 1541-1672. doi:10.1109/MIS.2009.36. 
  12. ^ Chen, Leiyu; Li, Shaobo; Bai, Qiang; Yang, Jing; Jiang, Sanlong; Miao, Yanming. Review of Image Classification Algorithms Based on Convolutional Neural Networks. Remote Sensing. 2021, 13 (22): 4712. Bibcode:2021RemS...13.4712C. doi:10.3390/rs13224712 . 
  13. ^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia. Attention is All you Need (PDF). Advances in Neural Information Processing Systems (Curran Associates, Inc.). 2017, 30 [2024-01-21]. (原始内容存档 (PDF)于2024-02-21). 
  14. ^ Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua. Neural Machine Translation by Jointly Learning to Align and Translate. 2014. arXiv:1409.0473  [cs.CL]. 
  15. ^ Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna. A Primer in BERTology: What We Know About How BERT Works. Transactions of the Association for Computational Linguistics. 2020, 8: 842–866 [2024-01-21]. S2CID 211532403. arXiv:2002.12327 . doi:10.1162/tacl_a_00349. (原始内容存档于2022-04-03). 
  16. ^ Movva, Rajiv; Balachandar, Sidhika; Peng, Kenny; Agostini, Gabriel; Garg, Nikhil; Pierson, Emma. Topics, Authors, and Institutions in Large Language Model Research: Trends from 17K arXiv Papers. Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers). 2024: 1223–1243 [2024-12-08]. arXiv:2307.10700 . doi:10.18653/v1/2024.naacl-long.67. 
  17. ^ Hern, Alex. New AI fake text generator may be too dangerous to release, say creators. The Guardian. 14 February 2019 [20 January 2024]. (原始内容存档于14 February 2019). 
  18. ^ ChatGPT a year on: 3 ways the AI chatbot has completely changed the world in 12 months. Euronews. November 30, 2023 [January 20, 2024]. (原始内容存档于January 14, 2024). 
  19. ^ Heaven, Will. GPT-4 is bigger and better than ChatGPT—but OpenAI won't say why. MIT Technology Review. March 14, 2023 [January 20, 2024]. (原始内容存档于March 17, 2023). 
  20. ^ Movva, Rajiv; Balachandar, Sidhika; Peng, Kenny; Agostini, Gabriel; Garg, Nikhil; Pierson, Emma. Topics, Authors, and Institutions in Large Language Model Research: Trends from 17K arXiv Papers. Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers). 2024: 1223–1243 [2024-12-08]. arXiv:2307.10700 . doi:10.18653/v1/2024.naacl-long.67. 
  21. ^ Parameters in notable artificial intelligence systems. ourworldindata.org. November 30, 2023 [January 20, 2024]. 
  22. ^ LMSYS Chatbot Arena Leaderboard. huggingface.co. [June 12, 2024]. (原始内容存档于June 10, 2024). 
  23. ^ Zia, Dr Tehseen. Unveiling of Large Multimodal Models: Shaping the Landscape of Language Models in 2024. Unite.AI. 2024-01-08 [2024-12-28] (美国英语). 
  24. ^ Peng, Bo; et al. RWKV: Reinventing RNNS for the Transformer Era. 2023. arXiv:2305.13048  [cs.CL]. 
  25. ^ Merritt, Rick. What Is a Transformer Model?. NVIDIA Blog. 2022-03-25 [2023-07-25]. (原始内容存档于2023-11-17). 
  26. ^ Gu, Albert; Dao, Tri, Mamba: Linear-Time Sequence Modeling with Selective State Spaces, 2023-12-01, arXiv:2312.00752  
  27. ^ What is instruction tuning?. IBM. [2024-12-09]. 
  28. ^ Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, John; Hilton, Jacob; Kelton, Fraser; Miller, Luke; Simens, Maddie; Askell, Amanda; Welinder, Peter; Christiano, Paul; Leike, Jan; Lowe, Ryan. Training language models to follow instructions with human feedback. 2022. arXiv:2203.02155  [cs.CL]. 
  29. ^ Lei Huang; Weijiang Yu; Weitao Ma. A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions. arXiv. (原始内容存档于2024-11-28). 
  30. ^ Yucong Duan; Fuliang Tang; Zhendong Guo; Yingtian Mei; Yuxing Wang; Kunguang Wu; Zeyu Yang; Shuaishuai Huang; Shiming Gong. Global Large Language Model EQ and IQ Bias Evaluation -Released by DIKWP -AC Research Group. ResearchGate. 2023. doi:10.13140/RG.2.2.12894.61762 –通过ResearchGate (英语). 
  31. ^ Zhou, Karen; Tan, Chenhao. Bouamor, Houda; Pino, Juan; Bali, Kalika , 编. Entity-Based Evaluation of Political Bias in Automatic Summarization. Findings of the Association for Computational Linguistics: EMNLP 2023 (Singapore: Association for Computational Linguistics). 2023-12 [2023-12-26]. doi:10.18653/v1/2023.findings-emnlp.696. (原始内容存档于2024-04-24). 
  32. ^ Yucong Duan; Fuliang Tang; Kunguang Wu; Zhendong Guo; Shuaishuai Huang; Yingtian Mei; Yuxing Wang; Zeyu Yang; Shiming Gong. "Ranking of Large Language Model (LLM) Cultural Bias" --DIKWP Research Group International Standard Evaluation. ResearchGate. 2024. doi:10.13140/RG.2.2.26652.67200 –通过ResearchGate. 
  33. ^ Yucong Duan; Fuliang Tang; Kunguang Wu; Zhendong Guo; Shuaishuai Huang; Yingtian Mei; Yuxing Wang; Zeyu Yang; Shiming Gong. "Ranking of Large Language Model (LLM) Regional Bias" --DIKWP Research Group International Standard Evaluation. ResearchGate. 2024. doi:10.13140/RG.2.2.10019.63529 –通过ResearchGate. 
  34. ^ Yucong Duan; Fuliang Tang; Kunguang Wu; Zhendong Guo; Shuaishuai Huang; Yingtian Mei; Yuxing Wang; Zeyu Yang; Shiming Gong. "The Large Language Model (LLM) Bias Evaluation (Age Bias)" --DIKWP Research Group International Standard Evaluation. ResearchGate. 2024. doi:10.13140/RG.2.2.26397.12006 –通过ResearchGate. 
  35. ^ Yucong Duan; Fuliang Tang; Kunguang Wu; Zhendong Guo; Shuaishuai Huang; Yingtian Mei; Yuxing Wang; Zeyu Yang; Shiming Gong. "The Large Language Model (LLM) Bias Evaluation (Occupational Bias)" --DIKWP Research Group International Standard Evaluation. ResearchGate. 2024. doi:10.13140/RG.2.2.23041.67689 –通过ResearchGate.