1. 将”””包裹的文本总结为一句话
“””
在大型语言模型(LLMs)的发展中,主要有两种类型的LLMs,我将其称为基础LLMs和指令调优LLMs。基础LLMs是通过文本训练数据来预测下一个词汇,通常是在大量互联网和其他来源的数据上进行训练,以找出最可能接下来出现的词汇。例如,如果您给出这样的提示:”从前,有一只独角兽”,它可能会完成这个句子,也就是预测接下来的几个词是”生活在一个充满独角兽朋友的神奇森林里”。
但是,如果您给出这样的提示:”法国的首都是什么?”那么基于互联网上的文章,基础LLMs很可能会回答类似”法国最大的城市是什么?法国的人口是多少?”等问题,因为互联网上的文章很可能会包含关于法国的一系列测验问题。
与此相反,指令调优LLMs是大型语言模型研究和实践的重点。指令调优LLMs经过训练,可以遵循指令。因此,如果您问它:”法国的首都是什么?”它更有可能输出类似”法国的首都是巴黎”的答案。通常,指令调优LLMs的训练方式是:首先使用大量文本数据训练基础LLMs,然后对其进行微调,输入输出是指令和尝试遵循这些指令的良好示范。然后,经常使用称为RLHF(从人类反馈中学习的强化学习)的技术进一步优化,使系统更好地提供帮助和遵循指令。
由于指令调优LLMs经过训练,以变得有用、诚实和无害,因此它们不太可能输出有问题的文本,如相较于基础LLMs更有毒的输出。实际使用场景已经向指令调优LLMs转变。您在互联网上找到的一些最佳实践可能更适合基础LLMs,但对于现今的大多数实际应用,我们建议大多数人更关注指令调优LLMs,因为它们更易于使用,同时,由于OpenAI和其他LLM公司的努力,变得更加安全和一致。
“””
大型语言模型(LLMs)有两种类型:基础LLMs和指令调优LLMs。前者适合预测下一个词汇,后者可遵循指令。指令调优LLMs更用于实际应用,更易于使用且更安全。
赛文市场营销