大语言模型的各种应用场景实现技术探讨
业界大都认为大语言模型已经达到了相当的成熟度,现在可以开始考虑如何去商业化大语言模型。我们今天就一起探讨一下各种应用场景。我会从商业领域和技术层面两个方向展开讨论。
我们先从商业领域开始。商业领域的讨论已经非常流行,我这里就罗列一下一些大家的共识。
一、各种客服对话和虚拟助手场景。这个领域涵盖面非常广泛,包括了所有可能需要客服的各行各业,比如:银行、保险、证券等金融行业;零售、餐饮、电信、旅游、出行、房地产、中介、人才等需要大量对话的服务行业,医疗、保健、健康行业;产品制造、科技、软件等行业。
二、边缘计算相关的各个领域,比如家居智能、嵌入式、智能驾驶等。这个领域主要还是对话和虚拟助手场景,但有特殊的需求,比如要求实时性,下线运行,模型小型化,需要保证安全和隐私等。
三、智能搜索、信息检索,智能数据库,知识图谱,问答等领域,集中在搜索引擎,图书馆信息,学术和行业数据库、知识图谱等领域。这个领域受众较小,但是却能够极大的提升整体的科技实力,提升并加速科技进步。
四、机器翻译。大家或许不知道,机器翻译居然是目前大语言模型最成功的应用。大语言模型的翻译能力,远胜传统机器翻译(比如谷歌翻译),尤其是新推出的模型,训练数据截至到2023年的新模型,在正规书面语的翻译上胜过传统方式,在各种俚语、简写、网络语、深层语义理解方面更是完胜传统翻译。
五、自然语言理解,比如文本分类,情感分析,命名实体识别,情报、舆情分析等。大模型在大量文本信息分析方面的优势,对传统大数据处理具有碾压优势,但是我目前还没有看到一个成熟的应用方式。
六、自然语言编程,自动编程或编程助理。完全的自然语言编程,全自动编程,我还没有看到真正成熟的产品,但是作为一个编程助理,完成传统的、教科书式的编程,实现那些已知的算法,解决已知的问题,这个是大语言模型的强项;在代码质量、安全、自动测试等方面,也能提供普通程序员的水平,因为很多新手和培训班程序员压根都考虑这些。
七、其他各种辅助型应用。在这个领域,由于法律、风险和模型目前的缺陷,大语言模型不能独立使用,只是作为一种辅助手段。比如,在医疗方面:辅助医疗、文献整理、药物研发;在教育方面:个性化培训,智能辅导、智能学习平台;在经济、法律方面:案例分析、时事新闻分析、智能合规和监管、风险管理和信用评估,智能交易等。
八、媒体信息情报行业。比如相关新闻、信息的自动采集,汇总,匹配,文本自动生成等。
九、创意、艺术和娱乐行业,比如自动化或半自动化的写作,文本摘要,特殊内容的查询生成等。
还有很多应用领域,我这里就无法一一列举。
接下来,我们从技术层面来分析一下,目前有那些成熟的技术手段。我们从使用的简单性、复杂性,逐一介绍。
- 最简单的就是直接使用第三方部署的大语言模型,以对话或聊天的方式直接使用。这是大家最熟悉的。比如ChatGPT等产品就提供了实时的对话和聊天功能,其基础功能和使用频率都免费,付费的用户获得一些功能、质量、性能等各方面的拓展。这种方式,还可以通过API的形式实现,这样可以方便地把大语言模型,嵌入到自己的应用种。这是很多大模型公司所倡导的一种方式,开发人员以插件或者独立应用的方式,以付费或分享盈利的方式,使用业界最先进的大模型。
- 其次就是使用提示词工程(Prompt Engineering),这是伴随大模型出现的一个新分支。提示词工程,可以让使用者通过合适的提示词,更好地于大模型进行交互,获得有针对性的、更专业的、更精准的答复。提示词工程的使用指南,通常伴随着大模型一同发布,每个大模型都有自己的特殊提示词指南。化一点时间熟悉提示词,并结合到自己的应用中,往往可以得到超乎想象的,让你满意的答案。
- 部署自己的大语言模型,也是很多公司的选择。这些公司通常有法律合规、隐私保护等特殊要求。同时部署自己的大模型,也可以有针对性的进行部署时的配置和优化。部署自己的大模型需要一定的技术和经济实力。一个业界顶级的大模型,其运行成本是非常昂贵的。建议使用一些云服务商的服务进行技术验证,可以节省大量的初始投资和运维成本。
- 对大语言模型进行微调(fine tunning),是另外一个对大模型进行领域优化的手段。微调后的大模型,也往往需要自己部署运维。训练一个模型是一件非常耗时、耗资源的工程,使用预训练的模型进行微调,加入领域内的特殊语料和数据,从而使大模型获得领域内的知识,同时涵盖通用的知识,使得大模型的输出更加出色和完善。微调需要的技术和经济实力远超部署自己的大模型。对实力有限,而又不得不自己做微调的公司,还是建议使用云服务进行微调。
- 检索增强生成(Retrieval augmented generation/RAG),是目前非常成熟和流行的技术。检索增强生成 (RAG) 通过引入外部知识库,有效解决了大模型面临的一些问题。比如:缺乏领域知识;领域知识错误或滞后;无法及时更新;产生幻觉和虚假内容。检索增强生成对那些知识需要不断的场景尤其有效,因为它只需要更新数据库,而无需重新训练、微调、部署大模型。检索增强生成技术原理并不复杂,它们通常会引入一个向量数据库(Vector DB),保存邻域内的知识,并实现文本的相似度检索;使用一个自己部署或者第三方的大模型,实现对话功能。你可以自己开发,或使用很多开源或商业化的应用。
- 大模型代理/智能体(Agent)是目前和大模型相关的最热门的技术和话题,很多人认为它是实现AGI的关键。虽然我并不完全认同,但认同它的潜力,尤其是充分利用大语言模型,解决各种复杂的问题,同时避免大模型的各种现实问题。智能体在很大程度上借鉴了全局工作空间理论(Global workspace theory/GWT),通常它由四个部分组成:核心(Core)、内存(Memory)、规划模块(Planning)和各种工具(Tools)。
- 核心是智能体大脑中的意识空间,“中央处理器”,它负责理解输入,应用推理、并根据请求目标和自己的能力,确定合理的行动方案。同时,它也根据预定义的行为准则或学习的经验,以某种连贯的方式行事。
- 内存即记忆模块,充当内部日志和用户交互的存储库。这使得代理能够回忆之前的对话、用户偏好和上下文信息,从而实现个性化和相关的响应。这里既有短期上下文记忆,也有长期的历史记忆。有些研究人员把知识库独立为一个模块,其实知识库也是记忆模块的一部分。在实现上,我们可以方便地使用向量数据库或传统数据库来实现记忆模块。
- 工具涵盖了很多内容,但本质上都是核心用来完成特定任务的工具。它可以是一个或多个大模型,连接第三方的接口,搜索网络的爬虫,查询专业数据库的接口等等。使用工具的核心思想是,每个工具解决特定问题,添加或删除工具,不会破坏代理的整体功能
- 规划模块是智能体处理复杂问题和完善执行计划的战略组件,它使智能体不仅能够做出即时反应,也能够规划长期目标或更复杂的任务。规划模块评估不同的方法,预测潜在的挑战,并制定策略以实现预期的结果。这涉及将一项大任务分解为更小的、可管理的步骤、确定行动的优先级,甚至从过去的经验中学习以优化未来的行为。
从这些描述中,我们可以看出,这是一个相当复杂的体系。在一个智能体框架中,通常由多个模型在框架的协调下共同工作,使用了前面提到的各种技术手段和很多传统技术。目前已经有很多实验性质的智能体系统,但都是玩具性质。业界也出现了很多用于开发智能体的工具和框架,比较著名的有,LangChain,AutoGen,AutoGPT等。LangChain是我比较熟悉的,AutoGen由微软开发,AutoGPT在GitHub上由十六万二千的星。