NetGPT - An AI-Native Network Architecture for Provisioning Beyond Personalized Generative Services (NetGPT – 提供超越个性化生成式服务的AI原生网络架构)

Manuscript Information

“NetGPT: An AI-Native Network Architecture for Provisioning Beyond Personalized Generative Services”, IEEE Network, 2024-03, accepted.

https://ieeexplore.ieee.org/document/10466747

Chinese Translation 中文翻译

摘要

大语言模型(LLMs:Large language models)通过生成信息极大促进了我们日常生活的成功。LLMs的个性化可以通过与人类意图更好的对齐而进一步促进其应用。针对个性化生成式服务,云边端协作架构、机制和方法颇有前景,因为它便于有效地协调异构分布式通信、计算和存储资源。在本文中,我们提出了NetGPT(Network Generative Pre-trained Transformer),能够根据计算能力在边缘和云端有效协同、编排适当的LLMs。此外,边缘LLMs可以高效利用基于位置的信息进行个性化提示,从而有益于与云端LLMs的互动。我们通过采用低秩适应性(LoRA)技术和微调(Fine-Tuning)策略,基于开源LLMs(如LLaMA和GPT-2-base模型)的应用,验证了NetGPT架构的有效性和实用性。同时,我们对NetGPT进行了细致的数值分析,并与现有的云边协同技术及纯云技术进行比较,验证了NetGPT的显著优势。进一步地,我们强调了构建面向NetGPT的内生智能网络架构所需的根本性变革,包括通信与计算资源的深度整合以及人工智能逻辑工作流的精细调校。此外,本研究还探讨了NetGPT带来的多项益处,特别是边缘LLMs在预测业务趋势与推断用户意图方面的能力,这一能力预示着未来为智能网络管理与编排提供一体化解决方案的可能性。综上所述,NetGPT作为一种创新的内生智能网络架构,展现了其在提升个性化服务水平方面的巨大潜在价值。

简介

随着深度学习从AlphaGo到ChatGPT应用的飞跃,人工智能(AI: Artificial Intelligence)在6G网络领域的重要性日益凸显。一方面,随着边缘计算能力的增强,网络资源能够得到更高效的配置,业务服务质量(QoS: Quality of Service)显著提升,以AI为中心的服务供给效率研究受到广泛关注。另一方面,AI智能模型的应用往往受限于特定场景或任务;例如,大语言模型(LLMs:Large language models)在多项自然语言处理(NLP: Natural Language Processing)和计算机视觉任务中展现出卓越性能,但要其实现遵循人类意图并生成个性化输出,就需要对LLM进行精确的微调。仅在集中式云端部署LLM进行个性化微调,会导致云端存储多个完整模型参数副本,在资源利用效率方面存在短板。为了优化LLM的个性化调整问题,寻找合适的云边协同方案因而显得尤为关键。相较于仅在云端部署LLM,通过云边协同部署大型模型具备多重优势。这种策略不仅赋予边缘服务器更大的操作自由度,能够部署多样化微调的LLM以适应不同环境,实现服务的个性化和定制化,同时也能将数据密集的生成式设备与更多邻近服务器连接,减少数据向远程云服务器的传输延迟,降低通信成本。将生成式LLM集成到边缘网络中,有望促进通信和计算(C&C: Communication and Computing)资源的高效利用。

实现大语言模型(LLM)云边协同部署的策略有多种,包括LLM卸载至本地微调和LLM拆分等方法。在本地微调的策略中,本地边缘服务器可以定制云端训练的LLM,通过微调实现服务的个性化和定制化,以满足用户的不同偏好和应用场景的动态需求。在此过程中,联邦学习或并行训练可以作为辅助手段,帮助优化模型。然而,对LLM进行频繁的微调不仅计算成本高昂,还可能引发模型开发人员在知识产权方面的顾虑,故此方法在实践中面临多重挑战。此外,全面微调边缘服务器上的LLM可能导致资源限制和过高的计算开销。卸载LLM同样会带来不小的通信成本。

另一种策略是将LLM拆分,并分别部署至云端和边缘服务器,通过在边缘布署部分深度神经网络(DNN: Deep Neural Networks)层,其它层则部署在云端,从而在边缘与云端之间平衡计算负载。在这种模型拆分策略中,如何有效地在边缘和云端之间分配DNN层是一大挑战,需要在最小化端到端延时的同时,确保边缘服务器上保留的模型大小适中。鉴于典型LLM包含数十亿参数,此类拆分策略可能相当复杂,并且LLM中普遍使用的残差连接可能限制了合理拆分点的选择。此外,LLM的局部微调和模型分割策略可能会面临泄露训练数据中隐私细节的风险,给云边协同部署带来额外的挑战。

附图:云边协同部署网络大模型NetGPT

本文中,我们提出内生智能网络架构NetGPT,该架构利用云边计算中的资源不均衡,实现了云端与边缘之间不同规模LLM的高效协同。区别于仅仅具有通信与计算(C&C)资源解耦的外生AI网络,NetGPT通过整合网络内C&C资源,在边缘部署较小规模的LLM,而在云端部署较大规模的LLM,旨在执行有目标的云边协同计算,以提供定制化的内容生成服务。此外,NetGPT还融合并发展了逻辑化的AI工作流程,能够识别出性能相当的通信链路;例如,在NetGPT框架中,如果边缘LLM能够提供令人满意的内容,那么基于性能的通信链路将在边缘处终止,以加快响应速度。反之,受到即时学习理念的启发,边缘LLM可以推断上下文并主动添加(或填补)部分个性化信息,以便在云端实现更加综合的处理效果。同时,边缘LLM对于智能网络的管理和调度(如用户意图推断、业务趋势预测等)也提供了一种统一的解决方案。综上所述, NetGPT体现了通信与计算深度整合的发展趋势,并代表了一种由LLM推动的内生智能网络架构。

附图:云边协同部署网络大模型NetGPT的模型结构与实验框架

附图:云边协同部署网路大模型NetGPT的工作流程