企业 AI 软件栈部署指南
企业 AI 部署的需求
人工智能 (AI) 的浪潮正以前所未有的速度席卷各行各业,企业纷纷将目光投向 AI,期望借助其强大的能力提升效率、创新产品、优化决策并最终赢得竞争优势。然而,将 AI 真正落地到企业的实际业务中,并非一帆风顺,其部署需求呈现出复杂且多元的特点。
首先,算力需求是企业 AI 部署的基石。无论是复杂的模型训练还是大规模的实时推理,都需要强大的计算资源作为支撑。传统 CPU 往往难以满足需求,高性能 GPU、TPU 等专用加速硬件成为主流选择。同时,如何高效管理和调度这些算力资源,构建弹性、可扩展的算力平台,成为企业必须考虑的关键问题。
其次,数据是 AI 的“燃料”。高质量、大规模的数据是训练有效 AI 模型的必要条件。企业需要建立完善的数据采集、清洗、标注、存储和管理体系。如何打破数据孤岛,整合企业内部和外部的多源异构数据,保障数据安全与合规,是企业在 AI 部署过程中面临的重要挑战。
再次,算法与模型是 AI 的“大脑”。企业需要根据自身的业务场景和需求,选择合适的 AI 算法和模型。这可能涉及到自主研发、与 AI 技术供应商合作,或者利用开源模型进行定制化开发。如何评估模型的性能、可解释性和鲁棒性,并进行持续的优化和迭代,是确保 AI 应用价值的关键。
此外,平台与工具链的支撑至关重要。企业需要构建或选择一个易于使用、功能完善的 AI 开发和部署平台。这包括模型开发工具、模型管理平台、部署框架、监控与运维工具等。一个高效的平台能够降低 AI 应用的开发门槛,加速部署周期,并简化后续的管理和维护工作。
最后,人才与组织结构的匹配是 AI 成功的保障。AI 的部署不仅仅是技术问题,更涉及到业务流程的变革和组织能力的提升。企业需要培养或引进具备 AI 专业知识和跨领域协作能力的人才,并调整组织结构以适应 AI 驱动的业务模式。
综上所述,企业 AI 的部署需求涵盖了算力、数据、算法模型、平台工具链以及人才组织等多个维度。面对这些挑战,企业需要制定清晰的 AI 战略,选择合适的合作伙伴和技术方案,并持续投入资源和精力,才能真正将 AI 融入业务流程,实现智能化转型,在未来的竞争中占据有利地位。
表 1 企业 AI 部署需求
| 理由 | 说明 |
|---|---|
| 数据安全与隐私保护 | 保护敏感数据,确保数据不会外泄,减少数据泄露和滥用的风险。 |
| 合规性与法规要求 | 确保符合行业特定的合规性要求,避免因使用公共云服务违反相关法规。 |
| 定制化和控制权 | 允许企业根据特定需求定制 AI 解决方案,完全控制硬件、软件和 AI 模型的优化。 |
| 性能与可靠性 | 根据业务场景优化 AI 系统的性能,确保低延迟和高吞吐量,提供更好的系统可靠性。 |
| 成本控制 | 减少对外部云服务的依赖,长远来看可以降低计算和存储成本,优化资源配置。 |
| 增强竞争力 | 保持对核心技术的控制,避免依赖外部服务提供商,从而在技术领域保持竞争力。 |
| 避免供应商锁定 | 避免对单一云服务商的依赖,减少“供应商锁定”风险,灵活选择和调整技术栈。 |
| 本地化支持与优化 | 提供更好的本地支持和维护,优化 AI 系统以与企业现有工作流程和 IT 基础设施紧密对接。 |
企业 AI 部署的四个阶段
表 2 企业 AI 部署的四个阶段
| 阶段 | 核心目标 | 技术实现 / 具体操作 | 关键产出 | 注意事项 |
|---|---|---|---|---|
| 体验评估阶段(快速验证可行性) | 用最低成本快速搭建可运行的 Demo,验证大模型与企业数据结合的基础能力 |
硬件推荐:具备足够核心数和较高主频的商用级台式机或工作站 CPU(如 Intel® Core™ i7/i9),加上消费级显卡(如 Intel® Arc™ 770)或工作站级显卡(如 RTX A2000/A4000) 软件推荐:Ubuntu 或 CentOS,加上 OPEA(企业 AI 开放平台) 具体操作:选择一个具体的、可量化的业务问题作为 AI 应用的试点,并准备小规模但具有代表性的数据集,利用 OPEA 提供的各种微服务与用例进行初步的模型部署和体验 |
1. 能实现基础企业数据问答、文档检索功能的 Demo
|
此阶段不对模型微调,重点验证“数据 - 模型 - 服务”基础链路是否畅通 |
| 深度测试阶段(精准匹配需求) |
系统性地测试不同模型的性能,明确企业对硬件和功能的具体需求 |
1. 多维度测试: 模型对比:测试多种模型,包括开源 (Llama 3、Qwen-14B) 和商业(Anthropic Claude 3、通义千问企业版),从回答准确率、推理速度、多轮对话能力等对比 性能压测: 数据适配:对长文档(超 4K tokens)、多模态数据(表格、图片)、专业领域数据(法律条款、技术文档)等测试,建立测试标准(准确率 >90%、响应时间 <5s、上下文长度满足最长文档需求等) 成本评估:对比不同模型训练和推理的算力成本(如 A100 和 V100 显卡成本差异) |
1.《模型选型报告》,明确推荐模型及备选方案
|
可对模型轻量微调(如 LoRA、QLoRA)验证领域适配能力,无需全量训练 |
| 正式部署阶段(落地生产环境) | 构建稳定、可扩展且性价比高的生产系统,确保长期维护的便利性 |
1. 硬件方案: 基础配置:按并发量选服务器 (单卡 A100 × 1 适用于 10 - 20 并发,多卡 A100 × 8 适用于高并发),用 NVIDIARDMA 技术提升显存利用率,存储用分布式文件系统 MinIO 存企业数据,Redis 缓存高频内容 2. 软件优化:模型量化 (FP16 → INT8) 和蒸馏提升推理速度,结合企业核心场景微调模型 (如客服场景微调对话策略,研发场景增强代码生成能力) 3. 落地保障:安全合规处理(数据加密、用户认证、日志审计),制定应急预案(模型服务熔断机制、每日增量备份知识库) |
1. 生产环境大模型服务上线,支持核心业务(智能客服、文档审阅等)
|
优先选社区活跃模型,获取持续技术支持,降低厂商锁定风险 |
| 升级服务阶段(持续价值挖掘) | 根据业务需求变化,持续优化系统,拓展应用场景 |
1. 迭代方向: 模型升级:定期评估最新模型(如年度大模型),A/B 测试对比效果,对模型增量训练(用企业新数据) 数据升级:拓展数据类型(接入结构化、实时数据),构建多源融合知识库,进行数据质量治理(清理过时内容,补充标准答案) 场景拓展:开发新应用(自动化生成报告、智能代码助手、流程自动化),探索混合部署模式(边缘端部署轻量化模型,云端部署核心模型) 2. 技术创新:尝试多模态能力(接入图片、视频数据,实现“以图问图”等功能),结合行业专用工具(法律领域集成合同解析引擎,医疗领域对接电子病历系统) |
1.《年度升级规划》,明确模型、数据、场景迭代路线
|
升级过程保证服务连续性,采用灰度发布逐步替换旧版本 |
| 全周期核心策略 | 成本控制、技术栈兼容、团队能力建设 |
1. 成本控制:体验和测试阶段优先用开源模型和现有硬件,正式部署选 “性能 - 成本” 平衡方案(如用 H100 替代 A100 支持更高并发) 2. 技术栈兼容:选模块化架构,方便换模型和扩展功能 3. 团队能力建设:培养内部团队掌握模型微调、数据治理、基础运维等技能,减少对外部供应商依赖 |
无 | 无 |
企业 AI 软件栈
企业拥抱人工智能的浪潮已势不可挡,而一套高效、灵活的软件栈是构建强大 AI 能力的关键。如同搭积木般,企业需要从底层硬件到上层应用进行精心选择和组合。以下将基于表格内容,对企业 AI 软件栈的各个层次进行简要介绍:
基石:硬件平台 (HW Platform)
AI 应用的运行离不开强大的硬件支撑。无论是模型训练还是高效推理,都需要高性能的计算资源。表 3 中列出的 Xeon(英特尔® 至强®)系列处理器以其强大的通用计算能力,常作为 AI 基础设施的核心。而 NV(英伟达)和 Arc(英特尔锐炬®)等显卡,凭借其并行计算的优势,尤其在深度学习领域扮演着加速器的关键角色。
底座:操作系统 (OS)
操作系统是整个软件栈的基础。在 AI 领域,开源的 Linux 及其衍生发行版如 openEuler、OpenAnolis、OpenKylin 等因其稳定性、灵活性以及对各种硬件和 AI 框架的良好支持,成为主流选择。
中枢:云/本地编排 (Cloud / Local Orchestration)
为了高效地管理和部署 AI 应用,容器化和编排技术至关重要。Kubernetes 和 Docker 作为行业标准的容器编排和容器化工具,能够帮助企业实现 AI 应用的快速部署、弹性伸缩和资源管理,无论是部署在本地数据中心还是云端环境。
加速引擎:AI 平台优化软件 (AI Platform Optimization SW)
为了充分发挥底层硬件的性能,需要针对 AI 工作负载进行优化。oneAPI(包含 OneDNN, OneCCL)等跨架构的统一编程模型,以及 CUDA(英伟达)、OpenCL(开放计算语言)、Level0、OpenMP、Triton、CUTLASS 等针对特定硬件的优化库和工具,能够显著提升 AI 模型的训练和推理效率。
核心动力:AI 框架与工具链 (AI Framework and Toolchain)
AI 框架是构建和训练 AI 模型的关键工具。PyTorch 以其灵活性和易用性在研究领域和部分工业界广泛应用。围绕这些核心框架,涌现了众多高效的工具链,如用于加速 LLM 推理的 vLLM、Ollama、TGI,以及提供丰富预训练模型和工具的 HuggingFace Transformers 和便捷的 AI 模型部署和管理工具 WebUI。同时,针对特定硬件的优化库如 IPEX (Intel Extension for PyTorch) 和 KTransformers (Kunlunxin Transformers) 也进一步提升了性能。
智能核心:大型语言模型 (LLM)
近年来,大型语言模型 (LLM) 成为 AI 领域的热点。DeepSeek、Llama、QwQ 等代表了不同特点和能力的 LLM,它们是构建各种智能应用的核心引擎。
智能应用基座:解决方案 (Solution)
为了简化 AI 应用的部署和管理,涌现了各种解决方案平台。OPEA (Open Platform for Enterprise AI) 旨在为企业构建强大的生成式人工智能解决方案,OPEA 一键部署工具降低了企业 AI 部署的门槛。Dify 等平台则提供了更上层的 AI 应用开发和管理能力。
智能触达:Agent / App / Service
最终,AI 的能力将通过各种 Enterprise RAG(检索增强生成)应用、智能 Agent 和各种 Service 触达用户和业务场景,解决实际问题,创造价值。
总而言之,企业 AI 的软件栈是一个由底层硬件、操作系统、编排工具、优化软件、AI 框架、LLM 以及上层应用和服务构成的复杂而精密的体系。企业需要根据自身的业务需求、技术积累和未来发展战略,仔细选择和构建最适合自己的 AI 软件栈,才能在 AI 时代抓住机遇,实现智能化转型。
表 3 企业 AI 软件栈
| AI 软件栈 | 开源技术 / 软件框架 / 库 |
|---|---|
| Agent / App / Service |
Enterprise RAG, Agent |
| Solution (deployment / management / infrastructure) |
OPEA One-click deployment tool, Dify |
| LLM | DeepSeek, Llama, QwQ |
| AI framework and toolchain | vLLM, Ollama, HuggingFace Transformers, TGI, Pytorch, IPEX, KTransformers, WebUI |
| AI Platform Optimization SW | oneAPI (OneDNN, OneCCL), CUDA, OpenCL, Level0, OpenMP, Triton, CUTLASS |
| Cloud / Local Orchestration | Kubernetes, Docker |
| OS | Linux, openEuler, OpenAnolis, OpenKylin… |
| HW Platform | Xeon, NV, Arc |
OPEA:企业人工智能开放平台
Linux 基金会支持的 OPEA (Open Platform for Enterprise AI) 项目,专注于为企业提供开放和可扩展的 AI 平台,简化生成式 AI 在企业的部署,加速可靠、可靠的生成式 AI 解决方案产品落地。
OPEA 架构概念图
OPEA 提供了许多独特的优势,帮助企业实现高效、灵活的 AI 应用部署。首先,OPEA 在硬件平台无关性方面具有显著优势。它支持多种硬件平台,包括 Intel® CPU、Gaudi、ARC 以及 AMD MI300 等,未来还可以支持各种异构架构。对于企业来说,这意味着他们现在以及未来都无需担心特定硬件平台的兼容问题,能够灵活选择不同硬件资源进行优化,而不被特定厂商绑定。
其次,OPEA 具有操作系统无关性的特点。目前,它支持主流的 Linux 内核版本,并在 Ubuntu 上经过了验证,未来还计划支持更多 Linux 发行版和国产操作系统。通过这种无关性,OPEA 为企业提供了更加灵活的操作系统选择,不再局限于特定操作系统,减少了系统迁移和扩展时的复杂性。
然后,OPEA 还具备推理框架无关性的优势,支持包括 vllm 在内的多种主流推理框架。这一特性使得企业能够根据需求切换到最佳或最新最流行的推理框架,而无需担心框架之间的兼容性问题。同时,OPEA 支持同时使用多个大模型,帮助企业灵活选择最适合的推理引擎,例如企业内部有多个业务,不同业务可以根据需要同时选择不同的大模型,从而提升推理的效率和准确性。另外,未来,企业也可以把业务切换到未来最新大模型(如下一代 DeepSeek)进行推理。
另外,OPEA 还通过容器化和微服务化的架构,提供了极高的可扩展性、可靠性和灵活性。它通过利用容器技术与云基础设施的集成,支持企业快速扩展计算资源,减少重复投资。这使得 OPEA 能够满足不同规模企业的需求,无论是在云端还是本地部署都能够高效运行。
在微服务和 Pipeline(管道)机制方面,OPEA 最新 1.3 版本里提供了包括 RAG 等多达 20 余种微服务,让企业可以轻松构建复杂的 AI 应用。通过这种微服务化的方式,企业可以根据自己的需求灵活地选择和组合功能模块,而无需从零开始构建,这大大降低了开发成本和时间。在今年 OPEA 还将引入 GraphRAG 相关的微服务,未来甚至可以引入目前不可预知且未来最先进的 AI 推理技术,进一步提升企业 AI 开发效率。OPEA 目标是:OPEA 会紧跟 AI 技术趋势,且对上层企业 AI 应用透明,使企业 AI 的应用开发就像“搭积木”一样简单。
最后,OPEA 的开源开放特性也是其重要的优势之一。OPEA 采用 Apache 开源协议,代码完全开放,企业可以自由使用、修改甚至基于OPEA 构建自己的商业产品。这种开源协议不仅增强了透明度,还使得企业能够在保障自身利益的同时,更好地与其他厂商和社区进行合作。
快速部署方案
正如云计算时代的 OpenStack,OPEA 肩负着降低企业 AI 门槛的使命而来。对于渴望拥抱 AI 的企业而言,复杂的环境配置和部署流程往往是第一道难以逾越的障碍。OPEA 一键部署方案的诞生,正是为了彻底打破这一僵局,让企业能够以前所未有的速度和便捷性,踏上 AI 征程。
OPEA 深知企业在 AI 落地过程中的痛点,摒弃了复杂的配置流程和专业团队的长期投入,创新性地推出了“无代码部署、一键升级、一步接入企业数据、Enterprise RAG 开箱即用”的极简部署方式。无需深入繁琐的技术细节,只需轻点指尖,即可在您的服务器或一体机上快速构建并运行起功能强大的 OPEA 平台。
3 步无代码完成企业知识库部署步骤:
1. 无代码在线部署 DeepSeek:启动 ./opea-install.sh -m online 自动完成所有步骤
2. 启动验证微服务,自动完成部署测试,汇报日志或者异常
3. 上传企业私有知识库
- 直接使用企业私有知识库 + DeepSeek
- 支持在线和离线两种安装模式
- 支持 DeepSeek-R1-Distill-Qwen-7B 和 DeepSeek-R1-Distill-Qwen-32B 两个模型。
表 4 OPEA 微服务
| 微服务名称 | 微服务描述 | 微服务名称 | 微服务描述 |
|---|---|---|---|
|
Agent Microservice |
负责处理代理功能,可能涉及智能助手或自动化任务的执行。 |
Llms Microservice |
处理和管理大型语言模型 (LLMs) 相关的服务,支持自然语言处理任务。 |
|
Animation Microservice |
负责创建、编辑和播放动画。 |
Lvms Microservice |
与视图管理系统 (LVMS) 相关,涉及图像或视频的视图控制与优化。 |
|
Asr Microservice |
自动语音识别服务,处理语音到文本 Promptregistry 的转换。 |
Prompt_registry Microservice |
用于管理和存储提示词的注册与使用,优化对话生成。 |
|
Chathistory Microservice |
管理和存储聊天记录的服务。 |
Rerankings Microservice |
负责重新排序搜索或推荐结果,基于用户需求或特定算法。 |
|
Cores Microservice |
核心计算或处理单元,支持系统的基本功能和操作。 |
Retrievers Microservice |
处理信息检索功能,从数据库或知识库中提取相关数据。 |
|
Dataprep Microservice |
数据预处理服务,负责数据的清洗、格式化和转换。 |
Text2cypher Microservice |
将文本转换为加密代码或查询语言(如 Cypher,用于图数据库查询)的服务。 |
|
Embeddings Microservice |
负责生成和处理文本或数据嵌入,用于表示和相似度计算。 |
Text2graph Microservice |
将文本转换为图形结构或图表的服务,用于数据可视化或图数据处理。 |
|
Feedback_management Microservice |
管理用户反馈的服务,包括收集、存储和分析反馈。 |
Text2image Microservice |
将文本描述转换为图像,支持文本生成图像功能。 |
|
Finetuning Microservice |
微调模型服务,适用于根据特定需求调整机器学习模型。 |
Text2sql Microservice |
将自然语言文本转换为 SQL 查询语句,用于数据库操作。 |
|
Guardrails Microservice |
安全和约束管理服务,确保系统在合理范围内运行,避免不当使用。 |
Third_parties Microservice |
第三方提供的微服务 |
|
lmage2image Microservice |
图像到图像的转换服务,可能涉及风格转换或图像修复等功能。 |
Tts Microservice |
文本转语音服务,将文本转换为语音输出。 |
|
Image2video Microservice |
图像到视频的转换服务,将静态图像转化为视频格式。 |
Web_retrievers Microservice |
提取和收集来自网页的相关信息,进行网页数据抓取和解析。 |
基于微服务的 AI 应用和 Agent
在 AI 驱动的数字化转型浪潮中,企业对 AI 应用的需求日益多元化和复杂化。OPEA(Open Platform for Enterprise AI,企业 AI 开放平台)以前瞻性的微服务架构为核心,将庞大的 AI 能力拆解为一系列独立、可组合的微服务,为企业构建灵活、高效、可扩展的 AI 应用提供了强大的基石。
借助 OPEA 的微服务架构,企业可以轻松构建如表 5 中所示的各种复杂的 AI 应用。
表 5 基于微服务的 OPEA AI 应用
|
AgentQnA (ENHANCED in 1.2) |
DOcSum (ENHANCED in 1.2) |
SearchQnA |
|---|---|---|
|
AudioQnA |
EdgeCraftRAG (ENHANCED in 1.2) |
Text2lmage |
|
AvatarChatbot |
FAQGen |
Translation |
|
ChatQnA (ENHANCED in 1.2) |
GraphRAG |
VideoQnA |
|
CodeGen |
InstructionTuning |
VisualQnA |
|
CodeTrans |
MultimodalQnA (ENHANCED in 1.2) |
WorkflowExecAgent |
|
DBQnA |
ProductivitySuite |
|
|
DocIndexRetriever (ENHANCED in 1.2) |
RerankFinetuning |
|
OPEA 基于微服务的 AI 应用开发模式,真正实现了“开箱即用,按需定制”的理念,极大地降低了企业构建和部署 AI 应用的门槛,加速了企业智能化转型的进程。选择 OPEA,可以企业的 AI 创新如同搭积木般简单高效,快速构建出适应未来竞争的智能引擎!
企业 AI 部署体验评估阶段操作指南
本指南目标是低成本快速搭建可运行的 Demo,以验证大模型与企业数据结合的基础能力。硬件平台选择 Intel® CPU(确保核心数和主频满足基本 AI 任务需求),加上 Intel® Arc™ A770 独立显卡(确保驱动程序已正确安装)。普通的台式机只要配上一块英特尔的 Arc™ A770 显卡就能运行 Deepseek 蒸馏版 7B 大模型,如果至强® WorkStation CPU 加上有 4 张 Arc™ A770 卡,就可以快速运行 Deepseek 蒸馏版 32B 模型。
软件 AI 平台选择 OPEA,OPEA 提供了一键部署解决方案,可以极大简化安装过程。利用 OPEA 丰富的 GenAI 参考实现(https://github.com/opea-project/GenAIExamples),以及提供的一键部署解决方案,我们就可以快速搭建一套使用 DeepSeek 模型的 AI 应用。OPEA 的一键部署解决方案集成了来自 OPEA 社区的核心 AI 微服务,以及开箱即用的生成式 AI 应用。
这里我们以常见的 ChatQnA 应用为例。ChatQnA 是利用大型语言模型强大对话和推理能力的最广泛应用。基于检索增强生成 (RAG) 架构,它结合了知识库(通过向量存储)和生成模型的优势,减少了模型幻觉,保持信息的最新性,能够利用特定领域的知识为用户提供准确的答案。该应用囊括了 Embedding,Reranking, 向量数据库等多个微服务,我们将利用 VLLM 作为 LLM serving 的底层框架。
操作系统选择 Ubuntu 24.04.2 或者Ubuntu 22.04.1,OPEA 的一键部署方案已经在上面进行了验证。
获取 OPEA 一键部署安装包,并以 root ⽤户或超级⽤户⾝份运⾏以下脚本:
./opea-install.sh -u chatqna
当安装脚本输出 Installation successfully completed. 的时候代表应⽤安装成功。安装完成后,环境中有 9 个 ChatQnA 微服务,同通过如下命令可以检测每个微服务的运⾏状态。
sudo docker ps --format "table {{.ID}}\t{{.Image}}\t{{.Status}}\t{{.Names}}" CONTAINER ID IMAGE STATUS NAMES 9d37f35fad4a opea/nginx:1.2 Up About an hour chatqna-xeon-nginx-server a96797abdd4b opea/chatqna-conversation-ui:1.2 Up About an hour chatqna-xeon-conversation-ui-server 86689de1f03a opea/chatqna:1.2 Up About an hour chatqna-xeon-backend-server 9cb55b1ea5db opea/dataprep:1.2 Up About an hour dataprep-redis-server d07d1ccc3072 opea/retriever:1.2 Up About an hour retriever-redis-server 4f1cc713b924 intelanalytics/ipex-llm-serving-xpu:2.2.0-b14 Up About an hour vllm-service 56f2df7c54f0 ghcr.io/huggingface/text-embeddings-inference:cpu-1.5 Up About an hour tei-embedding-server 6eba1dd927fc redis/redis-stack:7.2.0-v9 Up About an hour redis-vector-db 0e07135e72fe ghcr.io/huggingface/text-embeddings-inference:cpu-1.5 Up About an hour tei-reranking-server
在浏览器打开开 http://<your-host-ip>:8000,点击右上角的按钮,选择一个或者多个私有知识库提交。目前支持 pdf,txt,docx 等文件格式。安装包⾥已经包含了⼀个测试知识库 nke-10k-2023.pdf。
OPEA ChatQnA 应用 —— 上传私有知识库
然后,就可以访问基于 OPEA 的 ChatQnA 聊天机器⼈,输⼊问题就可以进行问答。
OPEA ChatQnA 应用 —— 问答
这个解决方案的技术亮点有:
- 低成本部署:通过采用 多路英特尔锐炫™ A770 显卡,即可实现生产级服务的部署,大幅降低了硬件成本和资源消耗,为企业提供了一种经济高效的解决方案。
- 端到端流程:方案覆盖了从知识库准备到智能问答的完整闭环流程。用户无需额外开发或集成其他工具,即可快速搭建一套功能完善的智能问答系统。
- 企业级特性:确保企业敏感数据在本地进行处理,避免数据泄露风险,满足金融、制造等行业的高安全性要求。
