广联达行业 AI 大模型
白皮书
AI+
广联达行业 AI 大模型
白皮书
AI+
引言
AI 大模型正在催生新一轮技术创新与产业变革,也将为建筑等传统行业数字化转型
和高质量发展带来新动能。当前市场以基础大模型为主,通识能力强,但缺少行业专业知
识。使用大模型赋能千行百业,是下一阶段的发展重点。高质量的行业 AI 大模型,必须
具备专业化、低成本、高可靠性的特点,以解决行业痛点问题。
行业 AI 大模型,通常是基于通用大模型调整而来,是很多企业提高模型专业度的有
效选择,也是国家落地 “人工智能 +” 的最后一公里。而决定大模型所产生的影响大小,
其核心因素在于 “知识密度”,知识密度越高的行业或场景,受影响会越大,比如建筑行
业的设计、交易、计划、安全等环节。
1
广联达建筑行业 AI 大模型——AecGPT,面向行业级应用,覆盖建筑行业中规划、设
计、交易、成本、施工、运维及综合管理 7 个领域,在继承通用大模型能力的基础上,通
过将行业专业知识通过亿级 Token 进行知识增强,覆盖了数十万份高质量行业数据,具
备自主决策、分析处理、辅助生成等专业能力。
基于建筑行业 AI 大模型 AecGPT,我们还构建了包括 AI 设计大模型、AI 算量大模型、
AI 斑马进度大模型、AI 物资管理大模型、AI 工程交易大模型、AI 施工安全大模型、AI 教
育大模型等具体场景的 AI 大模型及其落地应用,将赋能相关的业务领域实现效率提高和
价值升级。例如,基于 AI 智能设计大模型的 AI 原生驱动设计平台 Concetto,能够通过
智能化的生成设计和数字化的决策支持,推动高效设计和创新、提升设计合理性和价值。
在 AI 算量方面,公路算量产品核心业务包含工程量复核 + 多维台账生成,应用 AI 算量大
模型后,数十亿体量的项目算量周期从 3 个月缩减到 2 周内。在 AI 施工进度方面,AI 斑
马进度突破了施工组织设计文档智能解析。AI 物资管理方面的应用包含 AI 进场检测、AI
无人称重、AI 出场风控等,物资管理 AI 产品的核心业务能实现无人化智能管控和无感止损。
在 AI 工程交易方面则突破了 AI 交易技术标智能评审。在 AI 施工安全方面,高效实现了安
全措施管理的闭环。AI 教育的典型产品——天天项上 APP,是项目经理成长的伴侣。
随着技术的不断普及,行业 AI 将变成社会的基础生产要素,行业 AI 大模型作为新质
生产力的基础,不仅推动建筑业、农业、制造业等传统产业的转型升级,也在推动新兴产
业的快速发展,持续为社会经济的高质量发展注入新的动力。
2
目录
01 行业 AI 大模型是 AI+ 落地的必经之路
1.1 大模型引领:智能时代的革命浪潮
1.1.1 大模型为什么能引领这一技术变革
1.1.2 通用大模型具备的特点
1.2 发展 AI 行业大模型的必要性与特点
1.2.1 发展行业 AI 大模型的必要性
1.2.2 行业 AI 大模型的特点
02 行业 AI 大模型介绍
2.1 行业 AI 大模型分级构建概述
2.2 AecGPT 语言大模型
2.2.1 数据收集
2.2.2 训练过程
2.2.3 结果评估
2.2.4 效果展示
2.3 AecGPT-V 多模态大模型
2.3.1 数据收集
2.3.2 训练过程
2.3.3 效果展示
2.4 行业大模型实现方式
2.4.1 引导 : 提示词工程
007
008
008
010
010
011
015
020
017
017
017
018
020
021
022
022
023
023
3
03 行业 AI 大模型场景落地
3.1 行业 AI 大模型分级构建方式
3.2 建筑行业全场景 AI 大模型应用
3.2.1 AI 设计
3.2.2 AI 算量
3.2.3 AI 工程交易
3.2.4 AI 进度管理
3.2.5 AI 物资管理
3.2.6 AI 安全管理
3.2.7 AI 教育
3.2.8 AI 客服
04 展望未来,行业大模型的机遇与挑战并存
编写团队
2.4.2 外挂 : 检索增强生成
2.4.3 优化 : 精调
2.4.4 原生 : 增量预训练
2.4.5 多种方式组合
2.5 行业 AI 开发工具链:行业 AI 平台
2.5.1 平台概述
2.5.2 平台优势
2.5.3 应用流程
2.5.4 平台架构
037
027
030
034
035
037
038
039
039
047
066
047
051
075
077
054
058
062
069
072
046
4
01
行业 AI 大模型
是 AI+ 落地的必经之路
5
2022 年 11 月 30 日,OpenAI 发布了创世性的聊天问答工具 ChatGPT,这是一款具有里程
碑意义的大语言模型(LLM)应用工具。ChatGPT 迅速赢得了用户的广泛关注,仅 5 天时间,用
户数就突破了百万大关,并在短短两个月内达到了亿级规模,这一增长速度刷新了历史记录,使
其成为有史以来增长最快的应用程序之一。ChatGPT 的广泛流行标志着人工智能大模型时代的开
启,预示着 AI 向更高级别的通用人工智能(AGI)的快速发展。尽管目前对 “大模型” 还没有一
个统一的定义,但它们通常指的是基于 Transformer 架构构建的大语言模型,广义上也包括了能
够处理语言、声音、图像和视频等多种模态数据的多模态大模型,技术架构也涵盖了如 Stable
Diffusion 等。
1.1 大模型引领:智能时代的革命浪潮
6
人工智能(AI)大模型正成为新一轮技术革命和产业变革的驱动力,为工业、金融、教育等
关键行业提供了数字化转型的新动能,促进这些行业的高质量发展。
AI 大模型的崛起正在深刻地重塑着各个行业的未来格局。
1.1.1 AI 大模型为何能够引领技术变革
1)AI 大模型通过 \" 大数据 + 大算力 + 强算法 \" 的路径显著增强了通用性和泛化性,推动人
工智能从以专用小模型定制训练为主的 \" 手工作坊时代 \",迈入以通用大模型预训练为主的 \" 工业
化时代 \"。
2)大模型能够从大量训练数据中学习高效特征表示方法,训练出有巨大参数量的神经网络模
型,包括视觉预训练大模型、自然语言处理预训练大模型、多模态预训练大模型等。
3)大模型可以作为基础设施,通过行业预训练和场景微调,快速产出满足实际应用需求的部
署模型,大幅降低 AI 开发的门槛和成本。
4)以 OpenAI 的 ChatGPT-3.5 为代表的大语言模型,展现出极强的推理、思维链等能力,
让人类看到了通用人工智能的曙光;多模态大模型不仅能处理单一数据类型,还可以在不同数据
类型间建立联系和融合,为解决复杂问题提供支持。
5)大模型正在重构现有的商业模式,未来将形成模型即服务的 MaaS 生态。大模型能够为各
行业应用赋能,加快社会各领域数字化转型、智能化发展,带来全社会的生产效率提升。
1.1.2 通用大模型具备的特点
在大模型技术兴起之前,人工智能的发展主要围绕着为特定应用场景定制的深度学习算法模
型这些模型的能力通常局限于它们所训练的数据类型,因此只能解决特定的单一问题。
但随着大模型技术的突破,人工智能领域迎来了新的发展阶段,这些大模型具备了跨领域的学
习能力和处理多种任务的通用智能,因此被广泛称为 “通用大模型”。
学术界中的一些专家,例如著名的斯坦福人工智能学者李飞飞,进一步将这种具有广泛适用性
的模型称为 “基础模型” 或 “基座模型”,这一叫法反映了这些模型在人工智能领域中的重要地位,
它们为进一步的广泛应用提供了坚实的基础和强大的支持能力。
具体而言,通用大模型具备如下特点:
1)参数规模大
大模型之所以在性能上能够实现质的飞跃,很大程度上得益于其庞大的参数规模,这一点与 “规
模定律”(Scaling Law)紧密相关。这一定律揭示了模型性能与其规模、所处理的数据集的
7
广度以及训练过程中所需的计算资源之间存在着密切的幂律关系。换言之,随着这些要素的
指数级增长,模型的性能也会相应地实现线性提升,这被形象地概括为 “规模带来奇迹”。
对于 “规模” 一词,并没有统一的定义,它更多地体现了一种相对性。相较于传统深度学习
模型的参数数量,其范围通常在数万至数亿之间,而大模型则至少拥有亿级别的参数,一些模型
的参数量甚至已经达到了万亿的量级。以 OpenAI 的 GPT 系列为例,从 GPT-1 的 1.1 亿参数到
GPT-3 的 1750 亿参数,再到 GPT-4 的非官方预计参数量高达 1.8 万亿,这一跃迁不仅标志着参
数规模的显著扩大,也预示着大模型在处理复杂问题,尤其是在自然语言处理(NLP)领域,将
释放出更加惊人的潜力和效率。
2)泛化能力强
大模型之所以能够灵活应对各种新颖未见的数据和任务,主要归功于其基于注意力机制的先
进设计,这种设计赋予了它们处理多样化信息的强大能力。
在经过大量且多样的非结构化数据的预训练之后,大模型能够吸收并掌握广泛的通用知识与
技能,这使得它们在众多不同的应用场景和任务中都能够发挥出色的性能,无论是文本创作、语
言理解、语言翻译、数学问题求解、逻辑推理还是持续的对话交互,它们都能够游刃有余。
与传统的深度学习模型相比,大模型不需要针对特定任务准备大量的训练样本,它们甚至能
够在仅有少量样本的条件下,快速适应并提升在新任务上的表现。以 OpenAI 的 GPT-4 为例,它
在参与的多项标准化考试中,如法律、经济、历史、数学、阅读和写作等科目,成绩超过了大部
分人类考生,这证明了大模型的泛化能力极为强大,这种能力让大模型在面对未知任务和数据时,
能够展现出类似人类的广泛适用性和智能水平。
3)多模态支持
大模型通过其先进的架构,能够同时处理包括文本、图像、音频在内的多种模态数据,这一
点与传统的深度学习模型通常只能处理单一类型的数据相比,展现了显著的优势。它们利用技术
如扩展的编码器和解码器、交叉注意力机制以及迁移学习,实现了对跨模态数据的深入理解、有
效检索和创新生成。
多模态大模型(LMMs)的认知能力更为全面,交互体验更加丰富,这大大扩展了人工智能在
处理复杂任务时的应用边界,并成为了实现通用人工智能的关键步骤。以 OpenAI 的 Sora 模型为
例,它的推出引领了全球多模态大模型发展的新趋势。这种模型能够理解和生成多种媒介的数据,
如文本、图像和音频,这不仅增强了其在多样化场景中的适用性,也显著提高了其在现实世界任
务中的效率和效果。通过高效融合不同模态的数据,多模态大模型能够为用户带来更加深入和个
性化的交互体验。
8
1.2.1 发展行业 AI 大模型的必要性
1.2.1.1 大模型存在 “不可能三角” 问题
通用大模型在专业性、泛化性和经济性三个方面很难兼顾,存在 \" 不可能三角 \" 问题。
1)专业性与泛化性的矛盾
大模型专业性要求越高,需要针对特定领域的数据进行更多训练,这可能造成过拟合而降低
泛化能力。反之,为了提高泛化性,需要采用更多样化的训练数据,但这会降低模型在特定领域
的专业性。
2)泛化性与经济性的矛盾
大模型泛化性要求越高,需要更多样化的大规模训练数据集,模型参数量也会增加,这意味
着训练和使用成本的上升,同时可能会降低模型对特定问题的专业能力。
3)专业性与经济性的矛盾
为了提高专业性,需要采用更大的模型和更多的参数,但这会增加算力资源的消耗和成本。
相反,为了降低成本,需要采用更小的模型或更少的参数,但这又会降低模型的性能表现。
总之,通用大模型以发展通识能力为主要目标,更侧重泛化性,在专业性和经济性方面很难完全
满足具体行业或机构的特定需求,存在 \" 功能强大但成本高昂 \" 的问题。这就是它们面临的 \" 不可
能三角 \" 困境。
1.2.1.2 行业对大模型的内生需求
在企业机构应用大模型的过程中,主要关注两个核心因素:竞争力的提升和安全性的保障。
1)竞争力的提升
一些企业机构致力于将数据资产转化为竞争优势,为此,他们积极寻找性能卓越的模型,并
通过行业专业数据或私有数据进行定制化优化。然而,主流的通用大模型如 GPT-4 多为闭源,通
常以 Web、APP 或 API 的形式提供服务,这极大地限制了定制化调整的空间。
2)安全性的保障
广义上来讲,行业 AI 大模型可以定义为:采用大模型技术,针对特定数据和任务进行定制化
训练或优化,形成具有行业专知和技能的大模型及其应用。
对于行业 AI 大模型,国内外的叫法各不相同。在国外,称之为企业 AI(Enterprise AI)或垂
直人工智能(Vertical AI),而国内则叫作行业 AI 大模型或领域大模型。本报告统称为 “行业 AI
大模型”。
1.2 发展行业 AI 大模型的必要性与特点
9
安全性是企业机构使用大模型时的底线要求。大模型不仅处理企业机构的私有数据,还与业
务流程紧密集成,比如 Copilot 模式下。
随着大模型使用的深入,安全和可控性问题变得尤为重要。通用大模型通常基于公有云服务,
引发了对私有数据和敏感信息安全性的担忧。已有报告指出,有公司在使用 ChatGPT 期间发生
了内部资料泄露事件,包括代码上传和会议记录等。此外,用于训练通用大模型的数据和参数对
企业机构来说通常是不透明的,这影响了企业和机构对模型的信任度。
因此,各行业对大模型的内在需求不仅在于提升竞争力,还有对数据安全和可控性的高度重视。
企业在采用大模型时,需要平衡这两方面的需求,确保技术应用在增强竞争力的同时,不出现数
据安全性和隐私保护方面的问题。
1.2.1.3 行业 AI 大模型代表了人工智能与行业深度融合的关键路径
通用大模型虽然功能强大,但与特定行业或机构的具体需求之间往往存在一定的差异。为了
解决这一问题,行业特定的大模型——行业 AI 大模型应运而生,它们能够桥接技术与需求之间的
差距,助力各行各业快速实现大模型的应用。
首先,行业 AI 大模型具有高性价比的优势,能够在保持较小参数量的同时,通过成本较低的
再训练或微调,实现接近通用大模型的性能。目前,参数量在十亿到百亿级别的行业 AI 大模型成
为主流选择,与动辄千亿参数量的通用大模型相比,它们在开发成本方面具有明显的优势。
其次,行业 AI 大模型支持专业定制,可以基于开源模型进行开发,根据特定需求调整模型结
构和参数,以更好地满足个性化的应用需求。通过模型即服务(MaaS)的模式,企业和机构可以
从多种模型中快速选择并使用合适的模型,包括厂商已经开发的行业 AI 大模型的初始版本。
最后,行业 AI 大模型的数据安全性更高,可控性更强。它们可以采用私有化部署的方式,使
机构能够更加安心地使用自有数据来提升应用效果,减少对数据安全的担忧。
人工智能的终极愿景在于深入行业应用、造福人类。模型开发和服务企业若想在未来大模型
领域竞争中占据一席之地,必须深入理解用户需求、紧密贴合实际场景,并充分利用数据资源。
对于企业机构使用者来说,为有效地应用大模型,需要他们平衡专业性、数据保护、技术迭
代和成本效益等多方面因素。因此,基于特定行业背景的大模型,发展定制化的专属模型成为必
经之路。
1.2.2 行业 AI 大模型的特点
相比较于通用大模型,行业大模型具有以下特点:
1)行业大模型更具专业性和针对性
10
行业 AI 大模型通过专门针对某一行业的数据进行训练和优化,从而在该领域的语言理解、模
式识别、决策支持等方面展现出卓越的专业性和深度。这种经过定制化学习的能力,赋予了行业
AI 大模型对行业术语、专业知识和复杂流程的深刻洞察力,使其在处理行业特定任务时,如风险
评估、市场分析、客户服务等,能够提供更加精准、高效的解决方案。
此外,行业 AI 大模型在适应行业规范、遵循法规要求以及整合行业最佳实践方面也具有明显
优势,能够确保其输出结果不仅技术上先进,而且业务上实用、合规。因此,行业 AI 大模型在特
定任务上的表现不仅优于通用模型,更能为企业带来实质性的业务价值和竞争优势。
2)行业 AI 大模型是通用大模型的上层建筑
行业 AI 大模型往往是在通用大模型的基础之上发展而来。通用大模型的广泛知识基础和泛化
能力,为行业 AI 大模型提供了丰富的知识储备和优化的底层基础,可以说通用大模型是行业 AI 大
模型的有力基石。基于通用大模型开发行业 AI 大模型的技术路线,不仅节省了从零开始训练大模
型所需的大量数据和算力资源,而且提高了开发和应用行业 AI 大模型的效率。
此外,通过对通用大模型进行提示词工程(PE)、检索增强生成(RAG)、微调或预训练等技
术手段,可以使其更好地适应特定行业的数据和任务,形成具有行业特性的大模型版本。目前工
业界的许多行业 AI 大模型,如金融、法律、教育、医学等领域的专有模型,大多是基于主流开源
大模型进行构建的。
3)行业 AI 大模型是一个涵盖模型开发和应用的广泛概念
与传统的通用大模型不同,行业 AI 大模型更注重特定领域的专业能力。实际上,行业 AI 大模
型不仅仅是一个独立的模型,更多地是基于通用大模型进行调整和优化,以适应特定行业的应用
需求。
4)本质上是行业解决方案的新时代产物
行业 AI 大模型主要面向企业端客户,他们通常具有不同的业务流程和数据模式,因此核心在
于提供一套特定行业的综合解决方案。
与通用大模型相比,行业 AI 大模型更能深入解决特定行业的问题,因为它们可以针对具体的
业务场景和数据特点进行定制化开发和优化。这种定制化不仅涉及模型本身的调整,还可能包括
与特定行业知识的结合,以实现更高的准确性和效率。
行业 AI 大模型的实现通常建立在通用大模型的基础之上,通过进一步的训练或优化来适应特
定行业的需求。此外,行业 AI 大模型还强调数据安全和隐私保护,支持私有化部署,使企业能够
更安全地使用自身的数据来提升应用效果。
总的来说,行业 AI 大模型的未来发展将更加注重与行业深度融合,提供更加个性化、高效
11
且安全的智能服务,帮助企业实现智能化升级,并解决实际业务问题。随着技术的进步和市场的
需求,预计会有更多的定制化、行业化的大模型实现商业落地,为用户带来更加丰富和深化的应
用场景。
12
13
02
广联达
行业 AI 大模型介绍
所谓的垂直领域模型,是通过在预训练数据中加入特定领域的数据,占比通常在 10% 至 15%
左右,从而训练出面向该行业的专用大模型。
广联达行业 AI 大模型的构建,同样遵循该模型分级模式,依托于开源基础大模型,覆盖数十
万份高质量行业数据,搭建出 L1 级行业大语言模型 AecGPT,多模态大模型 AecGPT-V,扩散生
成模型 AecDiffusion,在 L1 的基础上又衍生出服务于下游不同细分任务的 L2 级场景大模型,分
别有:AI 设计大模型,AI 算量大模型,AI 斑马进度大模型,AI 物资管理大模型,AI 交易大模型,
AI 安全大模型,和 AI 教育大模型。
2.1 行业 AI 大模型分级构建概述
14
通用大模型
文本
教育
金融
客服 设计 施工运维 开发
医疗
法律
建筑
传媒
广告
游戏
······
图像 代码 语音 视频 多模态
行业 大模 型
营销 办公 ······
场 景 大模 型
企业应用
L1
L0
L2
······
行业数据
场景数据
企业数据
图 大模型的构建分级
建筑行业 AI 大模型 AecGPT,覆盖建筑行业的规划、设计、交易、成本、施工、运维及综合
管理等 7 个领域,亿级 Token 行业知识增强,具有自动化、分析决策、辅助生成等专业能力。
AecGPT 覆盖亿级行业高质量中文语料,包含行业通识及广联达多年来积累沉淀的专家经验
数据。
广联达建筑行业 AI 大模型具备以下核心能力:
15
建筑行业AI
核心能力
分析与决策
基于数据洞察的分析与决策
AI交易:基于数据分析,自主评标
生成
理解并生成专业内容
AI进度:理解项目意图,辅助人工进
行项目信息提取、搭载领域知识辅
助计划编制、计划多维分析与动态
调优
自动化
自动化处理重复性工作
AI基建算量:让10亿体量项目工程量复
核提量工作从3个月缩减到2周内
图 建筑行业 AI 核心能力
16
广联达建筑大模型 AecGPT 是在国内开源的通用基座大模型基础上,在预训练阶段加入了
7000 万 Token 以上的建筑领域语料进行二次增训,使模型对建筑领域知识体系有完整的吸收与
理解,之后再通过千万条高质量的建筑领域指令数据进行了 SFT 和 RLHF。
2.2.1 数据收集
构建了 12 类行业 + 产线评估集,覆盖多个行业权威考试、行业常用工程文档、行业规范、行
业法律法规。
2.2.2 训练过程
大型语言模型(LLM)的训练是一个复杂的过程,通常包括三个阶段:
1)预训练阶段
这是训练流程的起点,需要收集大量文本数据(达到 TB 级别),选择或设计合适的模型架构
(如 Transformer),训练分词器来处理文本数据,进行数据预处理,然后使用这些数据训练模型。
预训练通常采用自监督学习方法,如掩码语言模型(MLM)或因果语言模型(CLM),使模型学
习预测句子中的下一个词或填补缺失的词,从而获得通用的语言知识。
2)指令微调阶段
在预训练的基础上,使用特定任务的数据进行微调,使模型能够更好地适应特定任务的需求。
这个阶段可能包括使用人类反馈进行强化学习(RLHF),以优化模型的输出,使其更符合人类的
期望和偏好。
3)强化学习阶段
根据数十万提示词,利用前一阶段训练的奖励模型,对有监督微调模型对用户提示词补全结
果的质量进行评估,并与语言模型建模目标综合得到更好的效果。
AecGPT 的训练主要围绕以下三个阶段进行:
▪ 增量预训练
▪ 有监督学习 SFT
▪ RLHF
2.2.3 结果评估
AecGPT 在行业评估集上能力普遍高于 GPT4,并且保持了良好的通用能力。
2.2 AecGPT 语言大模型
17
AECGPT
AECGPT Knowledge and
Capability Evaluation
(Reasoning)
427
89
489
175
222
68
-
- 15
(Question Answ ering)
- 501
RAG +
274
98
681
(Gener ativ e)
- General Capability
(Commonsense Reasoning)
CMMLU
C-Eval
MMLU
Mathematical Question
GSM8K
(Code Generation) humaneval
mbpp
3
RAG Retrieval-Augmented Generation Benchmark
Long-text Information Extraction
Needle In A Haystack
LEval Exact Match
LEval Gen
图 AecGPT 评估结果
多模态大模型作为深度学习领域的前沿技术,通过结合文本、图像、音频和视频等多种数据
输入,展现出强大的信息处理和理解能力。这类模型利用先进的模态融合技术,如模态融合层和
注意力机制,实现不同模态间的有效整合;同时,跨模态表示学习技术,例如共享编码器和模态
特定的注意力,使得模型能够学习到不同模态间的共享表示。
多模态大模型的预训练方法,通过在大规模跨模态数据上进行训练,学习到通用的跨模态表示,
进而在特定任务上进行微调,以适应具体需求。模型规模和计算资源是多模态大模型的另一重要
考量因素,因为多模态大模型通常需要更大的模型规模和更强的计算资源来支持训练和推理。
在应用领域,多模态大模型已经在多模态情感分析、问答系统、推荐系统、翻译以及智能辅
助等方面展现出广泛的应用潜力。随着技术的进步和应用领域的不断扩展,多模态大模型预计将
在医疗健康、智能交通、智能制造等多个领域发挥重要作用。
此外,多模态大模型的发展也指向了从多模态到更多模态的扩展,以及对数据集质量提升的
需求。模型性能的持续提升和多模态学习方法的创新,将为多模态大模型带来更高效、更准确的
数据处理能力。随着对具身智能的进一步探索,多模态大模型有望在动态多阶段的任务中展现出
更大的应用潜力。
18
2.3 AecGPT-V 多模态大模型
2.2.4 效果展示
近似自然语言理解
同类表述可以理解对应含义:
1.在设计一个新建筑项目时,如何选择建筑材料以最大限度地减少
对环境的影响?
2.在建筑项目的规划阶段,应采取哪些措施来确保所使用的建筑材
料对环境的负面影响最小?
针对用户的多样化提问,可以理解处理其实际含义,给出正确答案
显式信息抽取
结构化语言理解-Markdown&HTML
原始表格 结构化语言表达
AecGPT
提问:表格中成本最高的配件是?
回答:
根据表格中的数据,
成本最高的配件是
标号为 H3 的配件,
其成本为 14.5。
AecGPT
原始文档 关键信息抽取
上海某项目概念设
计任务书 .docx
图 AecGPT 信息抽取及语义理解应用效果
在评测多模态大模型时,需要使用一系列具有挑战性的评测数据集,如 BoolQ、NaturalQuestions、TydiQA、XL Sum 和 VATEX 等,这些数据集能够全面评估模型在不同任务上的性
能 。随着多模态大模型技术的不断进步,它们在各个领域的应用将更加广泛和深入,为解决现实
世界中的复杂问题提供强大的工具和方法。
广联达的 AecGPT-V 多模态大模型,是在其对建筑行业的深刻理解和长期积累的基础上,对
开源通用多模态大模型和建筑行业进行的一次创新性结合和扩展。通过对 133K Token 的高质量
指令数据进行全面参数微调,AecGPT-V 不仅继承了原有模型的强大能力,还特别针对建筑行业
的专业需求进行了优化和增强。
AecGPT-V 在信息抽取方面表现出色,能够准确识别和理解文本内容,包括但不限于工程图
纸说明、技术规范、项目管理文档等。它的图文理解能力同样令人印象深刻,能够将图像内容与
相关文本信息相结合,提供更为丰富和深入的洞察,这对于设计审核、施工监督和项目管理等环
节尤为重要。
此外,AecGPT-V 实现了对传统 OCR(Optical Character Recognition)技术的超越和扩展。
它不仅限于简单的字符识别,还能够理解和处理更为复杂的场景,如图纸中的符号识别、表格数
据的提取和分析等,极大地提升了信息处理的准确性和效率。
随着 AecGPT-V 在更多应用场景中的落地,我们有理由相信,它将为建筑行业的智能化升级
贡献更大的价值,为建筑行业的创新发展注入了新的活力。
2.3.1 数据收集
指令数据主要围绕施工进度所处的分部分项施工阶段的图文描述来收集。
2.3.1.1 数据构建
19
施工阶段 数据量
地基与基础 27
主体结构 21
装饰装修 7
图中显示的工地似乎处于地基与基础工程中的
地下防水阶段,并正在进行防水工作中的筏板
基础防水工作。我是根据以下几点来判断的:
1. 地面已经被平整,并且铺设了黑色的防水卷
材。
2. 周围的土墙已经被支撑起来,这通常在挖
掘和浇筑基础之后进行,以确保土壤不会塌陷。
3. 现场的工人似乎正在进行一些收尾工作,
比如检查或清理地面。
4. 没有钢筋或混凝土结构,说明钢筋绑扎和
混凝土浇筑等工序尚未开始。
5. 周围的围墙和其他临时结构表明这个地点
已经被围起来进行施工。
综上所述,这个工地刚完成地下室防水,可能
正准备进入下一个施工阶段,例如钢筋绑扎、
模板搭建等。
图中显示的工地似乎处于基础施工的后期阶段。这个
阶段通常包括完成地基和基础结构的建设。我是根据
以下几点来判断的:
1. 地面已经被平整,并且看起来已经进行了混凝土浇
筑。地面上的线条可能表明这是混凝土板的接缝,这
是为了控制混凝土收缩时的裂缝。
2. 周围的土墙已经被支撑起来,这通常在挖掘和浇
筑基础之后进行,以确保土壤不会塌陷。
3. 现场的工人似乎正在进行一些收尾工作,比如检
查或清理地面。
4. 没有明显的重型施工设备,这通常意味着大规模
的挖掘和浇筑工作已经完成。
5. 周围的围墙和其他临时结构表明这个地点已经被
围起来进行施工。
综上所述,这个工地可能正准备进入下一个施工阶段,
例如立柱、梁的施工或建筑物本体的建造。
问法 1:请问,根据图中所示,建筑施工已 经进行到了哪个阶段?你是依据什么标准 来做出这一判断的?
GPT4V结果 GPT4V预标注+专家修正后的描述
训练数据构造方法
1.利用GPT4V生成55张图片的初始识别结果,并找业务专家修改
2.利用GPT4 生成施工阶段的多种问法,防止模型过拟合,每张图片一种问法。总共构造55个不同问法且不同图片的问答对。
问法2:请问图中建筑的施工进度达到了 哪个阶段?能否说明你的评估依据是什么?
图 训练数据收集
实际上这只是做好了地基垫层,垫层上铺设了防水卷材,防水卷材
是黑色的。接下来,它才要开始进行底板施工,包括绑钢筋,支模版,
和浇筑。
2.3.2 训练过程
多模态大模型的训练是一个涉及结构设计、数据预处理、预训练、微调、评测和多模态融合
等多个环节的复杂流程,需要综合考虑模型性能、计算资源和训练效率。
综合考量,我们选择有监督学习的指令微调手段,在特定任务的数据上进行微调,以适应具
体任务需求,微调过程中,模型可以根据任务反馈进一步调整跨模态表示。
2.3.3 效果展示
20
2.3.1.2 训练数据格式
{\"id\": 0,
\"image\": \"00206.jpg\",
\"conversations\": [
{
\"from\": \"human\",
\"value\": \"<image> 你将看到一张建筑施工设计的图片。你的任务是从图片中提取以下信息:
1.图名或图纸名称: 图名或图纸名称位于图纸底部的表格内,表示整张图纸的名称,一般以” 图 “或” 表 “结尾。
2.题目:题目位于图纸的最上方且居中,一般字号较大、或字体加粗,用于概述整张图纸的内容。
3.图号或表号:图号或表号是图纸的编号,一般位于图纸的右上角、右下角或底部的表格内,为一串由字母、数字、文字和 \"-\"组成的编码,如”S3-4-4\"
4.页码:页码一般出现在图纸的右上角、右下角或底部的表格内,代表当前图纸是整套图纸中的第几页,偶尔用 \"2/5\"表示当前图纸的页码为 “2”。
无法提取到的信息以空字符串代替。将信息提取的结果以 json 格式返回,不要输出多余信息。
严格按照以下格式返回结果:
{\"图名或图纸名称\": \"示例图名或图纸名称\", \"题目\": \"示例题目\", \"图号或表号\": \"示例图号或表号\", \"页码\": \"示例页码\"}\"
},
{
\"from\": \"gpt\",
\"value\": \"{\" 图名或图纸名称\": \"55m钢箱组合梁上部结构工程数量表\", \"题目\": \"55m简支钢箱组合梁桥上部结构主要工程材料数量表(半幅)\", \"图号或表号\":
\"GXZHL-01\", \"页码\": \"1\"}\" }]}
{ \"id\": 0,
\"image\": \"38_29_1.jpg\",
\"conversations\": [
{
\"from\": \"human\",
\"value\": \"<image>
你将看到一张图片。你的任务是从图片中提取以下信息:
1.姓名
2.专业
3.学历等级
无法提取到的信息以空字符串代替。将信息提取的结果以 json 格
式返回,不要输出多余信息。
严格按照以下格式返回结果:
{\"姓名\": \"提取到的关于姓名的内容或空字符串\", \"专业\": \"提取到的
关于专业的内容或空字符串\", \"学历等级\": \"提取到的关于学历等级
的内容或空字符串\"}
},
{
\"from\": \"gpt\",
\"value\": \"{\" 姓名\": \"蔡建梅\", \"专业\": \"道路与桥梁工程\", \"
学历等级\": \"本科\"}\"
}]}
{\"id\": 0,
\"conversations\": [
{
\"from\": \"human\",
\"value\": \"请问图中的工人都戴安全帽?请用一
个词或一句话简要回答。\"},
{
\"from\": \"gpt\",
\"value\": \"图中工人都戴了安全帽\"}],
\"image\": \"0100.jpg\"},
卡证类
图名图号
安全帽
房建图纸理解——微调前后对比
question:图中青色框中的文字是什么?
base model:图中青色框中的文字是 “kzz”。
lora model: KZ2
question:图中粉红色边框内的构件截面尺寸是多少?
base model: 粉红色边框内的构件,标记为 “KZ4a”,其尺寸为150毫米宽
和500毫米高。
lora model: 尺寸标注为(500+100,450+150),采用分段标注方式,其中横
向尺寸为500和100,总宽度为600,纵向尺寸为450和150,总高度为600。
gt: 图中构件的截面尺寸采用分段标注,标注为(500+100,450+150),横向
尺寸为500和100两部分,总宽度为600,纵向尺寸为450和150两部分,总
高度为600。
多模态大模型识别施工现场图像
Qusetion:
安全帽是什么颜色的?
Answer:
安全帽是白色的。
Qusetion:
请问图中红框中的的工人戴没
戴安全帽?
Answer:
图中的工人戴着安全帽。安全
帽是建筑工地的标准安全装备,
用于保护工人的头部免受坠落
物体的伤害。
Qusetion:
请问图中红框中的的工人戴没戴
安全帽?
Answer:
图中的工人是戴着安全帽的。可
以看到他们头上都戴着安全帽,
这是在建筑工地工作时为了保护
头部免受坠落物或意外伤害的必
要安全装备。
Qusetion:
安全帽是什么颜色的?
Answer:
图中的安全帽是橙色的。安全帽的
颜色通常是为了提高可见度,以确
保工人在施工现场容易被其他工人
或机械操作员看到,从而降低事故
风险。
图 训练数据格式
图 多模态大模型图纸图像理解应用效果
00000000
0000000000
小红帽
小红帽
2.4.1.1 什么是提示词工程
提示词 Prompt,它是提供给大语言模型以执行所需任务的自然语言文本。
一个完整的 Prompt 通常包含三部分:指令、输入数据和输出标识符。指令是我们期待大语
言模型所需要完成的任务,输入数据是需要大语言模型完成该任务所需的实际数据,而输出标识
符是大语言模型需要输出的标志。
2.4.1 引导:提示词工程
在构建和应用行业大模型的过程中,由于不同的需求和目标,技术实现的复杂性也存在显著
差异。通过深入调研和总结,目前企业和机构在将大模型适配到行业应用时,主要采用了四种由
易到难、由简到繁的方法:提示词工程、增强检索与生成、有监督的微调以及预训练。
在实际应用中,企业和机构很少单一地采用某一种方法,而是倾向于将它们结合起来使用,
以期达到最优的效果。例如,要开发一个高效的智能问答系统,可能会同时利用优化的提示词、
增强的检索与生成技术以及有监督的微调策略,以确保系统的性能和准确性。
2.4 行业 AI 大模型实现方式
21
Zero-shot
Few-shot
COT
TOT
提示词优化
文本嵌入
Query 改写
向量数据库
重排序
提效手段
无监督学习
自监督学习
人类反馈强化学习
······
训练方法
代表技术
实现特点
快速探索应用,如问答系统
快速迭代
只需优化提示词,就可以显著
提升效果 生成准确度要求高
动态数据
大量的外部动态知识 希望通用大模型更好的适配于
行业应用
行业泛化
希望通用大模型有更好的泛化
能力
适用场景
实现方式 提示词工程 检索增强生成 微调 预训练
有监督精调 SFT
部分参数冻结
LoRA
······
微调手段
要求通用大模型准确理解不同
任务
强理解能力
希望通用大模型的知识范围更
加通用
大模型无需做调整
超轻量化的技术开发
依赖通用大模型的自身知识
一般与其他方式联合使用
简单
大模型无需做调整
难度适中,性价比高
外部知识库
使用最为广泛
适中
对大模型做局部调整
较复杂,高质量数据是关键
将行业知识注入到大模型
使用比较广泛
较难
对大模型做全面调整
投入大,周期长
大量学习和掌握行业专业知识
使用较少,主要聚集在几家头
部使用
难
私有知识
图 行业 AI 大模型实现
提示词工程 Prompt Engineering,简称 PE。它是一种通过不更新模型权重参数,引导大语
言模型行为朝着预期结果的方法,包括:提示词拆分 (Prompt Decomposition)、提示链
(Prompt Chaining)、智能体(Agents)等工程方法。总的来说,提示词是实际输入到 AI 系统中
的具体文本,用以引导模型的输出。而提示工程则是一个更广泛的概念,它不仅包括创建提示词,
还涉及理解模型的行为、优化提示以获得更好的性能等内容。
2.4.1.2 提示词工程的常见方法
提示词工程的一些常见方法有:
1)零次提示 (zero-shot)
零次提示是在提示词中不添加任何示例,让大语言模型根据自身知识完成该任务。例如图提
供的 zero-shot Prompt:使大语言模型自行判断 “施组的质量在宏观层面,对单栋楼的描述比较
欠缺,且解析出来的结果离能直接使用还有差距” 这个文本属于中性、负面或正面哪一个类别。
2)少量提示(few-shot)
是在 prompt 中添加一个或多个示例,去帮助大语言模型更好的理解当前任务,实现准确的结
果输出。
3)思维链(Chain-of-Thought)
它将推理过程分解为一系列较小的、相互关联的步骤,帮助大语言模型正确执行各个子任务,
最终汇总得到目标结果。例如我们问了大模型这样一个问题:
某招标项目采用基于工程监理质量和费用的方法选择工程监理单位。技术标的权重为 90%,
商务标的权重为 10%。技术标的评审分为三个主要部分,各以百分制计分,分项权重分别为:公
司经验 10%,实施方案 40%,人员配备 50%。商务标评分时以最低投标价为基数,计算其他投
标书的折算分。有 A、B、C 三家公司参与竞标,经专家评审,三家的公司经验分别为 90 分、80 分、
85 分,实施方案分别为 75 分,85 分,80 分,人员配备分别为 80 分,75 分,80 分。三家的商
务报价分别为 15 万、12 万、10.5 万。请根据上述信息和评标标准,确定拟中标单位。
这个问题涉及六个步骤:
22
滚滚长江东逝水
将下述客户使用的反馈评价文字分类为正面、中性或负面。
任务项拆解相对比较详细,满足总计划使用,尤其是在投标阶
段需要快速的出一份逻辑正确的计划。
评价分类:正面
Instructions 指令
输入数据
输出标志符
Input data
Output Indicator
图 提示词工程
step1- 识别评标标准:确定技术标和商务标的权重分配,以及技术标内部的分项权重。
step2- 收集并组织信息:获取每家公司的技术标评分(公司经验、实施方案、人员配备)和
商务标报价。
step3- 计算技术标得分:根据每家公司的具体分数和分项权重,计算出技术标总得分。
step4- 计算商务标得分:使用最低报价作为基准,计算每家公司的商务标得分。
step5- 综合得分计算:将技术标和商务标的得分按权重加总,得到每家公司的综合得分。
step6- 确定拟中标单位:比较各公司综合得分,确定得分最高的公司作为拟中标单位。
这个问题需要大语言模型直接理解整个过程,并归纳出问题的最终答案较为困难。
因此,我们可以通过添加 “让我们逐步思考” 这样的指令送给大语言模型。使它内部对当前任务
进行拆解,逐步推理作答。这种方法属于 zero-shot-cot,是一种简单的解决复杂逻辑推理类任
务的方法。
4)链式提示(prompt chaining)
它可以完成很复杂的任务,大语言模型可能无法仅用一个非常详细的提示完成这些任务。在
链式提示中,提示链对模型生成的回答执行转换或其他处理,直到达到期望结果。除了提高性能,
链式提示还有助于提高大语言模型应用的透明度,增加控制性和可靠性。这意味着你可以更容易
地定位模型中的问题,分析并改进需要提高的不同阶段的性能。例如:当前任务是根据大型文本
文档回答问题,想要更好的阅读大文本文档,可以设计两个不同的 Prompt,Prompt 1 负责提取
和问题相关的引文,Prompt 2 则将提取的引文结果作为输入来回答给定问题。也就是创建了两个
不同的 Prompt 来共同执行文档问答任务。
23
你是一个很有帮助的助手。你的任务是是从文档中
提取与问题相关的引文,由 #### 分隔。请使用
<quotes></quotes〉输出引文列表。如果没有找到
相关引文,请回应 “未找到相关引文!”。####{{文
档}}####。用户问题是:{问题}
Prompt1 Prompt2
根据从文档中提取的相关引文(由<
quotes></quotes>分隔,请对用户问题进
行回答,确保答案准确、语言简洁流畅。用
户问题是:{问题}
图 链式提示
2.4.1.3 提示词工程如何构建
在实际构建提示词的过程中,可以参考这个万能提示词公式,来帮助我们构建优质的提示词,
从而更好的利用大语言模型解决问题。
一个完整的提示词由四部分构成:人为赋予大语言模型的角色、问题背景、需要具体解决的
问题(目标或需求)、补充要求。
首先,需要赋予大语言模型一个特定的角色,以便它能更专业的回答你的问题。
然后,需要提供尽可能详细的背景信息,以便大语言模型更好地理解你的问题。
接着,需要简明扼要的描述你的任务目标或需求,提出的需求越明确,模型的回复便更有价值。
最后,可以添加一些额外的补充要求,它可以是对用户需求的更明确限定,也可以是对模型
回复格式的具体要求。
24
1. 赋予角色:对大语言模型赋予一个特定的角色,以便它能更专业的回答你的问题。
2. 背景或现状:提供尽可能详细的背景信息,以便它更好地理解你的问题,并为你提供更准确的答案。
3. 目标或需求:简明扼要的描述你的任务目标或需求,提出的需求越明确,获得的答案更有价值。
4. 补充要求:可以是对用户需求的更明确限定,也可以是对模型回复格式的具体要求。
提示词 = 赋予角色 +背景或现状+目标或需求+补充要求
对 ChatGPT 赋予一个
特定的角色,以便它能
更专业的回答你的问题。
(选填) (必填) (必填) (选填)
提供尽可能详细的背微信息,
以便它更好地理解你的问题,
并为你捉供更准确的答案。
告诉 ChatGPT 你要的帘求
是什么,提出的常求越明
确,获得的答案更有价值。
告诉 ChatGPT,它回答
能要注意什么,或你想
让它以什么形式来回你。
日报撰写小助手-Prompt
你是一个文档撰写助手,我需要根据每天的工作产出额外花费一些精力总结生成一份
日报文档。请你根据我的工作产出为我生成一份日报。要求润色我的工作成果并为我
制定明日工作计划。结果需要以列表的形式呈现。我的主要工作产出是:{content)
用户输入
你是一名熟练SQL语言的码农,我在项目中开发了一些关于XX任务的SQL代码,请
仔细理解我的代码并给出对应的优化建议及示例。我给出的代码是:{code}
SQL代码优化小助手-Prompt
用户输入
赋予角色
背景或现状
目标或需求
补充要求
图 构建提示词工程
图 构建提示词示例
25
2.4.2 外挂:检索增强生成
2.4.2.1 什么是检索增强生成
2023 年是大语言模型爆发元年,OpenAI GPT 系列模型的能力让人叹为观止,大语言模型
在自然语言领域的表现都远超以往任何模型。但是大语言模型也存在很多不足。
1)知识的局限性
模型自身的知识完全源于它的训练数据,知识是静态的,封闭的,有限的。
2)幻觉问题
大模型有时候会一本正经的胡说八道,尤其是在自身不具备某一方面的知识或是不擅长的场
景。
3)数据的安全性
对于企业来说,数据安全至关重要,没有企业愿意承担数据泄露的风险,将自身的私域数据
上传至第三方平台进行训练。
针对上述问题,检索增强生成 RAG 是一个有效的解决方案。
检索增强生成,主要包括构建索引、检索和生成几个环节,通过为大模型提供外部知识源,
使其能够生成准确且符合上下文的答案。
对比不使用 RAG 和使用 RAG 架构,最终的回复会有很大的差异:
深中通道已于今年 6 月竣备通车。这
个重大基建项目相较于几年前建成的港
珠澳大桥,在设计和施工中有了哪些关
键技术突破和工艺工法的创新改进?
问题:深中通道已于今年 6 月竣备通车。
该重大基建项目相较于几年前建成的港
珠澳大桥,在设计和施工中有了哪些关
键技术突破和工艺工法的创新改进?
请基于以下资料回答上述问题:
片段 1:
片段 2:
由于我的知识截止日期是 2023 年,
具体的技术创新和改进可能需要查
阅最新的资料和新闻报道
片 段 1:Engineering marvel to
smooth flow of traffic, wealth
across Pearl River Delta
片 段 2:Chinas Shen -
zhen-Zhongshan Link in full swing
as record-breaking subsea tunnel
completes construction
深中通道相较于早期的港珠澳大桥
(HZMB),在设计和施工方面实现了多个
技术创新和改进:
1、水下沉管隧道结构形式创新:...
2、水下沉管隧道安装导航技术创新:...
图 检索增强生成
26
2.4.2.2 检索增强生成的技术原理
检索增强生成,主要包括知识挂载、知识检索和大模型生成三个环节,如果按照细粒度拆分,
还可以拆分成十个细小的环节,如下图。
针对用户的知识文件,首先进行切分处理,对切分后的数据进行向量化处理,最后将向量化
后的知识入库。
针对用户的问题,首先进行向量化,再到向量数据库中进行检索,将检索到的知识点和提示
词一起送到大模型服务中,大模型会基于检索到的信息进行回复。
检索增强生成的整个架构流程:
2.4.2.3 检索增强生成的应用场景
1)场景一:快速更新的领域知识,如产品介绍。
2)场景二:要求可信可控输出,如法律法规和行业标准有关的问答。
3)场景三:长文档关键信息检索查询,如施组文档解析。
4)场景四:已有成熟数据库或知识图谱等数据。
5)场景五:有数据隐私保密要求的领域,如公共服务行业。
4、用户提问
向量数据库
用户
知识文件
2、文本向量化
Embedding model
数据处理
3、向量入库
6、向量检索
10、回答问题
应用
5、问题向量化
7、召回相似知识点
8、引入prompt
1、文本切块
挂载知识
知识点向量化检索
LLM生成
大模型服务
9、LLM生成答案
图 检索增强生成技术原理
27
2.4.2.2 检索增强生成的实际案例
当然,除了这些应用场景,RAG 还有很多其他潜在的应用场景。
AecPilot 是一款Copilot应用产品,通过检索的方式来增强大模型的能力。用户上传一个文档,
然后会有一个解析的过程,解析完成后,用户可以针对这个文档进行提问,然后 AecPilot 会基于
解析后的内容进行检索和回复。
场景 1 :快速更新
的领域知识,如产
品介绍
场景 2 :可信 &可
控输出,如法律法
规和行业标准
场景 4 :已经有
成熟 SQL 数据、
知识图谱等
场景 3 : 长文档
关键信息检索查
询,如施组解析
场景 5 :有数据隐
私保密要求的领域,
如公共服务行业
xxxxxxxx
xxxx
xxxxxxxx xxxxxxxx
xxxxxxxx xxxxxxxx
xxxx
xxxx
xxxx
xxxx
xxxx
xxxxxxxxxx
xxxx
图 检索增强生成典型应用场景
图 AecPilot
2.4.2.5 检索增强生成的发展趋势和展望
28
上图左侧是传统的 RAG 架构。
进阶版 RAG:在传统 RAG 的基础上,衍生出了进阶版 RAG(上图中),比传统 RAG 增加了
检索前和检索后优化。
模块化 RAG:通过模块之间编排(上图右),RAG 系统的设计和构建变得更加便利,更容易
定位到有问题的环节。模块化 RAG 已经成为构建 RAG 应用的新标准范式。
2.4.3 优化:精调
2.4.3.1 什么是有监督精调
目标:让大模型具备基础的问答能力,实现人类的指令对齐。
数据:问答对数据,使用下游问题与匹配的回答来构建问答对,让模型获得目标问题的回复
能力。
2.4.3.2 有监督精调存在的问题
1)模型过拟合
大语言模型参数量极大,当前主流的模型参数在 70 亿,140 亿,320 亿,甚至 720 亿到千亿
级别的大模型,模型对语言数据可以快速拟合记忆,导致同等体量的数据在小规模参数量上模型
过拟合,无法泛化。
图 检索增强生成的发展趋势和展望
29
在 P-tuning 微调中,引入了 virtual Token 这一概念,添加在我们所问的问题前方。
举个例子来解释,假如我们所问的问题是一个数学问题,那模型将会在它所知道的所有知识
中去寻找目标答案,也就是说在庞大的知识中去寻找所有数学相关的知识,然后尽量的告诉我们
一个正确的答案,这对模型来说比较难。那如果可以使 用 virtual Token 的方法引入一个提示,
通过这个提示告诉模型,我们所问的问题具体是哪一个数学问题,或者是哪一类数学问题,这样
一来,模型就会缩小它的搜索空间,因此可以在更少的知识空间中更精准的找到我们所需的正确
答案。
2)P-tuning V2 微调
相比于 P-tuning 微调,P-tuning V2 微调在模型的每一层中引入了 prompt,也就是 virtual
Token 这样的一个结构,因此,模型可以逐级的去细分我们所问的问题,以尽量的找出更精准的
答案与更好的回复,进而提升模型最终的表现能力。
2)模型的训练效率问题
在有监督学习调整整个模型训练参数的过程之中,存在所需更新的参数量太大、耗时巨大、
模型参数量巨大等问题,导致显存占用极高,设备资源要求极高,无法满足下游细分任务的迭代
需求与成本需求。
为此,业界提出了不同的解决方案,例如使用轻量化微调的方法 如 LoRA 微调,p-tuning 微
调,以及部分冻结的方法来实现下游任务的匹配和降低训练资源的要求。
2.4.3.3 轻量化微调的几种方法
1)P-tuning 微调
图 P-tuning 微调
图 P-tuning V2 微调
30
3)LoRA 微调
LoRA 微调可以说是当前应用范围最广、效果最好的微调方法之一。
LoRA 微调可以有效的降低所需要更新的参数量,同时尽量的避免模型过拟合,更重要的是
可以最大程度的保留模型原有的能力。
在 LoRA 微调中,会引入 “低秩矩阵” 这一概念,这是 LoRA 微调的核心。
首先我们会冻结原有的模型权重 W0,意味着我们不去对原有的模型权重 W0 做更新,此时不
会产生一个 Delta W 的参数的修改;作为替代的是,LoRA 会使用两个更小的矩阵 B 和 A 来近似
原本所需要更新的 Delta W。于是,在 B 与 A 这两个更小的矩阵中,模型所需要更新的参数量变
为 2R 乘以 d,而模型原先所需要更新的 Delta W 值为 d 乘 d ,不难看出,这一操作可以有效的
降低模型所需要更新的参数量,同时模型并没有更新原有的模型权重 W0, 可以最大的保持模型原
有的能力。
由此,我们可以在尽量少更新参数量的情况之下,让模型适应下游任务,同时保留模型原有
的表现能力。
4)QLoRA 微调
相比于 LoRA 微调,QLoRA 微调所做的最大改变是使用更小尺寸的数据来加载我们的模型。
图 LoRA 微调
图 QLoRA 微调
31
在 QLoRA 出现之前,我们加载模型会使用 16bit 的数据来进行模型的加载,因此模型所占的
显存空间相对较大;而在 QLoRA 中,我们使用 4bit 的数据来加载我们的模型,模型尺寸缩小为
原来的 1/4 ,可以进一步的节省显存资源;同时,基于 LoRA 微调的旁路方法,不去更新整个模
型的权重,而是更新 B 和 A 矩阵,由此进一步的节省微调所需要的计算和算力资源。
5)部分冻结的微调方法
上图是 AecGPT 的模型架构,是一种 Decoder-only 结构的模型,其主要由 N 个
transformer 模型块构成,因此我们可以考虑使用部分权重参数冻结的方法来微调我们的模型。
我们会复用模型的主要权重,不对模型所有层的权重进行调整,尽量保留和复用模型的知识,而
针对下游任务去微调部分层。
在 transformer 模型中,浅层结构学习更基础的信息表征,例如字、词、含义;深层结构学
习更复杂的表征,例如上下文中的含义、句子段落级别的含义,那么只要对不同层微调,就可以
实现不同层级表征的调整,同时保留不需要调整的层的权重,复用模型的能力。
具体该微调哪些层呢?其实,只去调整具有更高层级抽象含义的层,也就是调整更靠后的层,就
够了。
通过部分权重调整的方式,可以降低资源消耗,以及对算力的要求,同时可以加速迭代速度,
降低模型过拟合的可能性。在实际任务中,可以根据具体的需求资源以及实际的下游任务来选择
适合的微调方法,实现对下游任务的适应。
图 部分冻结微调
2.4.4 原生:增量预训练
在大模型的训练过程中,主要包含以下几个训练阶段:
第一阶段:预训练阶段
在这一阶段,模型主要去学习文本数据中的知识,获得词汇的表征含义,学会句子段落级别
的含义内容;这一阶段主要的学习数据是庞大的,文本数据通常包含 trillion 级的 Token 字符。
第二阶段:有监督学习阶段
这一阶段,也就是我们所说的微调阶段。在这一阶段,我们的主要目标是让模型具备基础的
问答能力,实现人类的指令对齐。这一阶段所使用的数据主要是问答对数据,使用下游问题与相
应匹配的回答来构建问答对,让模型获得目标问题的回复能力。
第三个阶段:人类反馈强化学习阶段
在这一阶段,模型主要是学会人类语言风格,让模型回答接近人类对话,提升模型回复的帮
助性与有效性,来进一步提升指令对齐的表现 ;这一阶段所使用的数据主要是经过评分的回答数据,
用于训练奖励模型之后服务于 PPO 算法。
2.4.4.1 什么是预训练
大模型在预训练的过程中,主要是学习文本数据中的知识,获得词汇的表示含义,学会句子段
落级别的含义内容;所学的数据主要是基于庞大的文本数据,通常包含 Trillion 级,也就是万亿级
的 Token 字符;所学的内容主要是包含法律法规、专利文件、书本、网络信息等等,基本上涵盖
了整个互联网上的所有文本信息。
预训练过程中,模型的学习主要是基于下一个 Token 的预测来实现模型的训练。
32
图 预训练
上图中,使用 ‘这是一个测试’ 作为模型的输入,那么模型在输入 ‘这’ 的时候,它预测的下
一个字符应该是 ‘是’,在输入 ‘这是’ 的时候,它会预测下一个字符应该是 ‘一’,从而实现对整
句话的预测。
2.4.4.2 预训练与继续预训练
在预训练的过程中,我们主要是使用海量的数据,从零构建大模型,让模型基于下一个
Token 预测进行学习,实现模型对词汇句子段落级别的语义学习,又叫完全预训练。
模型所需的数据量与运算资源极其庞大,一般基于 Trillion,也就是万亿级的 Token 进行训练,
需要上千 GPU 集群进行长达数月的训练学习。
优势是,预训练可以根据自己的需求,从零定制自己的目标模型,获得最好的目标表现;劣势是,
预训练构建的难度极大,成本极高,当前主要由头部公司来实现这一步。
而继续预训练中,我们可以从底层为模型注入相关领域知识,模型可以重新学习相关领域的
词汇表达语句与段落级别的表达,主要服务于垂直领域模型的构建。
在数据量上,继续预训练一般基于 Billion 级别的 Token,也就是十亿级,是远远小于预训练
阶段的。在运算资源上,通常使用 8 卡 GPU,可以在几十至几百小时内完成继续预训练,而不需
要千卡集群,长达数月来完成预训练的任务。
在继续预训练中,继续预训练的成本是大幅低于完全预训练的,但相比于微调而言,依旧是
需要一定的计算资源与数据量。
2.4.5 多种方式组合
案例:广联达 AI 行业大模型
行业 AI 大模型是在通用大模型基础上增强了模型的垂类领域知识,能更好地适配和解决垂类
任务或问题。前文提到的预训练、微调、检索增强生成和提示词工程都是可以增强垂类知识的方法,
但效果与投入成正比。方案选型上需要综合考量该垂类的知识丰富度、数据的动态性、复杂度和
投入产出比。
广联达建筑大模型 AecGPT 是在国内开源的通用基座大模型基础上,在预训练阶段加入了
7000 万 Token 以上的建筑领域语料进行二次增训,使模型对建筑领域知识体系有完整的吸收与
理解,之后再通过千万条高质量的建筑领域指令数据进行了 SFT 和 RLHF。
而广联达 AecPilot 和 AI 一体机,就是结合了建筑大模型 AecGPT,RAG 以及提示词工程等
多种方式组合而成,是实际案例。
33
1)为什么从预训练开始?
建筑领域是一个高度专业化和多学科交叉的领域,涉及工程学、物理学、材料科学、环境科
学等多个学科的知识。建筑技术不断发展,结构设计、施工技术、智能建筑系统等,每种技术都
有其特定的应用和要求。
以上因素决定了,单一的指令微调无法覆盖所有建筑领域知识和任务,仅仅依靠通用的大模
型做检索增强生成和优化提示词,很难让模型具备较好的建筑领域理解能力。
2)为什么需要针对建筑领域做 SFT 和 RLHF ?
建筑项目必须遵守各种地方、国家和国际的法律法规以及建筑标准,这些法规和标准经常更
新,增加了复杂性。另外,建筑项目通常涉及多个利益相关者,包括业主、设计师、承包商、供
应商等,需要协调各方的需求和期望,因此只有通过针对建筑领域特定的 SFT 和 RLHF,才能满
足建筑领域细分场景的针对性需求、专业风格和偏好需要等。此外,从合法合规角度,对于用户
提出的一些问题需要拒绝回答。
3)为什么需要 RAG ?
通用大模型的创新性往往来自于它的幻觉,但不同于写作,文案生成等场景,建筑场景对法
律法规以及规范中的规定,数值等的时效性和准确性有很高的要求,需要通过检索增强生成 RAG
提供更加实时且可靠的信息,同时依赖 RAG 可以有效降低大模型的幻觉。
总之,在专业、合规、实时和准确的基础要求下,广联达 AI 行业大模型选择从预训练阶段进
行二次增量训练开始,经过有监督学习 SFT 和 DPO 强化学习,在实际推理阶段又整合内部建筑
领域知识库辅助大模型生成,一举实现在建筑场景任务中效果远超通用大模型。
34
图 广联达建筑行业大模型
同步发布多尺寸模型
AecGPT4-7B-Chat
AecGPT4-72B-Chat
满足不同场景速度与性能需求
高速场景下,有限部署资
源,可使用7B模型
高性能要求,多部署资源,
可使用72B模型
Magpie自引导数据生成
挖掘模型内涵数据
数据与模型原始训练数据分布保持一致
提升数据质量
数据分片优化
复合长度数据样本,获得更长上下文训练
基于分片数据,实现知识隔离,保持模型能力
基于分片策略,训练数据多样性进一步增加,
样本量进一步增加
对比AecGPT3,增加RLHF阶段
采用直接策略优化(Direct Preference Optimization)
算法对模型进行人类偏好对齐
提升了模型输出质量,增加了模型回答完整度,获得更
好表现
多尺寸同步发布
训练数据进一步增量
RLHF阶段补齐
数据重构优化
AecGPT4
预训练阶段
由约5千3百万大幅提升至约2亿3千万
有监督学习:
由约8千5百万提升到1亿2千万
4)有什么需要注意的关键点?
一是通用大模型还无法胜任 ‘通用’ 二字,对于下游细分任务场景,通用大模型无法一步到位满足需求,
仍然需要人为干预,进行过程中的业务拆解,然后让大模型逐步解决,各个击破;二是从目前来看,通
用大模型还无法做到开箱即用,它需要与各个场景沉淀的行业小模型搭配使用,才能将价值发挥到极致。
35
2.5.1 平台概述
行业 AI 大模型的应用不仅仅局限于提供模型和工具,更关键的是提供全面的服务支持。这意
味着厂商需要为客户提供定制化服务,帮助他们根据自身的业务需求进行模型的微调,以满足特
定的应用场景。广联达行业 AI 平台,使企业能够通过简单的操作界面,选择基础模型、训练数据
和微调方法,高效完成模型的训练和优化。
广联达行业 AI 平台(以下简称 “平台”)是服务企业和行业客户的一站式 AI 开发及服务运行
平台。降低大模型应用开发门槛,加速企业AI开发效率。平台不仅提供AecGPT建筑行业AI大模型,
还提供了各种 AI 开发工具和整套开发环境,方便开发者轻松使用和开发行业 AI 应用。支持数据
管理、模型精调以及推理服务部署的一站式 AI 定制服务,助力行业 AI 应用需求落地。
平台核心覆盖的 AI 应用场景包括:
1)领域知识检索
基于平台已有的建筑行业领域知识库,进行行业知识查询。
场景:建筑行业法律法规查询、行业标准规范查询、行业知识问答、产品数据库查询等。
2)对话沟通
针对用户需求,以对话沟通的形式快速应答,提升服务效率及客户体验。
场景:智能客服、产品答疑助手、项目经理助手。
3)分析处理
根据用户需求,结合已有数据,智能分析并生成结构化数据、解决方案等。
生成类场景:数据报表生成、解决方案生成、问答对生成。
内容分析类场景:文章摘要、关键词提取、文本内容分析等。
2.5 行业 AI 开发工具链:行业 AI 平台
36
4)内容创作
根据用户需求,生成相关的文本、图像等。
文本生成类场景:产品描述、营销文案生成。
图像生成类场景:建筑效果图生成。
2.5.2 平台优势
平台凭借其在建筑领域的数据、模型、应用工具等的打磨,以卓越的技术实力和深度定制化
能力脱颖而出。其核心优势在于以下几点:
1)基础强大、行业专用
平台基于建筑领域大模型 AecGPT 开发,内置千万级别的行业数据,采用多种推理与训练框
架作为底层支撑,并内置大模型技术。用户通过少量数据调整,可轻松获得针对建筑领域的高精
度和高性能的大模型。
2)流程完善、发布便捷
平台提供一站式服务,涵盖数据集管理、模型训练、应用开发、服务发布与监管,通过可视
化界面实现模型全生命周期管理,简化从数据到服务的大模型实施过程,易于上手与理解。
3)安全可靠、一键启用
平台提供企业级服务,对推理内容进行审核与敏感词过滤,确保安全可信。
4)插件丰富,能力多元
平台集成了丰富的插件工具,可以极大地拓展 Agent 应用的能力边界。目前平台已经集成了
多种行业应用插件,例如浏览器、多模态、文本生成、知识库、大模型、文生图。例如使用定制
AI 设计插件,进行方案提取、概念图生成等一系列应用。
自定义插件:平台也支持创建自定义插件。用户可以将已有的 API 能力通过参数配置的方式
快速创建一个插件让 Agent 调用。
5)专业多元的数据处理
平台支持多种专业数据的处理,提供了简单易用的知识库功能来管理和存储数据,支持企业
Agent 应用与用户自己的数据进行交互,无论是内容量巨大的本地文件还是某个网站的实时信息,
都可以上传到知识库中。
内容格式:知识库支持添加文本格式、表格格式、照片格式的数据。
内容上传: 知识库支持 PDF、word、txt、markdown,JSON 等多种数据文件格式,支持标
书、施工组织、图集、图纸、行业法规等专业数据处理,用户也可以直接在知识库内添加自定义数据。
37
6)面向工程本文分析提取的工作流搭建
平台的 workflow 功能可以用来处理基于超长工程文本(工程标书、施工组织设计文件)逻辑
复杂,且有较高稳定性要求的任务流。平台提供了灵活可组合的节点包括大语言模型、LLM、自
定义代码、判断逻辑等,无论用户是否有编程基础,都可以通过拖拉拽的方式快速搭建一个工作流。
例如:创建一个智能评标应用,对百万字级别标书进行 AI 智能评审,输出稳定且快速;创建一个
进度生成应用,对数十万字的施工组织设计文件进行信息提取并生成进度信息。
2.5.3 平台应用流程
平台使用流程极为便捷,核心包括 5 步,如图所示分别是数据导入、数据标注、模型训练、
应用编排、应用对接。该步骤旨在降低企业客户上手门槛,针对具体应用场景,可酌情跳过不必
要的步骤。
数据导入 数据标注 模型训练
应用编排 应用对接
AI原生应用
引擎
AI应用
大模型
Agent编排中心
数据集管理 提词工程PE
知识中心
单体Agent服务
AI资产中心
算力底座英伟达 华为昇腾
AI可信治理
群体Agent服务
检索增强搜索RAG
模型接入 模型测评 模型微调
模型中心
AecGPT AecGPT-V AecDiffusion CV/NLP
数据工具 AI训练框架 AI推理框架 算力调度 GPU加速
公有云/私有云
AI算量 AI斑马进度 AI物资管理 AI交易 AI安全 AI教育 AI设计
2.5.4 平台架构
平台架构如下图所示,行业 AI 平台集成了 AI 原生应用引擎、大模型、算力底座三层功能。
图 平台架构
图 平台应用流程
38
2.5.4.1 AI 原生应用引擎
AI 原生应用引擎层包含三部分:Agent 编排中心、知识中心和模型中心,各自包含多个关键
技术组件,旨在构建和管理大语言模型的应用。以下是对每个中心及其包含的组件的详细技术描述。
1)Agent 编排中心
Agent 编排中心负责协调和管理各种智能代理的服务,提供单体和群体代理的支持。
单体 Agent 服务:这个组件通过语义内核为单个智能代理提供服务,能够处理复杂的任务,
支持自然语言理解和任务的自动化执行。它利用语义搜索和上下文管理,使智能代理能够准确理
解和回应用户的需求。
群体 Agent 服务:与单体 Agent 不同,群体 Agent 服务能够协调多个代理协同工作,实现
复杂任务的分布式处理和多代理间的通信与合作。它通过代理之间的角色分配和协作,提升任务
的处理效率和应对复杂问题的能力。
2)知识中心
知识中心专注于知识的管理、提取和增强,为 Agent 提供强大的知识支撑。
数据集管理:这个组件负责大规模数据集的管理,利用 Fitz Lib 提供高效的数据管理功能,
包括数据的收集、存储、预处理和检索。数据集管理确保数据的完整性和一致性,为模型的训练
和推理提供高质量的数据支持。
图 Agent 编排页面
39
提示词工程 PE:是一个强大的提词工程(Prompt Engineering)工具,支持生成式预训练模
型的提示生成和优化。通过精确的提示设计,它能够提高模型的生成质量和任务的成功率,使智
能代理能够更好地理解和执行任务。
图 平台数据集管理功能
图 平台 prompt 模板
40
检索增强生成 RAG:RAG 即 Retrieval-Augmented Generation,结合检索和生成技术,通
过引用外部知识库的信息来生成答案或内容,具有较强的可解释性和定制能力,适用于问答系统、
文档生成、智能助手等多个自然语言处理任务中。RAG 模型的优势在于通用性强、可实现即时的
知识更新,以及通过端到端评估方法提供更高效和精准的信息服务。
3)模型中心
模型中心负责模型的接入、微调和评测,是平台的核心计算引擎。
模型接入:该组件遵循 OpenAI 的接入规范,支持多种模型的无缝集成。它通过标准化的
API 接口,确保不同模型之间的兼容性和互操作性,方便平台在各种应用场景中灵活使用不同的模
型。
模型微调:支持对语言模型进行二次训练和优化。通过针对特定领域或任务的微调,能够
显著提高模型的应用效果,确保模型能够更好地适应特定的业务需求。
模型评测:提供全面的模型评估和验证功能。它通过多维度的评测指标,评估模型的性能
和效果,确保所选用的模型能够满足实际应用的需求。
图 平台知识库功能
41
2.5.4.2 大模型层
大模型层是平台的核心技术支撑部分,确保大规模模型的高效训练、推理以及计算资源的有
效利用。该层包含多个关键组件,分别为数据工具、AI 训练框架、AI 推理框架、算力调度以及
GPU 加速。以下是对这些组件的详细介绍:
1)数据工具
数据工具是大模型训练和推理的重要前置环节,提供了对数据的高效管理和处理能力。该工
具负责数据的预处理、清洗、增强等操作,确保输入模型的数据高质量且格式一致。它还能对不
同来源的数据进行整合,提供一个统一的数据输入接口,从而保证训练数据的多样性和代表性。
2)AI 训练框架
AI 训练框架是支持大规模模型训练的核心组件。它提供了分布式训练、混合精度训练等先进
技术,能够充分利用多台机器和 GPU 资源,加速模型训练过程。通过 AI 训练框架,开发者可以
定义复杂的神经网络结构,调整超参数,并进行模型的迭代优化。框架还支持训练的中断恢复和
多种优化算法,确保在训练大模型时的稳定性和高效性。
3)AI 推理框架
AI 推理框架是模型部署和在线服务的关键技术组件。它支持高效的模型推理,能够在用户请
求时快速返回结果。推理框架优化了模型的加载、执行和输出流程,支持批处理推理和异步推理,
以提高吞吐量。该框架还能够根据需要自动调整推理资源,确保在不同负载情况下的推理性能和
响应速度。
图 平台模型中心页面
42
4)算力调度
算力调度组件负责动态管理和分配计算资源,以优化大模型的训练和推理任务的执行效率。
它能够监控当前的算力资源使用情况,智能调度任务到适当的计算节点上。算力调度还能根据任
务的紧急程度和优先级进行资源分配,确保高优先级任务能够及时得到处理,同时提高资源的整
体利用率。
5)GPU 加速
GPU 加速是大规模模型训练和推理不可或缺的技术。该组件利用 GPU 的并行计算能力,加
速矩阵运算、卷积操作等深度学习中的核心计算过程。通过 GPU 加速组件,模型的训练和推理时
间能够显著减少,特别是在处理超大规模数据集和复杂模型时,该组件还支持多 GPU 并行计算,
进一步提升计算效率。
综上所述,大模型运行层通过这些技术组件的协同作用,保障了大规模语言模型的高效训练
和推理能力,为智能应用提供了坚实的技术基础。
2.5.4.3 算力硬件层
算力硬件层是基础支撑部分,直接影响了大模型训练和推理的速度与效率。广联达行业 AI 平
台提供英伟达 GPU 和华为昇腾算力硬件的配置及指导,确保模型应用所需的计算能力。
43
03
行业 AI 大模型
场景落地
根据应用阶段深度不同,可以将大模型的应用划分为三个阶段:L0 基础大模型、L1 行业 AI
大模型及 L2 场景大模型。
L0 基础大模型是指具备处理多种不同类型任务的 AI 模型,这些模型通常是通过大规模的数
据训练而成,能够在多个领域和应用中表现出良好的效能。它们利用大规模的无标注数据进行训练,
形成强大的泛化能力,能够在不进行微调或少量微调的情况下完成多场景任务。相当于 AI 完成了
“通识教育”,具备了举一反三的能力。广联达在 L0 层级集成开源基础模型,包括自然语言大模型、
视觉大模型及多模态大模型。
L1 行业 AI 大模型是在 L0 基础大模型上进行构建,通过使用行业相关的数据进行提示工程、
检索增强生成、精调等方式,提高在该领域的性能和准确度。这相当于将原来基础通用大模型打
造成为了特定领域的 “行业专家”,能够提供更加精准和专业的服务。广联达深耕建筑领域,打造
L1 层级建筑行业 AI 大模型,覆盖建筑行业相关政策法规、行业规范标准、建筑行业职业考试资料、
教材图书等数十万份高质量行业数据,亿级 Token 行业知识增强,从而可支撑在建筑多应用的行
业能力要求,提供自动化、分析与决策及生成等能力。
L2 场景大模型专注于特定任务或场景,使用任务相关的数据进行预训练或微调,以提高在该
任务上的性能和效果。它们通常是为了解决具体的业务问题而定制化开发的,针对性更强,应用
效果更优。广联达基于建筑行业 AI 大模型基础上,覆盖建筑行业的规划、设计、交易、成本、施
工、运维及综合管理等 7 个领域的应用场景打造多个场景大模型,满足不同阶段、不同应用的 AI
要求,真正为建筑用户带来价值。
3.1 行业 AI 大模型分级构建方式
44
图 建筑行业 AI 大模型
基础大模
型
行业大模型
场景大模型
解析&生成AI应用
提词
工程
检索增
强生成
有监督
精调
继承开源基础模型
覆盖数十万份高质量行业数据
行业
政策法规
行业
规范
建筑类
职业考试
AecGPT
AecGPT-V
AecDiffusio
n
教材
图书
建筑行业AI大模型AecGPT,覆盖建筑行业规划、设计、交易、成本、施工、运维及综
合管理等7个领域,亿级Token 行业知识增强,具有自动化、分析决策、辅助生成等专业能力。
设计
算量 交易
进度
物资
安全
L0
L2
L1
AI算量大模型
10亿体量项目算量
从3个月缩减到2周内
AI斑马进度大模型
AI分析生成工作项,
效率提升5倍,动态策划调优,
效率提升10倍
AI物资管理大模型
材料进出场AI自动化管理,
实现混凝土无感止损1%,
钢筋无感止损0.5%
AI交易大模型
工程建设招投评
全流程智能化
AI安全大模型
高效实现安全管理
PDCA闭环
AI教育大模型
天天项上,项目
经理成长伴侣
AI设计大模型
AI原生驱动的设计平台
——Concetto
建筑行业大模型 L2级场景大模型
广联达在建筑行业 AI 大模型基础上打造专业应用场景,围绕建筑规划设计、交易、施工、运维
等不同阶段,涉及城市建设方、行业监管方、工程咨询方、设计方、施工方等多角色,打造 L2 级 AI
业务应用场景。典型场景总结如下图:
3.2.1 AI 设计
在建筑设计领域,AI 技术的应用正逐渐展现出其独特的价值和重要性,尤其在提高设计效率、
优化方案、降低成本等方面。广联达打造设计大模型,通过将设计相关的设计文本、设计图纸及
模型等数据提供给大模型训练,训练模型对应的规范提取、制定调用的能力,支撑设计的设计规
范检索、智能排布及设计生成等多类场景应用。
3.2 建筑行业全场景 AI 大模型应用
45
图 建筑行业全场景 AI 大模型应用
图 AecGPT 设计大模型
数据
据
AecGPT设计大模型 应用
训练
据
推理
据
设计助手全辅助
总图排布方案
灵感渲染 / 效果图
成本实时估算
......
文本类
设计规范
设计任务书
建模指令
图像类
设计风格图
排布图
白模图
模型类
3D模型
建模特征序列
文生图
图文生3D
任务书信息提取
规范检索
指令调用
行业AI平台
数据工程据 模型训练/部署据 应用开发据
设计
施工
造价
教育 供采 金融 建设方 营销服
L2业务
全场景
交易 城市
L1行业 建筑行业大模型
大模型
基础大模型
L0基础
大模型
进度管理
智能施组文档解析
智能计划生成
天天项上,项目经理
成长伴侣
算量
AI 图纸识别
AI 一键算量
图模一致智能对比
智能提量 AI 房建算量
AI 基建算量
AI 工业算量
设计算量一体化
物资管理
AI无人物资智能管控
无感止损
安全管理
AI安全管理
AI安全助手
劳务管理
智能人脸识别
无人考勤
供应商寻源AI选品 智能项目风险检测 AI营销 智能客服助手
计价
智能造价编制
AI 估算
AI 概算
AI 预算(智能组价)
AI 结算
智能造价管控
计价数据提取
造价智能审核
智能结算建议
智能询价
智能指标参考
施工项目管理
合同管理
智能合同录入
智能合同风险分析
智能合同生成
成本管理
智能成本测算
智能成本风险管控
智能成本数据提取
智能决策管理
AI信息采集
BI智能数据问答
资金管理
智能资金计划管理
智能风险预测
任务管理
施工方案提取分析、生成
智能周月报、项目报告生成
智能指挥调度
项目策划
智能项目定位
智能任务书解析
造价过程管理
智能项目管理
智能任务助手
智能任务分配
智能报告生成
智能决策管理
AI造价决策管理
AI指标分析对比
AI全过程造价对比分析
AI建模
AI场地建模、AI灵感生成
AI智能排布
AI方案分析
AI方案图生成
方案设计
AI车位布置
AI管线及末端排布
AI标注
AI出图
施工图设计 施工图设计审查
AI审图
AI审图
AI图模一致审查
规范智能问答
施工深化设计
AI建模
AI图纸识别
施工方案解析提取
智能清标、评标
招标文件智能分析
投标文件核查及分析
AI标书生成
AecGPT AecGPT-V CV/NLP
自然语言大模型 视觉大模型 多模态大模型
3.2.1.2 AI 应用亮点功能
▪ AI 灵感渲染
基于建筑体量快速生成高质量效果图,帮助激发设计师的设计灵感,赋能设计师的沟通汇报。
设计模型精确控制:深度结合 CONCETTO 建模体量,精准控制、可控生成方案效果图
丰富模板轻松上手:提供多业态、多风格、提示词库快速生成,提供多编辑方式随心修改
3.2.1.1 产品介绍
CONCETTO(广联达数维方案设计)是新一代 AI 驱动的建筑方案设计产品,作为智能时代
的设计伙伴,正在重新定义建筑设计的未来,让设计回归创意、让创意更精准。CONCETTO 能
够通过智能化的生成设计和数字化的决策支持,推动高效设计和创新、提升设计合理性和价值。
内置四大 AI 模块,全面赋能设计工作流:AI 灵感渲染、AI 成本预估、AI 排布方案、AI 设计助手,
同时结合场地导入、直觉建模、设计分析、数模联动等设计功能,为方案设计师提供智能化的设
计支持。
46
图 设计产品 CONCETTO
图 CONCETTO 渲染
智能生成排布
输入你的要求,批量生成总图布局 /
功能分区,选最优秀的方案深化
AI 灵感渲染器
效果图一键生成可编辑模型
所想即所得,高效创作
伴随式设计助手
基于规范文件进行规范问答
对话式驱动工具,快速串联工作流
实时预估成本
基于 AI 训练的智能估算
边设计边计算,随时掌握造价成本
CONCETTO
您的 AI 设计伙伴 让设计回归创意
▪ AI 成本实时预估
基于 2w+ 真实项目数据训练 AI 成本估算模型,秒级生成详细估算清单,边设计边计算,随
时掌握造价成本,且估算结果和概算阶段误差仅 15%。
▪ AI 排布方案
结合场地导入获取用地信息、任务书提取获取指标要求,秒级生成 10+ 排布方案,并可挑选
最优方案进行深化编辑,让设计更高效。目前已支持三个 AI 排布场景:总图排布、总图优化、功
能分区排布。
▪ AI 设计助手
从手绘到 CAD 到 3D 模型,工具学习成本越来越高,设计效率越来越低,大大缩减了创意时
长。未来已至,通过对话式驱动设计工具,快速串联工作流,让设计师的工作回归创意。
47
图 CONCETTO 成本预估
图 CONCETTO 排布方案
3.2.1.3 经典案例介绍
▪ 广联达北京延庆项目概念设计方案
该项目坐落于北京延庆区的林带路与迎泉街的黄金交汇点,总建筑面积 45376 平方米,致力
于塑造一个集智慧创新、绿色生态于一体的企业总部。在设计过程中,上海原构设计咨询有限公
司的设计师携手 CONCETTO,精心打磨每一个设计细节。
首先,设计师应用 CONCETTO 的 AI 排布功能,根据任务书要求,迅速生成了一系列布局方案,
选中一个进行了深化设计及指标统计。随后,应用 AI 灵感渲染器,将设计方案生成多角度效果图,
生动展现了方案理念。同时,应用 AI 估算功能对项目成本进行了精准预估,为项目的经济效益把
控提供了有力支撑。在建筑性能评估方面,进行日照、视野、采光等多维度分析,全面评估建筑
的自然条件适应性与舒适度,确保了设计方案的绿色生态特性。
最终,一个融合了智慧与美学、创新与实用的广联达北京延庆办公楼设计方案,在设计师的
精心策划与 CONCETTO 的 AI 技术辅助下,顺利完成并进行汇报。
48
图 延庆项目示例 -AI 效果图生成
图 设计助手
49
图 延庆项目示例 -AI 估算清单生成
图 延庆项目示例 - 日照分析 图 延庆项目示例 - 采光分析
图 AecGPT 算量大模型
3.2.2 AI 算量
算量是施工造价领域中非常耗时的任务。通过对算量业务流程的解构,我们可以将每个工作
环节中可自动化的部分用 AI 替代,从而大幅缩短算量时间,提高工作效率。广联达打造的算量大
模型,将算量相关的工程图纸、工程量表及工程文档等数据训练至大模型中,通过模型的版面分析、
多模态能力及推理,支持不同图纸、表格及文本提取等应用场景的需求。
数据
据
AecGPT 算量大模型 AecGPT 应用
行业AI平台
数据工程据 模型训练/部署据 应用开发据
训练
据
推理
据
表格识别
语义理解
工程量表
图纸理解
图像检索
版面分析
隧道纵断面识别
路基横断面识别
图名图号识别
桩基平立剖识别
.......
工程图纸
工程文档