对话斯坦福郑钧文博士:我在硅谷看到的建筑AI创投机会

我观察到的比较成功的AI创业公司在大模型出现之前就已经存在,它们都解决了定义行业和任务流程中的数据模型这件事情。

文|秦明 ;封面|访者供图

几个月前,我与郑钧文博士锚定建筑AI主题聊了整个上午。 钧文目前在斯坦福大学CIFE实验室做AI和大模型在建造业应用的研究,方向是自然语言处理在建筑行业的应用。 我与钧文去年认识以来,彼此经常互通国内外的建筑AI科技动态。

钧文所在的实验室自1988年以来,致力于推进研究建筑与环境的先进方法,它是一个由研究人员和建筑行业成员组成的社区,共同塑造建筑、工程、施工和运营(AECO)行业的未来。

对话斯坦福郑钧文博士:我在硅谷看到的建筑AI创投机会

对话斯坦福郑钧文博士:我在硅谷看到的建筑AI创投机会

斯坦福CIFE实验室关键事件(来源:CIFE官网)

01 两个普遍的AI需求:ChatBot搜索和文档处理自动化

秦明:你平时和硅谷创业者、投资人打交道比较多,从你的视角看,我们如何拆解建筑领域在AI方向可以做的事情呢?

郑钧文: 建筑AI大模型的切入角度可以分为两个部分,一部分是多模态,另一部分是纯文字。

对于多模态,一个方向是把多模态的数据转为结构化的信息,我们主要关注的是图纸,一个至关重要的问题就是何时能高效地识别图纸里面的信息,辅助工程的实施。另外,我们也关注施工过程中拍摄的图像、还有BIM等,自动化设计也是一个话题。

对于纯文字,可以细分为两个部分,一个是搜索,我们想知道如何更好地进行搜索,聊天机器人是一种更加自然的交互方式(很有可能也是未来的主流交互方式)。另一个部分是文件的自动处理。我自己也在一线探索这两方面的工作。

在这个大语言模型的浪潮中,我们看到了两个普遍的需求:ChatBot聊天机器人搜索和文档处理自动化。这是现在两个主要的被资本市场认可的to B场景。

在我们的行业,大的企业/巨型项目可能希望开发一个专属的搜索系统,比如来管理和整合港珠澳大桥项目的相关信息。这样的系统能够有效地给项目的各个单位提供一个易用的自然语言界面来及时获得信息。

硅谷这边的一个初创公司Trunk Tool,就在一个4亿美金的项目上做了试点,报告验证了6.5的ROI。同时,美国越来越多的企业也认识到了这一点,并且愿意投资于此。

对话斯坦福郑钧文博士:我在硅谷看到的建筑AI创投机会

Trunk Tool工作界面 (来源: 访者供图 )

秦明:所以你的博士课题探索的是基于某种建筑数据的ChatBot搜索?

郑钧文: 我的博士课题主要聚焦于自然语言处理的实际应用,最重要的成果是为BIM创建了一个聊天驾驶舱。通过语音控制,这个系统可以实时提取并展示所需信息,并在3D界面上呈现相应的构件。同时,它还集成了一个对话框形式的聊天机器人。

对话斯坦福郑钧文博士:我在硅谷看到的建筑AI创投机会

基于BIM的ChatBot界面 (来源: 访者供图)

具体来说,一侧是对话窗口,另一侧则是基于BIM的实时信息显示。例如,当我想查看五楼时,系统会自动展示五楼的模型;当我指定502房间时,系统会直接导航到502。无论是查询电机、电表或控制面板等设备信息,还是查找设备的生产日期或施工用户说明,系统都能准确地展示相关信息。

对话斯坦福郑钧文博士:我在硅谷看到的建筑AI创投机会

交互信息实时显示 (来源: 访者供图)

秦明:我们一般从哪些技术角度来判断ChatBot搜索做的比较好?

郑钧文: 现在也是摸着石头过河,目前的工作可以大致分为两个部分。

一部分工作是将自然语言转换为机器语言,核心在于如何精准地识别用户的口语化问题,并自动‘翻译’为系统(如数据库或BIM)中用于搜索信息的特定语言(如SQL)。这里的主要指标是准确率和速度。

LLM的出现使得这样的技术的开发成本大规模下降;做成一个demo的跑起来达到70-80%的准确率可能就一个月,但是需要落地测试,提升后面的最后10-20%的这准确率就要花费比较多的成本。 另外,这部分是建立在有处理好的数据的基础上。 如果数据库或者BIM里面的信息是错误/混乱的话,即使搜“对”了出来的结果也是有问题的。

我们还会从实际使用中获取信息。因为聊天机器人有很多不同的类型,有些是纯聊天,有些则是边聊边办,比如京东为北京一些政务部门开发的聊天机器人,可以一边聊天,一边完成需要办理的事情。那么,我就有了一个评判标准,用户是否完成了任务,如果每个人都需要人工介入,那就说明这件事没有办成。

第二部分是搜索非结构化数据,比如文档。我们需要从文档中提取答案,也就是说,要知道在哪个文档中找到哪个片段来回答问题。这是经典的RAG流程,首先进行语义分割,然后通过embedding模型进行向量化处理,接着根据用户输入的问题对这些片段进行排序,最后由一个大模型整理并输出答案。

最终的评估标准是通过建立测试题库进行人工标注。 当然,也可以使用更高级的大模型生成仿真问题,并评估答案的正确性。 大模型之间也有差异,我们会使用最先进的模型来评估回答的准确性,从而尽可能地自动化流程,降低人工成本。

秦明:我看到文档自动化方向出现了不少创新企业,这里面的机会更确定一些吧?

郑钧文: 关于文件的自动处理。鉴于我们目前的数据化和信息化程度还不够高,如何将建筑施工过程中产生的数据电子化、结构化显得尤为关键。数据的电子化是第一步,而将这些数据结构化是进一步的提升,使得信息变得有用。最终,我们需要考虑如何利用这些结构化的信息,将其转化为知识,这是经典的“数据-信息-知识”金字塔模型的核心。

文档这个场景是现在一个非常热门的场景,在最近的YC 2024 summer,看到了不少这样的创业公司。不过,我观察到的比较成功的公司都是在大模型出现之前就已经存在了,它们都解决了如何定义行业和任务流程的数据模型这件事情。

比如说,DocumentCrunch这个在工程合同领域做AI审计的公司。实际上,在大模型出现之前,它已经研究怎么样定义了合同中的潜在风险,并确定了需要从合同中提取的关键信息。大模型的出现,使得这个自然语言处理引擎更加高效,有更好的通用性。同时,跟procore和Microsoft copilot的整合使得用户交互变得更加简便,效果也得到了显著提升。

另外,还有一类公司解决的是表单和文档的数据结构化的问题,目标就是提取文件中的信息,使得可以存入公司标准的数据库或者ERP系统中。这部分主要是替代掉初级文员、实习生的工作内容,跟传统的RPA和写脚本比较相关。

大模型的主要优势在于其广泛的适用性,能够应用于多种不同场景。你可以用它直接处理文本并输出结构化数据;也可以让它根据你的任务需求生成脚本来完成处理。此外,这些提取出的结构化信息还可以用于下游任务中的报告自动生成,例如基于勘探结果生成可行性方案。

02 多模态AI:图纸、BIM中的可能性

秦明:在多模态这块,比如BIM层面,这块在国内很少看到有人在做。

郑钧文: 我有些博士朋友正在进行Sketch to BIM的研究,他们通过手绘草图来生成三维可编辑的模型。但是在选择如何进行模型表示时,他们还没有确定的答案。在电脑系统中,最基本的三维模型被称为2.5D,即在平面图上增加高度,形成柱体。但是,只有当这些模型能被电脑系统识别和编辑时,它们才真正成为三维模型。

从技术的角度考虑,当下拥有强大计算能力的顶尖科技公司也难以完美解决这一问题。Sora虽然提供了一个二维加时间轴的表示方式,但它并不是真正的三维图像,可它的形成已经足够难了。随着每增加一个维度,计算量呈指数级增长,想要生成真正的三维模型是一个更加复杂的任务。

不过这种技术未来将改变从业者的工作方式,传统的工作流程是绘制草图,然后在设计软件二维界面上操作来构建三维模型,这在效率上是有所欠缺的。在这一领域,根据我的了解,Autodesk正在进行相关的3D大模型开发,技术难点尚未解决,但我们对未来充满期待。

秦明:如何理解AI大模型落地过程中,基于图纸和基于BIM时的不同难点?

郑钧文:基于图纸的大模型的技术难点主要在于其背后的数据结构。 如何对图纸进行标注,以及如何定义各个部分,如柱子、窗户等,都是关键问题。当图纸以PDF或CAD文档形式呈现时,我们需要识别和定义图纸中四条线围起来的区域是什么。这是一个非常具有挑战性的问题,尤其是在必须避免侵犯他人版权的情况下,如何精准识别CAD文档中的内容更是难上加难。

基于BIM的技术难点在于如何将人类语言与机器所理解的实体对象相对应。 举个简单的例子,像SQL这样的语言,用来查询数据库中的信息相对简单。但在处理图纸时,挑战则增加了一个层次。在BIM模型中,我们可以生成二维平面图的投影,切割截面,并清楚地了解截面中的所有内容,因为我们已经掌握了整个3D模型,并且只是将其投影到平面上。这意味着,不论是一楼、二楼还是三楼的平面图,都是从同一个三维构建中生成的投影,无需再次识别每个信息。

相对而言,如果仅有一张PDF,试图识别出PDF中不同楼层的所有构件是非常困难的。虽然某些类型的特定图纸可以实现部分识别,但如果期待一种通用的技术能够识别任何类型的图纸,那目前的技术和数据量都还远未达到这一水平。

然而,基于以前的模板进行识别是可能的。比如,对于一些具有相似特征的大楼,我们可以将已有的识别经验应用于新项目中。这种情况下,通用性是最为关键的挑战。要做到能识别任意一张建筑图纸,还需要技术突破和数据积累。

秦明:接下来会看到大量行业AI公司出来。

郑钧文: 如果一个产品或服务没有解决问题,那么我认为它只是在追逐热点。 聊天机器人,这是大公司的创新部门会有资源和有需求去探索。

对于创业公司,他们可能会开发一种软件应用,用户可以提出问题,然后应用会给出答案,这就是Trunk Tool。 施工人员或项目管理人员可以在手机端输入查询,然后模型会给他们返回信息。

从对公司产生的实际效益我还没有看到,我认为现在大家都在摸索,因为这件事并不容易。谷歌是通过找到推荐广告点击来变现搜索的。每个公司都内部搞一个谷歌?成本太高,建筑业负担不起。 每个公司都想有一个搜索引擎,特别是在现在,甚至每个项目部都想要一个搜索引擎。

但是需要考虑成本有多高,收益有多大。这是投资驱动的。根据美国这边的情况就是,只有医疗、法律、金融和通信行业有资源和利润去落地这件事情。对于我们建筑行业有一些具体的自动化的场景才是价值驱动的。比如说能快速画出图纸,能自动出施工图。不过,这些其实在某种程度上就是定制,定制遇到的一个问题就是怎么规模化,超出这个场景就失效了。

对于我们这些追踪LLM/AI技术的研究者来说,很多企业在一年里面的很多所谓的AI功能,没有太多的新意,他们只是把以前的东西重新包装了一下,实际上,大部分都是旧的东西。

我认为唯一新点的就是Autodesk assistant,也就是聊天辅助画图机器人。你可以理解,自然语言交互在大模型的时代就是一个很常见的场景,这是未来所有的软件企业都会有的功能。

秦明:我们展开聊聊彼此看到的AI应用场景?

郑钧文: 我举一个我自己很欣赏的文档信息结构化的创业公司Parspec。 这个公司也是我们Stanford CIFE的博士师兄在21年创立的,主要服务机电和灯饰的区域采购商,Parspec的seed轮融了11.5M USD。

在具体的项目应用上,设计方通常会提出一系列技术指标,而供应商的产品必须符合这些标准。 甲方和施工方则需要核实供应商提供的技术标准书。 在此过程中,AI工具可以自动化地提取供应商的图表和技术指标,从而实现标书制作和后期处理的半自动化,提高投标的数量和成功率。

此外,在售后服务部分,每个成功投标后,产品最终需要得到工程师或建筑师的批准。 供货完成后,还需提交一份文档,详细说明产品的使用方法和相关资料。 最后,公司利用AI优化了这一售后流程,自动生成产品使用指南或根据甲方要求准备的文档包。

对话斯坦福郑钧文博士:我在硅谷看到的建筑AI创投机会

Parspec工作界面(来源:访者供图)

秦明:还有很多组织与认知问题要解决。

郑钧文: 我想分享一个“吐槽”。我们行业里的人们总是担心科技公司会窃取我们的数据,认为自己的数据非常重要,需要严格保密。因此,当有人想要使用像OpenAI这样的工具时,往往需要经过大量的讨论,最终达成内部共识。

在美国,有一家对科技接受度高的承建商,从体量上你可以把它理解为国内的中建。他们内部有一项政策,规定所有使用AI进行测试的项目都必须经过数据部门的审批,不能私下试用。这是因为他们的数据团队担心,一旦公司的数据泄露,他们就会面临生存危机。

但实际上,科技公司并不这么认为。对他们来说,我们这个行业的复杂性和数据的重要性远不如我们想象的那样吸引人。他们只想提供一些服务,专注于他们擅长的领域,并希望你购买他们的软件,而不是取代你的业务。他们并不打算涉足我们这个无序的行业。

03 斯坦福CIFE实验室的运作模式

秦明:还有一点,非常重要,与大家分享下你们实验室的运作模式,斯坦福的产学研模式一直被大家关注与学习。

郑钧文: 我们实验室的运作模式本质上是一个很好的产学研结合的例子,也是斯坦福赖以成名的成功模式。 实验室的研究经费主要来自全球的顶尖公司的支持,包括科技公司autodesk,trimble,google,设计公司wsp,arup,建筑公司dpr,swinerton,goldbeck,obayashi,suffolk,hilti等。 这些公司将支付年费视为会员费。作为回报,他们获得一个企业交流、技术探索、项目落地的平台。

其中最具特色的是一个年度种子研究项目路演活动。 学校里面的博士生/研究员都可以提出一个自己认为有潜力的研究方案,给全体会员企业的代表进行展示和答辩,然后这些企业就会对这些研究课题进行投票。 会员费的很大部分就是根据投票结果分配给不同的博士生课题。 也就是说,课题需要经过企业的认可,同时课题也在这个路演过程中获得更多企业的交流和支持。

由于导师们在业内具有丰富的市场经验,他们不仅紧跟科技热点,还为博士生提供了一个开放的研究环境。最终,这种模式确保了课题既具科研价值,也有市场化潜力。如果企业对某个学生项目特别感兴趣,还可以单独提供投资支持。

这样一来,学校不仅仅是一个研究平台,还避免了实验室沦为廉价外包服务的风险。自1988年起,我们就采用了这种产学研结合的模式,这一模式创新值得国内的高校借鉴。

我们的实验室合作伙伴遍布全球,涵盖软件、施工、设计等多个领域。参与的企业大约有五六十家,主要来自美国,但也包括欧洲、香港、南美和北欧等地区的公司。这些企业不仅通过总部参与,也通过它们在美国的分公司加入合作。

对话斯坦福郑钧文博士:我在硅谷看到的建筑AI创投机会

郑钧文与秦明交流(来源:笔者供图)

(完)

对话斯坦福郑钧文博士:我在硅谷看到的建筑AI创投机会
对话斯坦福郑钧文博士:我在硅谷看到的建筑AI创投机会

获取CIFE更多信息:https://cife.stanford.edu

对话斯坦福郑钧文博士:我在硅谷看到的建筑AI创投机会

如果您认可我们的内容风格,欢迎添加主理人交流与合作。我们也在构建面向建筑产业创业者、投资人、企业高管与部门决策者的高端社群,并开展相关研讨活动,欢迎添加秦明微信,发送名片,申请进群交流。 本文来自微信公众号“建筑时氪”

本文来自投稿,不代表AI4ELAB立场,如若转载,请注明出处:https://ai4elab.com/4143.html

Connor 秦明的头像Connor 秦明

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

相关推荐

加入社群

联系我们

邮件:ai4elab@163.com