最近看到MIT研究团队的一个项目,挺有意思。他们做了一个叫VideoCAD的数据集和模型,想让AI学会像工程师一样操作CAD软件。
我们知道,CAD是工程师设计实体产品的标准工具。学习曲线陡峭,软件里有成千上万个命令,真正掌握需要大量时间。这个门槛把很多人挡在外面。
MIT团队的思路是训练一个AI系统,让它通过观看视频学会操作CAD。给它一张2D草图,它就能自己点鼠标、选工具,把3D模型做出来。

具体成果可在这篇论文中查看:《 VideoCAD: A Dataset and Model for LearningLong-Horizon 3D CAD UI Interactions from Video 》。论文链接放在了文末。

核心突破是什么
之前有些数据集记录了CAD的设计过程,但只有高级命令,比如画直线、画圆、拉伸。这些不够。AI需要知道更细的操作:点击屏幕哪个像素坐标,什么时候放大视图,拉伸草图的哪个区域。
MIT团队开发了一套系统,把高级命令转换成具体的界面操作。比如画一条从点1到点2的线,系统会记录鼠标移动到坐标(x1,y1)→点击→移动到(x2,y2)→点击→同时选中线条工具。
他们用这套方法生成了41005个CAD建模视频。每个视频完整记录了鼠标点击、拖拽、键盘输入等操作,时间戳精确到60帧/秒。然后用这些数据训练模型。

训练结果
模型学会了接收2D草图,然后控制CAD软件,通过实际操作界面来构建3D形状。能处理的对象从简单支架到复杂房屋都有。

团队把这个数据集叫VideoCAD。他们的设想是做一个”CAD辅助驾驶工具”。不只是自动生成设计,还能跟用户协作,提示下一步操作,或者把那些重复繁琐的操作自动完成。
有意思的几点
第一,这是UI代理的一次升级。之前的UI代理能做的事情比较简单,比如在网页上抓取信息整理到表格里。CAD的复杂度要高很多,功能多,操作细节多。这个项目证明了AI可以处理更复杂的专业软件。
第二,降低准入门槛这件事有实际价值。CAD培训成本不低,时间成本也高。如果AI能分担一部分工作,让没受过系统训练的人也能做出3D模型,应用场景会扩大。
第三,这种”从示例学习操作”的思路可以推广。理论上,只要有足够的操作视频,AI就能学会使用各种专业软件。
也要看到局限
现在还是早期阶段。Autodesk研究院的科学家评价说,这是一个基础,后续需要支持更多CAD系统,处理更丰富的操作(比如装配和约束),还要模拟更真实的工作流程。
实际工程场景中,设计往往不是线性的。设计师会反复修改,尝试不同方案,需要判断和创造力。AI现在能做的是执行相对标准化的建模流程。
还有数据量的问题。41005个样本听起来不少,但CAD能做的事情组合空间非常大。模型遇到训练集之外的情况,表现会怎样,还需要验证。
往哪里走
短期看,这类工具适合做辅助。帮新手快速上手,或者自动化那些有规律的重复操作。让设计师把精力放在创造性工作上。
长期看,如果AI能理解设计意图,而不只是模仿操作,那想象空间就大了。你描述一个需求,AI直接给出几个可行方案,然后协作完成细节。
这个项目会在12月的NeurIPS会议上展示。我们会继续关注后续进展。AI和专业工具的结合,是个值得研究的方向。
以上,如果觉得不错,随手点个赞、在看、转发三连吧,也欢迎给我个星标⭐,第一时间收到推送~谢谢阅读,下篇内容再见。
参考链接:https://news.mit.edu/2025/new-ai-agent-learns-use-cad-create-3d-objects-sketches-1119
论文链接:https://openreview.net/pdf?id=7SD9RCvcb9
如有问题,欢迎评论区补充交流,
交流合作:内容撰写,AI咨询,需求对接!

本文来自微信公众号“AI4ELAB”,作者:Connor 秦明
本文来自投稿,不代表AI4ELAB立场,如若转载,请注明出处:https://ai4elab.com/6294.html