MIT发布VideoCAD数据集，让AI观看视频，学会像工程师一样操作CAD软件

最近看到MIT研究团队的一个项目，挺有意思。他们做了一个叫VideoCAD的数据集和模型，想让AI学会像工程师一样操作CAD软件。

我们知道，CAD是工程师设计实体产品的标准工具。学习曲线陡峭，软件里有成千上万个命令，真正掌握需要大量时间。这个门槛把很多人挡在外面。

MIT团队的思路是训练一个AI系统，让它通过观看视频学会操作CAD。给它一张2D草图，它就能自己点鼠标、选工具，把3D模型做出来。

具体成果可在这篇论文中查看：《 VideoCAD: A Dataset and Model for LearningLong-Horizon 3D CAD UI Interactions from Video 》。论文链接放在了文末。

核心突破是什么

之前有些数据集记录了CAD的设计过程，但只有高级命令，比如画直线、画圆、拉伸。这些不够。AI需要知道更细的操作：点击屏幕哪个像素坐标，什么时候放大视图，拉伸草图的哪个区域。

MIT团队开发了一套系统，把高级命令转换成具体的界面操作。比如画一条从点1到点2的线，系统会记录鼠标移动到坐标(x1,y1)→点击→移动到(x2,y2)→点击→同时选中线条工具。

他们用这套方法生成了41005个CAD建模视频。每个视频完整记录了鼠标点击、拖拽、键盘输入等操作，时间戳精确到60帧/秒。然后用这些数据训练模型。

训练结果

模型学会了接收2D草图，然后控制CAD软件，通过实际操作界面来构建3D形状。能处理的对象从简单支架到复杂房屋都有。

团队把这个数据集叫VideoCAD。他们的设想是做一个”CAD辅助驾驶工具”。不只是自动生成设计，还能跟用户协作，提示下一步操作，或者把那些重复繁琐的操作自动完成。

有意思的几点

第一，这是UI代理的一次升级。之前的UI代理能做的事情比较简单，比如在网页上抓取信息整理到表格里。CAD的复杂度要高很多，功能多，操作细节多。这个项目证明了AI可以处理更复杂的专业软件。

第二，降低准入门槛这件事有实际价值。CAD培训成本不低，时间成本也高。如果AI能分担一部分工作，让没受过系统训练的人也能做出3D模型，应用场景会扩大。

第三，这种”从示例学习操作”的思路可以推广。理论上，只要有足够的操作视频，AI就能学会使用各种专业软件。

也要看到局限

现在还是早期阶段。Autodesk研究院的科学家评价说，这是一个基础，后续需要支持更多CAD系统，处理更丰富的操作（比如装配和约束），还要模拟更真实的工作流程。

实际工程场景中，设计往往不是线性的。设计师会反复修改，尝试不同方案，需要判断和创造力。AI现在能做的是执行相对标准化的建模流程。

还有数据量的问题。41005个样本听起来不少，但CAD能做的事情组合空间非常大。模型遇到训练集之外的情况，表现会怎样，还需要验证。

往哪里走

短期看，这类工具适合做辅助。帮新手快速上手，或者自动化那些有规律的重复操作。让设计师把精力放在创造性工作上。

长期看，如果AI能理解设计意图，而不只是模仿操作，那想象空间就大了。你描述一个需求，AI直接给出几个可行方案，然后协作完成细节。

这个项目会在12月的NeurIPS会议上展示。我们会继续关注后续进展。AI和专业工具的结合，是个值得研究的方向。

以上，如果觉得不错，随手点个赞、在看、转发三连吧，也欢迎给我个星标⭐，第一时间收到推送～谢谢阅读，下篇内容再见。

参考链接：https://news.mit.edu/2025/new-ai-agent-learns-use-cad-create-3d-objects-sketches-1119

论文链接：https://openreview.net/pdf?id=7SD9RCvcb9

如有问题，欢迎评论区补充交流，

交流合作：内容撰写，AI咨询，需求对接！

本文来自微信公众号“AI4ELAB”，作者：Connor 秦明

本文来自投稿，不代表AI4ELAB立场，如若转载，请注明出处：https://ai4elab.com/6294.html