AI大模型产品研发，创新团队常犯的5个错误

编译｜秦明

文｜Greg Kumparak、秦明

封面｜ Pixabay

Humanloop是一家开发数据标签和AI模型训练平台的公司。根据YC信息，它成立于2020年，总部位于英国伦敦，由Jordan Burgess、Raza Habib和Peter Hayes共同创立，员工人数为10人左右。

其强大之处在于它将评估、监控和提示工程集成在一个平台上，将评估工作流程和提示开发集中在同一地方，可以让企业快速地在理解系统性能和采取改进行动之间进行迭代，使产品团队能够开发出可靠且可扩展的基于LLM的应用。

Humanloop成立初始，OpenAI还未出圈。那时他们正在寻求一种更好的方法来训练当时最领先的语言模型，当时由于这些模型需要大量手动标注的数据才能发挥最佳效果，Humanloop的第一款产品是让任何人都能更轻松地完成这种标注工作，同时大大减少了所需的手动工作量。

随后，他们察觉到了潮流的变化。近期，Humanloop联合创始人Raza Habib表示，大约两年前，他们一直在密切关注大语言模型的发展情况。他们意识到，作为一家企业，面临的最大风险是这些大型语言模型的质量会越来越好——人们构建AI的方法将发生重大变化，因此不再需要进行大量手动标注。

如今来看，这一观察事实证明是正确的。在ChatGPT首次亮相几个月前，他们就开始探索一个新的方向。Humanloop不再帮助人们标注他们的训练数据，而是提供工具来评估基于人工智能的应用程序的性能，并帮助团队成员（无论是否是技术人员）合作构建它们。

Raza表示，改变公司的方向是一件非常困难的事情。因此，他们给自己设定了两周的时间限制，期间他们会开发一些模型，并寻找那些正在使用大语言模型（LLM）的人，看看是否有人愿意为此付费。

他们的目标是在两周内获得十个付费客户，用来验证值得对公司进行调整。然而，他们最终只用了两天就达到了这个目标。现在，Humanloop已经将Gusto、Vanta和Duolingo等公司视为客户，为他们提供了一个协作的LLM平台，帮助他们找到最佳的提示，评估不同的模型，并跟踪其随时间的变化。

AI大模型领域的实践，还没有人是专家，每个人都在学习中。Raza也分享了团队在构建时LLMs常犯的 5 个错误。

1、没有建立一套连贯、系统化的评估机制

要确保你的AI产品达到“好”的标准，首先要明确这个“好”是什么样子的，然后在开发过程中找到衡量它的方法。Raza谈到，如果团队没有明确的衡量‘好’的方法，他们会在很长一段时间内改变执行，但不知道是否有进展。每个人都希望产品快速、便宜、准确，但实际上，对于每个具体的应用场景，标准可能会有所不同。

比如，如果你正在开发一个AI聊天机器人来帮助人们学习新语言，那么“好”可能意味着检查输出，确保它只使用适合用户技能水平的词汇。如果你正在开发一个AI教练，那么“好”可能意味着仔细检查每个用户的目标是否得到了提及和解决。但这不仅仅是运行几次提示然后看起来合理就行了，系统必须能够定期检查输出，随着提示和基础模型的变化。

传统软件开发中，每次运行代码都会得到相同结果，但对于LLM，相同输入可能会有多个输出，每次运行都可能略有不同。Raza指出，人们经常犯的错误之一就是只关注（一次性的）例子，而没有严格评估他们是否在让产品变得更好。

2、忽视了用户反馈（有时反馈可能并不明显）

“好”的定义非常主观，因为每个人对“好”的理解和标准都可能不同。例如，一次电话会议的总结是什么样的才算好？一封销售电子邮件怎样才算好？这些问题并没有统一的答案。

最终决定“好”的是你的客户，但他们可能并不总是直接表达出来。因此，你需要从各种来源捕获用户的反馈。这可能包括明确的反馈，如投票按钮，也包括用户在应用程序中的隐式行为。例如，如果你帮助他们生成了一封销售电子邮件，他们是否真的发送了这封邮件？

因此，在设计应用程序时，需要提前规划，以便能够捕获用户的反馈，了解应用程序是否正常运行。这种设计思路需要从一开始就考虑到。

3、没有像对待代码管理那样认真对待提示管理

你使用的提示会随着时间改变；了解这些变化并知道为什么要做出这些变化至关重要。

人们开始做一些事情，比如在共享文档中记录，或者在Slack中复制粘贴，结果他们失去了实验历史。当新人加入团队时，很难了解之前尝试了哪些方法。有些改变可能会持续几个月，在生产环境中进行，但是我们究竟是改进了还是变得更糟，他们无从得知。

4、没有做微调模型的意识

在大多数情况下，当你证明你的想法是可行的时候，你可能会用通用基本模型走得很远。但最终，你会想要根据你的需求对这些模型进行微调。从长远来看，良好的微调将为你提供更好的结果，降低延迟并减少成本。

所有人从提示工程开始，因为这是最简单、最快且最有效的方法。但是，如果你在后期对模型进行微调，你可以节省大量的成本。他认为，考虑微调的最佳方式是将其视为一种优化。你应该避免过早地进行优化，但一旦你确认了你的产品有需求，那么微调就应该成为你关注的重点。这样，你可以根据用户的反馈和需求，不断优化和改进你的AI模型，以提供更好的服务。

5、没有领域专家编写提示词

如果你正在为特定的行业或领域构建大语言模型产品，你应该让真正了解这个主题的专家来帮助编写提示词，并评估输出，而不是完全依赖工程师。因为大语言模型主要涉及语言，而语言是微妙的，不同行业的词汇有深刻的差异，从而提高产品的性能和用户体验。这是显而易见的事情之一，但一开始对这个常识的认识并不明显。

（完）

本文来自投稿，不代表AI4ELAB立场，如若转载，请注明出处：https://ai4elab.com/4748.html