
编译|秦明
文|Greg Kumparak、秦明
封面| Pixabay
Humanloop是一家开发数据标签和AI模型训练平台的公司。根据YC信息,它成立于2020年,总部位于英国伦敦,由Jordan Burgess、Raza Habib和Peter Hayes共同创立,员工人数为10人左右。
其强大之处在于它将评估、监控和提示工程集成在一个平台上,将评估工作流程和提示开发集中在同一地方,可以让企业快速地在理解系统性能和采取改进行动之间进行迭代,使产品团队能够开发出可靠且可扩展的基于LLM的应用。
Humanloop成立初始,OpenAI还未出圈。那时他们正在寻求一种更好的方法来训练当时最领先的语言模型,当时由于这些模型需要大量手动标注的数据才能发挥最佳效果,Humanloop的第一款产品是让任何人都能更轻松地完成这种标注工作,同时大大减少了所需的手动工作量。
随后,他们察觉到了潮流的变化。近期,Humanloop联合创始人Raza Habib表示,大约两年前,他们一直在密切关注大语言模型的发展情况。他们意识到,作为一家企业,面临的最大风险是这些大型语言模型的质量会越来越好——人们构建AI的方法将发生重大变化,因此不再需要进行大量手动标注。
如今来看,这一观察事实证明是正确的。在ChatGPT首次亮相几个月前,他们就开始探索一个新的方向。Humanloop不再帮助人们标注他们的训练数据,而是提供工具来评估基于人工智能的应用程序的性能,并帮助团队成员(无论是否是技术人员)合作构建它们。
Raza表示,改变公司的方向是一件非常困难的事情。因此,他们给自己设定了两周的时间限制,期间他们会开发一些模型,并寻找那些正在使用大语言模型(LLM)的人,看看是否有人愿意为此付费。
他们的目标是在两周内获得十个付费客户,用来验证值得对公司进行调整。 然 而,他们最终只用了两天就达到了这个目标。 现在,Humanloop已经将Gusto、Vanta和Duolingo等公司视为客户,为他们提供了一个协作的LLM平台,帮助他们找到最佳的提示,评估不同的模型,并跟踪其随时间的变化。
AI大模型领域的实践,还没有人是专家,每个人都在学习中。Raza也分享了团队在构建时LLMs常犯的 5 个错误。
1、没有建立一套连贯、系统化的评估机制
要确保你的AI产品达到“好”的标准,首先要明确这个“好”是什么样子的,然后在开发过程中找到衡量它的方法。Raza谈到,如果团队没有明确的衡量‘好’的方法,他们会在很长一段时间内改变执行,但不知道是否有进展。每个人都希望产品快速、便宜、准确,但实际上,对于每个具体的应用场景,标准可能会有所不同。
比如,如果你正在开发一个AI聊天机器人来帮助人们学习新语言,那么“好”可能意味着检查输出,确保它只使用适合用户技能水平的词汇。如果你正在开发一个AI教练,那么“好”可能意味着仔细检查每个用户的目标是否得到了提及和解决。但这不仅仅是运行几次提示然后看起来合理就行了,系统必须能够定期检查输出,随着提示和基础模型的变化。
传统软件开发中,每次运行代码都会得到相同结果,但对于LLM,相同输入可能会有多个输出,每次运行都可能略有不同。Raza指出,人们经常犯的错误之一就是只关注(一次性的)例子,而没有严格评估他们是否在让产品变得更好。
2、忽视了用户反馈(有时反馈可能并不明显)
“好”的定义非常主观,因为每个人对“好”的理解和标准都可能不同。例如,一次电话会议的总结是什么样的才算好?一封销售电子邮件怎样才算好?这些问题并没有统一的答案。
最终决定“好”的是你的客户,但他们可能并不总是直接表达出来。因此,你需要从各种来源捕获用户的反馈。这可能包括明确的反馈,如投票按钮,也包括用户在应用程序中的隐式行为。例如,如果你帮助他们生成了一封销售电子邮件,他们是否真的发送了这封邮件?
因此,在设计应用程序时,需要提前规划,以便能够捕获用户的反馈,了解应用程序是否正常运行。这种设计思路需要从一开始就考虑到。
3、没有像对待代码管理那样认真对待提示管理
你使用的提示会随着时间改变;了解这些变化并知道为什么要做出这些变化至关重要。
人们开始做一些事情,比如在共享文档中记录,或者在Slack中复制粘贴,结果他们失去了实验历史。当新人加入团队时,很难了解之前尝试了哪些方法。有些改变可能会持续几个月,在生产环境中进行,但是我们究竟是改进了还是变得更糟,他们无从得知。
4、没有做微调模型的意识
在大多数情况下,当你证明你的想法是可行的时候,你可能会用通用基本模型走得很远。但最终,你会想要根据你的需求对这些模型进行微调。从长远来看,良好的微调将为你提供更好的结果,降低延迟并减少成本。
所有人从提示工程开始,因为这是最简单、最快且最有效的方法。但是,如果你在后期对模型进行微调,你可以节省大量的成本。他认为,考虑微调的最佳方式是将其视为一种优化。你应该避免过早地进行优化,但一旦你确认了你的产品有需求,那么微调就应该成为你关注的重点。这样,你可以根据用户的反馈和需求,不断优化和改进你的AI模型,以提供更好的服务。
5、没有领域专家编写提示词
如果你正在为特定的行业或领域构建大语言模型产品,你应该让真正了解这个主题的专家来帮助编写提示词,并评估输出,而不是完全依赖工程师。因为大语言模型主要涉及语言,而语言是微妙的,不同行业的词汇有深刻的差异,从而提高产品的性能和用户体验。这是显而易见的事情之一,但一开始对这个常识的认识并不明显。
(完)
本文来自投稿,不代表AI4ELAB立场,如若转载,请注明出处:https://ai4elab.com/4748.html