Internet

Nova AI 使用开源LLMs多于OpenAI的原因

编写代码的开发人员不应该负责测试,这是人类本性的普遍真理。首先,他们大多数人几乎讨厌这项任务。其次,像任何良好的审计协议一样,完成工作的人不应该是进行验证的人。

因此,各种形式的代码测试——可用性、语言或任务特定测试、端到端测试——已经成为越来越多生成AI初创公司关注的焦点。每周,TechCrunch都有报道像Antithesis(筹集了4700万美元)、CodiumAI(筹集了1100万美元)和QA Wolf(筹集了2000万美元)这样的公司。而且新的公司不断涌现,比如新的Y Combinator毕业生Momentic。

成立一年的初创公司Nova AI是一家Unusual Academy加速器毕业生,已经筹集了100万美元的种子轮融资。创始人兼首席执行官扎克·史密斯告诉TechCrunch,该公司试图通过打破许多硅谷初创公司运营规则来超越竞争对手,而这些规则是Y Combinator的标准做法。

与Y Combinator的标准做法相反,Nova AI瞄准的是中型到大型企业,这些企业拥有复杂的代码库,目前急需解决问题。史密斯拒绝透露任何正在使用或测试其产品的客户的姓名,只是描述他们大多是电子商务、金融科技或消费品等领域的晚期(C轮或更高)风险投资支持的初创公司,以及“用户体验丰富的公司。这些功能的停机时间是昂贵的。”

Nova AI的技术通过使用GenAI自动构建测试来筛选其客户的代码。它特别适用于持续集成和持续交付/部署(CI/CD)环境,在这些环境中,工程师们不断地将各种零散部分交付到他们的生产代码中。

Nova AI的理念源自史密斯和他的联合创始人杰弗里·施的经验,当时他们是大型科技公司的工程师。史密斯是一位前谷歌员工,曾在云相关团队工作,帮助客户使用许多自动化技术。施此前在Meta工作过(之前还在Unity和微软工作),专门从事合成数据的稀有AI专业。他们后来增加了一位第三位联合创始人,AI数据科学家李亨利。

Nova AI不遵循的另一个规则是:尽管有大量的AI初创公司正在基于OpenAI行业领先的GPT构建,但Nova AI尽量少使用OpenAI的Chat GPT-4。没有客户数据被传递给OpenAI。

尽管OpenAI承诺对付费商业计划的用户数据不进行模型训练,但企业仍然不信任OpenAI,史密斯告诉我们。“当我们与大型企业交谈时,他们会说,‘我们不希望我们的数据流入OpenAI,”史密斯说。

大公司的工程团队并不是唯一持这种观点的人。OpenAI正在抵制一些不希望其使用他们的作品进行模型训练,或者认为他们的作品在其输出中出现,而又未经授权和未经报酬的诉讼。

相反,Nova AI大量依赖于像Meta开发的Llama和BigCoder社区(由ServiceNow和Hugging Face开发)开发的StarCoder等开源模型,以及构建自己的模型。他们尚未与客户使用Google的Gemma,但已经进行了测试,并且“看到了良好的结果,”史密斯表示。

例如,他解释说,OpenAI提供向量嵌入模型。向量嵌入将文本块转换为数字,以便LLM执行各种操作,例如将它们与其他相似文本块聚类。Nova AI不使用OpenAI的嵌入,而是在客户的源代码上使用开源模型。它只使用OpenAI的工具来帮助生成一些代码和执行一些标记任务,并且极力避免将任何客户数据发送给OpenAI。

“在这种情况下,我们没有使用OpenAI的嵌入模型,而是部署我们自己的开源嵌入模型,这样当我们需要运行每个文件时,我们并不只是将其发送到OpenAI,”史密斯解释说。

虽然不将客户数据发送给OpenAI可以取悦紧张的企业,但史密斯发现,开源AI模型价格更便宜,且足以完成特定任务。在这种情况下,它们非常适用于编写测试。

“开源LLM行业正在真正证明,他们可以击败GPT 4和这些大型领域提供商,当你想窄化时,”他说。“我们不必提供某种可以告诉您奶奶生日想要什么的大型模型。对吧?我们只需编写一个测试。就这样。因此,我们的模型专门针对这个进行了优化。”

开源模型也在迅速发展。例如,Meta最近推出了一个在技术圈中备受赞誉的新版本Llama,这可能会说服更多的AI初创公司关注OpenAI的替代方案。

Related Articles

Back to top button Back to top button