划重点:
⭐ 埃隆・马斯克的 公司 x 正在为 聊天机器人添加多模态输入功能
⭐ 最新的开发者文档显示了 xai 在推出新模型方面的进展
⭐ grok1.5v 将允许用户上传照片并获得基于文本的答案
站长之家(chinaz.com)5月22日 消息:埃隆・马斯克的人工智能公司 xai 正在努力为其 grok 聊天机器人增加多模态输入功能。
根据公开的开发者文件,埃隆·马斯克(elon musk)的人工智能公司xai在向其grok聊天机器人添加多模态输入方面取得了进展。这意味着,很快,用户就可以将照片上传到 grok 并接收基于文本的答案。
xai上个月在一篇博客文章中首次调侃了这一点,该博客称grok-1.5v将提供“多个领域的多模态模型”。开发人员文档的最新更新似乎显示了新模型的发布进度。
在开发者文档中,一个 python 脚本示范了开发人员如何使用 xai 软件开发工具包库来生成基于文本和图像的回应。这个脚本读取图像文件,设置一个文本提示,并使用 xai sdk 生成回应。
对于 xai 而言,这是 grok 的一项重大更新。grok 最早于2023年11月发布,目前仅供购买 x 高级会员订阅的用户使用。最后一次更新是在今年3月的 grok1.5版本,带来了改进的推理能力。
据 xai 的一篇博文介,该模型是 “基于来自互联网公开来源直至2023年第三季度以及由人类审核员审查和整理的各种文本数据” 进行训练的。该博文补充说,grok-1并未经过 xai 的训练(包括 xai 的公开帖子)。然而,grok 确实拥有 “对世界的实时知识”,包括 xai 上的帖子。
由埃隆・马斯克于2023年3月创立的 xai 在人工智能领域相对较新,并落后于竞争对手,如 openai 的 chatgpt。然而,根据 xai 的一篇博文,他们的 grok1.5模型在各种基准测试中正在缩小与 gpt-4的差距,这些测试涵盖了从小学到高中各种竞赛题目的广泛范围。值得注意的是,大型语言模型的基准测试经常受到批评,因为如果这些基准测试包含在它们的训练数据中,这些模型就可以在基准测试上表现良好。
chatgpt源码推荐: