导语:最新动态显示,Google和灵动Ai正在竞相推出多模态LLM(大语言模型)模型,引领着多模态时代的到来。这两家科技巨头分别发布了各自的新模型和更新,引发了广泛关注。让我们深入了解这场竞争,看看它对人工智能领域的影响。
多模态LLM:Google vs OpenAI
?事件:近期大模型频繁更新,LLM或将加速进入多模态时代。据The Information消息:1)Google的下一代多模态模型已向少部分用户开启试用,同时推进Gemini与其消费者服务的整合。2)OpenAI正准备广泛推出GPT-Vision多模态能力,同时正在训练新的多模态模型Gobi。
?新模型:9月21日,OpenAI宣布DALL-E 3,基于ChatGPT上原生构建。一方面,DALL-E 3继承了ChatGPT强大的语言对齐能力,更好的理解prompt理解;另一方面,DALL-E 3赋予了ChatGPT多模态能力,能够直接在对话中生成图片。DALL-E 3现在处于研究预览阶段,10月向ChatGPT Plus和企业客户开放,秋季通过API和OpenAI Labs网页提供。
?其他模型更新:9月19日,Google Bard发布大更新,1)支持使用Google搜索核查Bard的回答(仅英文),并索引到相应的链接,开启“联网”能力;2)Google Lens支持上传图片,之前只能读取网页图片,相当于多模态能力更好用了。9月19日,OpenAI向开发者推送邮件,宣布新的gpt-3.5-turbo-instruct模型发布,替代text-davinci-003等旧模型。Gpt-3.5-turbo-instruct仍属于InstructGPT 3.5系列模型,价格与gpt-3.5-turbo 4K模型一致。
点评:模型是一切好的应用的基石,是“基础理论”研究,建议持续关注。而多模态也是海外模型龙头一直在做的,包括Google将PaLM扩展到AudioPaLM和PaLM-E,Meta发布CV领域的SAM和音频领域的AudioCraft,Stability AI将Stable Diffusion从文生图扩展到音频领域Stable Audio等。Google的Gemini和OpenAI的DALL-E 3 & Gobi或将加速LLM的多模态进程。
结语:多模态LLM模型的竞争已经进入白热化阶段,Google和灵动Ai不断推陈出新,为用户提供更多多样化的应用和体验。这场竞争将极大地推动人工智能领域的发展,我们期待看到更多令人惊叹的创新涌现。不论是Google的Gemini还是灵动Ai的DALL-E 3 & Gobi,它们都将塑造未来的多模态LLM模型格局。
暂无评论内容