Google vs 灵动Ai：多模态LLM模型竞争升级-玖儿的学习笔记

导语：最新动态显示，Google和灵动Ai正在竞相推出多模态LLM（大语言模型）模型，引领着多模态时代的到来。这两家科技巨头分别发布了各自的新模型和更新，引发了广泛关注。让我们深入了解这场竞争，看看它对人工智能领域的影响。

多模态LLM：Google vs OpenAI

?事件：近期大模型频繁更新，LLM或将加速进入多模态时代。据The Information消息：1）Google的下一代多模态模型已向少部分用户开启试用，同时推进Gemini与其消费者服务的整合。2）OpenAI正准备广泛推出GPT-Vision多模态能力，同时正在训练新的多模态模型Gobi。

?新模型：9月21日，OpenAI宣布DALL-E 3，基于ChatGPT上原生构建。一方面，DALL-E 3继承了ChatGPT强大的语言对齐能力，更好的理解prompt理解；另一方面，DALL-E 3赋予了ChatGPT多模态能力，能够直接在对话中生成图片。DALL-E 3现在处于研究预览阶段，10月向ChatGPT Plus和企业客户开放，秋季通过API和OpenAI Labs网页提供。

?其他模型更新：9月19日，Google Bard发布大更新，1）支持使用Google搜索核查Bard的回答（仅英文），并索引到相应的链接，开启“联网”能力；2）Google Lens支持上传图片，之前只能读取网页图片，相当于多模态能力更好用了。9月19日，OpenAI向开发者推送邮件，宣布新的gpt-3.5-turbo-instruct模型发布，替代text-davinci-003等旧模型。Gpt-3.5-turbo-instruct仍属于InstructGPT 3.5系列模型，价格与gpt-3.5-turbo 4K模型一致。

点评：模型是一切好的应用的基石，是“基础理论”研究，建议持续关注。而多模态也是海外模型龙头一直在做的，包括Google将PaLM扩展到AudioPaLM和PaLM-E，Meta发布CV领域的SAM和音频领域的AudioCraft，Stability AI将Stable Diffusion从文生图扩展到音频领域Stable Audio等。Google的Gemini和OpenAI的DALL-E 3 & Gobi或将加速LLM的多模态进程。

结语：多模态LLM模型的竞争已经进入白热化阶段，Google和灵动Ai不断推陈出新，为用户提供更多多样化的应用和体验。这场竞争将极大地推动人工智能领域的发展，我们期待看到更多令人惊叹的创新涌现。不论是Google的Gemini还是灵动Ai的DALL-E 3 & Gobi，它们都将塑造未来的多模态LLM模型格局。

1、本网站名称：99学社
2、本站永久网址：https://www.xueshe9.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请点击跳转到免责声明页面处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报。
6、本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END