3月11日,
谷歌发布了全新的GeminiEmbedding2模型,标志着公司在多模态嵌入技术领域迈出了重要一步。GeminiEmbedding2是谷歌首个原生多模态嵌入模型,能够将文本、图像、视频和文档映射到同一个嵌入空间,从而实现对不同数据类型的统一理解和分析。
GeminiEmbedding2模型在功能上进行了扩展,不仅支持文本,还能处理图像、视频、音频和文档,覆盖100种语言的语义识别。具体到不同数据类型的处理限制,文本的上下文窗口最高支持8192个tokens,图像每次请求最多处理6张,视频支持最多120秒输入,音频可以直接处理音频数据,文档则支持最多6页PDF。这一模型的应用场景广泛,包括检索增强生成、语义搜索、情感分析和数据聚类等,能够在一次请求中同时接收多种类型的输入,分析不同媒体类型之间的关系。
谷歌表示,新模型可以简化复杂的数据处理流程,并增强多模态应用能力。例如,在诉讼取证阶段,Gemini嵌入模型能够帮助法律专业人士快速找到关键证据。测试结果表明,多模态嵌入能够提升检索精度和召回率,同时改善图像与视频搜索效果。目前,GeminiEmbeddings2已经通过GeminiAPI和VertexAI提供公开预览,而gemini-embedding-001则继续用于只处理文本的应用场景。

来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。