Gemini-谷歌发布的多模态AI大模型

3个月前发布 15 00

AIHub 12 月 6 日消息,谷歌宣布推出其认为规模最大、功能最强大的人工智能多模态AI模型 Gemini。意味着它可以理解、操作和结合不同类型的信息,包括文本、代码、音频、图像和视频...

收录时间:
2024-09-11
Gemini-谷歌发布的多模态AI大模型Gemini-谷歌发布的多模态AI大模型
Gemini-谷歌发布的多模态AI大模型

Gemini-谷歌发布的多模态AI大模型

Google Gemini是什么?

AIHub 12 月 6 日消息,谷歌宣布推出其认为规模最大、功能最强大的人工智能多模态大模型Gemini。意味着它可以理解、操作和结合不同类型的信息,包括文本、代码、音频、图像和视频。

根据谷歌给出的基准测试结果,Gemini 在许多测试中都表现出了「最先进的性能」,甚至在大部分基准测试中完全击败了 OpenAI 的 GPT-4。

Google官方介绍视频

Google Gemini有什么?

谷歌针对不同场景发布了三种不同版本:Gemini Ultra、Gemini Pro 和 Gemini Nano。这些不同的版本也将适用于不同的场景和案例:

  • Gemini Ultra – 用于处理高度复杂任务的最强、最大的模型。
  • Gemini Pro – 用于扩展各种任务的最佳模型。
  • Gemini Nano – 用于手机等设备的最高效模型。

Gemini-谷歌发布的多模态AI大模型

1、Gemini Nano 的更轻版本,旨在在 Android 设备上本地离线运行。

Gemini Nano 对于设备上的任务非常高效。 Android 开发者可以通过 Android AICore 注册 Gemini Nano 的抢先体验计划,Pixel 8 Pro 用户已经可以看到它在录音机中的汇总和 Gboard 中的智能回复等功能中推出,以及更多即将推出的功能!

Gemini-谷歌发布的多模态AI大模型

2、Gemini Pro 的更强大版本,它将很快为许多 Google AI 服务提供支持,并且从今天开始成为 Bard 的支柱。

现在,Gemini Pro 今天在 Bard 迄今为止最大的更新中推出(在 170 个国家/地区提供英语),在响应中提供了更高级的推理和理解。 Bard Advanced with Ultra 是我们用于高度复杂任务的最通用、最强大的模型,将于明年初推出。

12 月 13 日开始,开发者和企业客户将可以通过 Google AI Studio 或 Google Cloud Vertex AI 访问 Gemini Pro 的 Gemini API。

Gemini-谷歌发布的多模态AI大模型

3、还有一个功能更强大的模型,称为 Gemini Ultra,它是 Google 迄今为止创建的最强大的大模型,主要是为数据中心和企业应用程序设计的。

Gemini Ultra 目前只提供给被邀请的客户、开发者、合作伙伴以及安全专家进行早期实验和反馈,并计划于明年初向开发者和企业客户推出。

Google Gemini性能表现

Gemini Ultra 的性能在 32 个广泛使用的学术基准测试中的 30 个上超过了当前最先进的水平。 Gemini Ultra 的得分为 90.0%,是第一个在 MMLU 上超越人类专家的模型。

Gemini Ultra 的得分率为 90.0%,是第一个在 MMLU(大规模多任务语言理解)测试中超过人类专家的模型,MMLU 综合使用了数学、物理、历史、法律、医学和伦理等 57 个科目,用于测试世界知识和解决问题的能力。

Gemini-谷歌发布的多模态AI大模型

在图像基准测试中,Gemini Ultra 在不使用对象字符识别 (OCR) 系统来提取图像中的文本进行下一步处理的情况下,表现优于以前最好的模型。这些基准测试凸显了 Gemini 的原生多模态性,并显示出了 Gemini 具有更复杂推理能力的潜力。

Gemini-谷歌发布的多模态AI大模型

Gemini 目前仅提供英语版本,其他语言显然很快就会推出。该模型最终将被整合到谷歌的搜索引擎、广告产品、Chrome 浏览器等世界各地。

Gemini官方测试视频

如何使用Google Gemini?

个人用户

对于普通用户,现在可以去Google bard免费使用Gemini了。使用地址:https://bard.google.com/

为了使用Gemini Pro模型,您需要满足以下条件:

  • 您的Bard界面语言必须为英语
  • 您的Bard节点必须位于美国
  • 您必须使用最新版本的Bard

如果您满足上述条件,您可以通过以下步骤来启用Gemini Pro模型:

  • 1.打开Bard界面
  • 2.点击“设置”图标
  • 3.点击“模型”
  • 4选择“Gemini Pro”
  • 5.点击“保存”

完成这些步骤后,Bard将开始使用GeminiPro模型。您可以通过以下方法来验证是否已成功启用GeminiPro模型

  • 1.点击“帮助”图标
  • 2.点击“关于Bard”
  • 3.查看“模型”部分

如果“模型”部分显示“Gemini Pro”则表示您已成功启用Gemini Pro模型

开发者和企业用户

今天(12月14日), Google 的 Gemini Pro 通过 Gemini API 上线,并且提供了 API 访问,同时还有一个开发者的利好:

目前 Gemini Pro 可免费使用! Gemini API 地址:http://ai.google.dev

Gemini API支持32k上下文窗口,在一定限制内可免费使用,具有函数调用、嵌入、语义检索和自定义知识基础以及聊天功能,支持全球180多个国家和地区、38种语言,支持文本、图像输入和文本输出,提供SDK(软件开发工具包)。

现在可在在线免费开发者工具Google AI Studio、云托管AI平台Vertex AI上使用该模型。

定价方面,免费版本支持每分钟最多60个请求,但输入输出数据将被用于改善谷歌的模型。之后将推出付费计划,每千字符输入定价0.00025美元(约合人民币0.0018元),每张图像输入定价0.0025美元(约合人民币0.018元),每千字符输出定价0.0005美元(约合人民币0.0036元)。

了解更多详情:

官方中文内容:https://www.aihub.cn/news/google-gemini/

官方英文博客:https://blog.google/technology/ai/google-gemini-ai/

→想免费在线AI绘画,点此立即使用

数据统计

数据评估

Gemini-谷歌发布的多模态AI大模型浏览人数已经达到15,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:Gemini-谷歌发布的多模态AI大模型的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找Gemini-谷歌发布的多模态AI大模型的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于Gemini-谷歌发布的多模态AI大模型特别声明

本站AI导航站提供的Gemini-谷歌发布的多模态AI大模型都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由AI导航站实际控制,在2024年9月11日 上午11:10收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,AI导航站不承担任何责任。

相关导航

LaVie:上海人工智能实验室开源的视频生成模型

LaVie:上海人工智能实验室开源的视频生成模型

LaVie是一个高质量视频生成项目,使用级联潜在扩散模型。这个项目是由Vchitect开发的官方PyTorch实现。LaVie是一个文本到视频(T2V)生成框架,是视频生成系统Vchitect的主要部分。它还包括一个针对图像到视频(I2V)模型SEINE的微调版本。,LaVie是一个高质量视频生成项目,使用级联潜在扩散模型。这个项目是由Vchitect开发的官方PyTorch实现。LaVie是一个文本到视频(T2V)生成框架,是视频生成系统Vchitect的主要部…
ModelScope魔搭-阿里机器学习模型平台

ModelScope魔搭-阿里机器学习模型平台

ModelScope是阿里达摩院发布的汇聚各领域先进的机器学习模型的平台,提供模型探索体验、推理、训练、部署和应用的一站式服务。在这里,你可以共建模型开源社区,发现、学习、定制和分享你心仪的模型。,ModelScope是阿里达摩院发布的汇聚各领域先进的机器学习模型的平台,提供模型探索体验、推理、训练、部署和应用的一站式服务。在这里,你可以共建模型开源社区,发现、学习、定制和分享你心仪的模型。
Qwen2-Math:阿里巴巴最新开源的数学推理大模型

Qwen2-Math:阿里巴巴最新开源的数学推理大模型

Qwen2-Math是阿里巴巴最新开源的数学推理大模型,是基于 Qwen2 LLM 构建的专门用于数学解题的一系列语言模型。Qwen2-Math 提供了基础和指令微调两种版本,分别有1.5B(15亿)、7B(79亿)和72B(720亿)三种参数规模,以适应不同的应用需求。,Qwen2-Math是阿里巴巴最新开源的数学推理大模型,是基于 Qwen2 LLM 构建的专门用于数学解题的一系列语言模型。Qwen2-Math 提供了基础和指令微调两种版本,分别有1.5B(15亿)…
携程问道:首个旅游行业垂直AI大模型

携程问道:首个旅游行业垂直AI大模型

7 月 17 日,携程发布旅游行业首个垂直大模型“携程问道”。 据介绍,在大模型的基础上,“携程问道”筛选高质量非结构性旅游数据 200 亿,结合携程现有精确的实时数据进行了自研垂直模型的训练。 用户提出想法,问道可从地域、主题特色等维度,推荐旅行目的地、酒店、景点、行程规划和实时优惠的选项; 在用户需求相对明确时,提供智能查询结果,用户可用文字和语音以自然语言长句的形式进行复杂条件的机票和酒店产品的查询。 携程集团董事局主席梁建章表示,“希望用户从包括‘携程问道’在内的产品获得旅游行业‘可靠的内容,放心的推荐’。,7 月 17 日,携程发布旅游行业首个垂直大模型“携程问道”。 据介绍,在大模型的基础上,“携程问道”筛选高质量非结构性旅游数据 200 亿,结合携程现有精确的实时数据进行了自研垂直模型的训练。 用户…
Audiobox-Meta推出的新一代音频生成模型

Audiobox-Meta推出的新一代音频生成模型

Audiobox是Meta发布的一款基于语音和自然语言提示生成音频的先进研究模型。通过结合语音输入和文本提示,Audiobox可以轻松生成各种声音,包括语音、音效和音景,从而为多种用例提供定制音频。,Audiobox是Meta发布的一款基于语音和自然语言提示生成音频的先进研究模型。通过结合语音输入和文本提示,Audiobox可以轻松生成各种声音,包括语音、音效和音景,从而为多种用例提供定制音频。
CogVideoX-智谱推出的开源AI视频生成模型

CogVideoX-智谱推出的开源AI视频生成模型

CogVideoX是由智谱AI开发的视频生成大模型,具备强大的视频生成能力、只需输入文本或图片就可以轻松完成视频制作。此次开源的是CogVideoX-2B,20亿参数规格的模型,是CogVideoX 系列视频生成模型中的第一个模型,与智谱推出的AI视频生成产品清影同源。,CogVideoX是由智谱AI开发的视频生成大模型,具备强大的视频生成能力、只需输入文本或图片就可以轻松完成视频制作。此次开源的是CogVideoX-2B,20亿参数规格的模型,是CogVideoX …