跳至正文

什么是双子座人工智能?谷歌的新人工智能系统?深入了解

    谷歌最近发布了备受期待的 Gemini 人工智能系统,该系统被定位为微软 ChatGPT 聊天机器人的挑战者。Gemini 的多模态能力令人印象极其深刻,在许多基准测试中都超过了 ChatGPT,但其令人信服的会话能力还无法与之相提并论。

    谷歌将于 2023 年 12 月发布 "双子座"(Gemini),这是人工智能能力的一次重大飞跃。作为由 DeepMind 开发的最新多模态人工智能模型,"双子座 "展现出了非常全面的理解和推理能力,预示着一个激动人心的未来。在本文中,我们将探讨双子座的特别之处,并分析其影响。

    Gemini 的核心突破在于它能够理解文本、图像、音频、视频甚至计算机代码等各种数据类型。这赋予了它超越以往人工智能系统的直观性和多功能性。Gemini 有三个主要版本,适合不同的应用:

    双子座版本 - 双子座介绍

    Gemini 在 2022 年谷歌 I/O 大会上首次亮相,它是一种多模态基础模型,能够处理文本、图像、音频、视频等。谷歌将提供三种尺寸的 Gemini:

    超双子座

    皇冠上的明珠,拥有超过 4500 亿个参数。它是有史以来最大的神经网络之一,针对高度复杂的任务进行了优化,在某些情况下甚至超越了人类的能力。

    双子座专业版

    它拥有 300 亿个参数,在为用户提供人工智能辅助功能的性能和实用性之间取得了平衡。

    双子座纳米

    这是一种简化的设备模型,专为计算资源有限的应用(如移动设备)而设计。

    这些选项使双子座具有很强的适应性。在引擎盖下,它的技术架构融合了各种创新技术,如用于多模态理解的 Perceiver IO 和根据任务结合不同子模型优势的混合专家技术(mixture-of-experts)。这些设计选择使 Gemini 能够在语言、视觉、音频和其他领域的 100 多个不同任务中表现出色,这是以前的模型无法比拟的。

    基准结果

    在基准测试中,Gemini Pro 在许多评估中都落后于 ChatGPT。但 Gemini Ultra 取得了最先进的结果,在评估 57 个学科知识的 MMLU 基准测试中,它的表现优于所有其他模型。

    但令人惊讶的是,ChatGPT 在常识推理基准 HellaSwag 上仍然超过了 Gemini Ultra。这表明,与 ChatGPT 更接近人类的能力相比,Gemini Ultra 在会话任务方面相对较弱。

    培训过程

    为了训练 Gemini Ultra,谷歌使用了 512 颗第五代 TPU 芯片,处理能力超过 1 exaFLOP。该模型在互联网规模的数据集上进行了训练,数据集包括科学论文、书籍、网页等。从人类反馈中获得的强化学习被用来提高质量。

    双子座的应用前景广阔

    谷歌重点介绍的双子座功能的一些实际例子包括

    • 分析复杂的医学图像和扫描,帮助临床医生识别异常和诊断病情。
    • 通过计算化学突破模拟化学反应和药物设计。
    • 通过自然语言查询生成代码示例和解释,提供编程帮助。

    最令人兴奋的是,Gemini 如何为以直观方式增强人类智能的人工智能铺平道路。我们可以看到双子座为以下应用提供动力:

    • 能够聊天、可视化搜索、解读语音和手势,并普遍理解人类语境和需求的智能助手。
    • 拥有互动角色和世界的沉浸式娱乐体验。
    • 随着时间的推移,能适应独特用户行为和偏好的软件。

    与以往将视觉、语言和音频模块分开的多模态模型相比,Gemini 的单一统一框架使其速度更快、功能更强、可扩展性更好。在 MMLU 基准测试中,它在 57 个学术科目上的表现甚至超过了人类专家,令人印象深刻。

    然而,双子座仍有改进的余地。在某些自然语言处理任务上,Anthropic 的克劳德等替代模型超过了双子星,而在原始推理能力上,双子星则遥遥领先。随着人工智能研究的不断快速发展,我们可以预见科技巨头们在训练更庞大的基础模型方面将展开激烈的竞争。

    人工智能助手的未来

    总体而言,"双子座 "代表着人工智能能力的一次令人兴奋的飞跃。基于谷歌在模型设计、训练和计算基础设施方面的优势,Gemini 标志着新一代人工智能的出现,它很可能会深深融入我们的生活。