谷歌正在通过在其 Colab 平台上部署数据科学代理来为数据科学家和研究人员提供支持。
对于那些不熟悉的人来说,Google Colab 是一个免费的、云托管的 Jupyter Notebook 环境,允许用户在浏览器中编写和执行 Python 代码。通过免费提供对 Google Cloud GPU 和 TPU 的访问,Colab 已成为运行 AI 模型和以最少的基础设施设置增强项目协作的重要工具。
谷歌现已宣布其人工智能数据科学代理将广泛可用。该工具旨在改变大学、研究实验室等的工作流程,可自动执行数据分析中一些最重复和最耗时的元素。
12 月,谷歌向一群值得信赖的测试人员展示了 Colab 中的数据科学代理。这款助手使用谷歌的Gemini AI模型构建,简化了导入库、加载数据集甚至编写样板代码等任务。
谷歌团队表示:“值得信赖的测试人员对数据科学代理充满热情,他们报告说,他们能够简化工作流程并比以往更快地发现见解。”
本周,这款基于人工智能的工具将向选定国家和语言的所有 18 岁及以上的 Colab 用户推出,为学者、研究人员和数据专业人士提供新的武器库。
谷歌特别关注大学和研究机构,其既定目标是“通过简单的自然语言描述生成完整、可用的 Colab 笔记本,帮助研究实验室节省数据处理和分析时间”。
数据科学代理如何工作?
该代理将数据分析简化为几个输入,有助于避免陷入常规流程。借助数据科学代理,用户可以按照以下步骤在几分钟内将想法转化为可操作的见解:
- 重新开始:打开一个空白的 Colab 笔记本。
- 添加您的数据:上传您想要分析的数据集。
- 描述您的目标:在 Gemini 侧面板中,用自然语言描述您要实现的目标。例如,您可以使用“可视化趋势”、“构建和优化预测模型”、“填写缺失值”或“选择最佳统计技术”等短语进行提示。
- 观看魔术的展开: AI 工具从那里接管,生成所有必要的代码,加载任何所需的库,并准备适合您用例的工作 Colab 笔记本。
简而言之,谷歌的数据科学代理不仅仅是生成简单的代码片段,它还提供可随时执行的功能齐全、可重现的笔记本。
对于那些花费数小时进行设置和调试代码,或仔细研究数据集以决定从哪里开始的人来说,数据科学代理提供了一个优雅的解决方案,其优点包括:
- 时间效率:绕过繁琐的设置任务,直接专注于数据探索和洞察。
- 功能齐全的解决方案:接收完整的、可执行的笔记本,而不仅仅是代码片段。
- 定制和协作:轻松调整生成的笔记本以满足您的特定需求,并通过 Colab 的协作功能与队友分享您的发现。
- 改进的多步推理:数据科学代理在 HuggingFace DABStep 基准上排名第 4,超越了其他知名系统,如由 GPT-4.0 和 Claude 3.5 Haiku 驱动的 ReAct 代理。
通过自动化大部分数据分析,Google 正在让强大的工具变得可用。话虽如此,Google 公开指出,数据科学代理并非万无一失。失误是有可能的,它生成的代码有时可能需要进一步改进。
数据科学代理标志着人工智能在简化和增强数据工作流程方面的一个里程碑。谷歌还希望围绕该工具建立一个充满活力的社区。我们鼓励爱好者通过 Google Labs 的 Discord 社区频道分享他们的反馈和经验。
与任何 AI 模型一样,仔细检查结果的准确性和可靠性总是明智之举,尤其是在做出关键决策时。