入门阶段

1

基础概念与理论

具身智能的定义与范围

核心定义

具身智能（Embodied Artificial Intelligence，简称EAI）是指一种基于物理身体进行感知和行动的智能系统，其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动，从而产生智能行为和适应性。

关键特征

物理实体：具有物理身体或虚拟身体的表示
感知-行动循环：能够感知环境并采取行动影响环境
交互学习：通过与环境的交互获取知识和技能

适应性：能够适应环境变化和新任务
多模态：整合视觉、听觉、触觉等多种感知模态

研究范围

机器人学习：机器人如何通过交互学习技能
具身认知：智能体如何通过身体体验形成认知
多模态交互：结合视觉、语言、动作的交互系统

具身导航与探索：在物理空间中的自主移动和探索
物体操作与交互：抓取、移动、重排物体等物理交互

具身智能与传统AI的区别

传统AI（非具身智能）特点

主要处理抽象数据和符号
依赖预先标注的静态数据集
缺乏与物理世界的直接交互
通常专注于单一模态（如纯文本或纯图像）
学习与执行分离

具身智能的差异化特点

强调身体与环境的交互
通过主动探索获取数据
学习与执行紧密结合
整合多种感知和行动模态
更接近人类和动物的自然智能形式

对比案例

方面	传统AI（如ChatGPT）	具身智能（如家用服务机器人）
数据来源	互联网文本和图像	实时传感器数据和交互经验
学习方式	大规模数据预训练	交互式探索和任务导向学习
输出形式	文本、图像等信息	物理动作和环境改变
适应能力	依赖已见过的数据模式	能适应新环境和任务变化
身体限制	几乎没有物理限制	受物理约束和能源限制

2

编程与工具基础

实践提示： 编程和工具使用是具身智能学习的重要基础，建议通过实际操作和小项目来熟悉这些工具，而不仅仅是阅读文档。

Python编程

Python是具身智能研究中最常用的编程语言，具有丰富的库和工具生态系统。

数据类型与变量
控制流（条件、循环）
函数与模块
NumPy、Pandas等科学计算库

学习资源

深度学习框架

PyTorch和TensorFlow是两个主要的深度学习框架，用于构建和训练神经网络模型。

张量操作
自动微分
神经网络模块
模型训练与评估

学习资源

机器人仿真环境

仿真环境允许在虚拟世界中测试和训练机器人，是具身智能研究的重要工具。

Gazebo入门
PyBullet基础
物理引擎基础
模型创建与导入

学习资源

ROS基础

机器人操作系统(ROS)是一个灵活的框架，用于编写机器人软件和集成不同组件。

节点与话题
服务与动作
工作空间设置
常用工具(rviz, rqt)

学习资源

4

入门级项目实践

学习建议： 项目实践是巩固理论知识、培养实际技能的最佳方式。建议选择一个与您兴趣相符的项目，从头到尾完成，以建立信心和实践经验。

基于仿真环境的简单导航任务

难度：入门级时间：2-3周 Python, ROS

实现机器人在仿真环境中的自主导航，包括环境感知、路径规划和控制执行。

项目目标

搭建Gazebo仿真环境
实现简单的SLAM算法
实现基础路径规划
完成点到点导航任务

学习要点

机器人定位与地图构建基础
路径规划算法实现
传感器数据处理
ROS节点间通信

查看完整项目

图像识别在具身场景中的应用

难度：入门到中级时间：3-4周 Python, OpenCV, PyTorch

实现机器人识别环境中的物体并做出响应，将计算机视觉与机器人控制结合。

项目目标

训练/微调物体识别模型
在仿真环境中部署视觉系统
实现基于识别结果的简单行为
评估系统在不同条件下的性能

学习要点

计算机视觉模型应用
迁移学习技术
视觉感知与行为映射
实时处理优化

查看完整项目

完成入门阶段后的下一步

恭喜您完成入门阶段的学习！以下是您可以考虑的下一步学习路径：

进入进阶阶段

深入学习核心技术，如深度强化学习、多模态感知与融合、视觉-语言-动作模型等。

进入进阶阶段

探索特定主题

根据您的兴趣和目标，深入探索特定主题，如强化学习、计算机视觉或机器人控制。

浏览主题

阶段目标

先决条件

学习路径导航

学习进度

基础概念与理论

具身智能的定义与范围

核心定义

关键特征

研究范围

具身智能与传统AI的区别

传统AI（非具身智能）特点

具身智能的差异化特点

对比案例

编程与工具基础

Python编程

深度学习框架

机器人仿真环境

ROS基础

入门级项目实践

基于仿真环境的简单导航任务

项目目标

学习要点

图像识别在具身场景中的应用

项目目标

学习要点

推荐学习资源

课程资源

CS231n: Convolutional Neural Networks

CS224n: Natural Language Processing

Introduction to Robotics

书籍资源

《人工智能：一种现代方法》

《深度学习》

《机器人学导论：分析、控制与应用》

完成入门阶段后的下一步

进入进阶阶段

探索特定主题

入门阶段

阶段目标

先决条件

学习路径导航

学习进度

基础概念与理论

具身智能的定义与范围

核心定义

关键特征

研究范围

具身智能与传统AI的区别

传统AI（非具身智能）特点

具身智能的差异化特点

对比案例

相关学科基础

人工智能导论

人工智能的定义与范式

AI的主要研究领域

机器学习基础

机器学习的基本概念

核心算法与模型

编程与工具基础

Python编程

深度学习框架

机器人仿真环境

ROS基础

入门级项目实践

基于仿真环境的简单导航任务

项目目标

学习要点

图像识别在具身场景中的应用

项目目标

学习要点

推荐学习资源

课程资源

CS231n: Convolutional Neural Networks

CS224n: Natural Language Processing

Introduction to Robotics

书籍资源

《人工智能：一种现代方法》

《深度学习》

《机器人学导论：分析、控制与应用》

完成入门阶段后的下一步

进入进阶阶段

探索特定主题