Heptari

[Home] [All] [About]

ARM Cortex-M
STM32
FreeRTOS
- FreeRTOS 源码架构
- FreeRTOS 移植
- FreeRTOS From Scratch
  - 工程建立
  - 项目框架
  - Source Walkthrough
    
    Event.h & Event.c
    List.h & List.c
    Mempool.h & Mempool.c
    Task.h & Task.c
    总览
    
    Portable Layer
    
    Port.h & Port.c
Zephyr RTOS
- Zephyr IDE Tools
- Zephyr 入门配置
- Zephyr 工作逻辑
- Zephyr 项目结构
- Zephyr in Practice
  - Zephyr 项目配置和调试
  - Zephyr 编写设备树文件
  - Zephyr 自定义 BSP
  - Zephyr Core Reference
    
    Condvar
    Poll
    Semaphore
    Thread
    Work
    Work queue
  - Zephyr Peripherals Reference
    
    ADC
    GPIO
    I2C
    PWM
    SPI
    UART
AUTOSAR
- AUTOSAR Practice
  - EB Tresos Mcal 最小系统搭建
  - S32DS集成FreeRTOS配置日志
  - 漩涡遨游资料踩坑
  - 环境配置
  - MCAL Modules
    
    Dio
    Gpt
    Mcu
    Port
    Pwm
    Uart
    总览
- AUTOSAR Theory
  - AUTOSAR 概论
  - MCAL
    
    Mcu
  - Methodology & Templates
    
    BSW Module Description Template
    Software Component Template
SLAM
- RTAB-Map 视觉 SLAM 建图
Unitree G1
Reinforcement Learning
Edge AI
Misc
- Bash
- CMake & Makefile
- Git & Remote Hosts
- Linux Architecture
- VS Code 使用 Clangd
- 学习路径
- Languages
Poetry & Prose

Reinforcement Learning/PPO 和策略梯度

PPO 和策略梯度

为什么 DQN 不适合连续控制

Policy gradient

PPO

rollout

advantage

stable_baseline3

Last modified: 2026-05-24

← MuJoCo 和连续控制 PPO 训练 →

GitHub · Email

© Heptari · Content CC BY-SA 4.0 · Code MIT