RL

offline RL | Pessimistic Bootstrapping (PBRL)：在 Q 更新中惩罚 uncertainty，拉低 OOD Q value

critic loss = ① ID 数据的 TD-error + ② OOD 数据的伪 TD-error，① 对所转移去的 (s',a') 的 uncertainty 进行惩罚，② 对 (s, a_ood) 的 uncertainty 进行惩罚。 ......

Bootstrapping Pessimistic uncertainty offline value更新时间 2023-12-17

offline RL | BCQ：学习 offline dataset 的 π(a|s)，直接使用 (s, π(s)) 作为 Q learning 训练数据

① 使用 VAE 建模 offline dataset 的 π(a|s)，② 添加一个可以学习的 action 扰动 ξ，③ 用 (s, a=π(s)+ξ, r, s') 做 Q-learning。 ......

offline learning dataset 数据 BCQ更新时间 2023-11-27

offline RL | IQL：通过 sarsa 式 Q 更新避免 unseen actions

① 通过 (s,a,r,s',a') 更新 Q function，② 通过 Q 和 V 交替迭代，避免过拟合 s'~p(s'|a) 的随机好 s'，误以为 a 是好 action，③ 通过 AWR 从 Q function 提取 policy。 ......

offline actions unseen sarsa IQL更新时间 2023-11-25

offline RL | TD3+BC：在最大化 Q advantage 时添加 BC loss 的极简算法

① 在 actor 最大化 Q advantage 时，纳入一个 behavior cloning loss； ② observation 归一化；③ 让 Q advantage 跟 behavior cloning 的 loss 可比。 ......

算法 advantage offline BC loss更新时间 2023-11-19

适合家电和消费类应用R7F101GLG2DFA、R7F101GLE2DFA、R7F101GLG3CFA、R7F101GLE3CFA新一代RL78通用微控制器（MCU）

概览： RL78/G24微控制器是RL78系列MCU之中处理性能最强大的微控制器，CPU运行频率高达48MHz，搭配柔性应用加速器（FAA）。此外，它还搭载增强的模拟功能和丰富的定时器，适用于电机控制、电源和照明应用。FAA是一种运算专用的协处理器，可以独立于CPU运行，从而实现更强大的处理能力。 ......

F101 101 制器消费类 R7更新时间 2023-11-17

off-policy RL | Advantage-Weighted Regression (AWR)：组合先前策略得到新 base policy

Advantage-Weighted Regression: Simple and Scalable Off-Policy Reinforcement Learning 论文题目：Advantage-Weighted Regression: Simple and Scalable Off-Polic ......

policy Advantage-Weighted off-policy Regression Advantage更新时间 2023-11-13

RLHF · PBRL | 发现部分 D4RL tasks 不适合做 offline reward learning 的 benchmark

发现对于很多任务，（只要给出专家轨迹），将 reward 设为 0 或随机数，也能学出很好 policy，证明这些任务不适合用来评测 reward learning 的性能好坏。 ......

benchmark learning offline 部分 reward更新时间 2023-11-13

off-line RL | CQL：魔改 Bellman error 更新，得到 Q 函数 lower-bound

论文题目： Conservative Q-Learning for Offline Reinforcement Learning CQL 是师兄盛赞的一篇论文：“是 off-line RL 最精彩的工作之一，扭曲了 Q function，认为没看过的 Q 很有风险，把 OOD（out of dist ......

lower-bound 函数 off-line Bellman error更新时间 2023-11-07

RL 基础 | Policy Iteration 的收敛性证明

（其实是专业课作业🤣 感觉算法岗面试可能会问，来存一下档）目录问题：证明 Policy Iteration 收敛性0 Background - 背景1 Policy Evaluation converges to the value function of the given policy - ......

Iteration 基础 Policy RL更新时间 2023-11-02

一文读懂强化学习：RL全面解析与Pytorch实战

在本篇文章中，我们全面而深入地探讨了强化学习（Reinforcement Learning）的基础概念、主流算法和实战步骤。从马尔可夫决策过程（MDP）到高级算法如PPO，文章旨在为读者提供一套全面的理论框架和实用工具。同时，我们还专门探讨了强化学习在多个领域，如游戏、金融、医疗和自动驾驶等的具体应 ......

实战 Pytorch更新时间 2023-11-02

RL 基础 | Value Iteration 的收敛性证明

贝尔曼算子 BV = max[r(s,a) + γV(s')] 是压缩映射，因此 {V, BV, B²V, ...} 是柯西序列，会收敛到 V=BV 的不动点。 ......

Iteration 基础 Value RL更新时间 2023-10-24

Varibad：A very good method for bayes-adaptive deep rl via meta-learning

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Published as a conference paper at ICLR 2020 ABSTRACT 1 INTRODUCTION 2 BACKGROUND 2.1 TRAINING SETUP 2.2 BAYESIAN REINF ......

bayes-adaptive meta-learning adaptive learning Varibad更新时间 2023-09-18

【今日收获】看到关于RL的一些观点

1. MDP的最佳策略是确定性和无记忆的，一错会再错，以前发生的状态也不记得。Memory模块是正解吗？图源 https://zhuanlan.zhihu.com/p/430221668 2. 毫末吕迪对于RL现存问题的看法每个观点都很insight 强化学习领域目前遇到的瓶颈是什么? - ......

观点更新时间 2023-09-12

USB适配器应用芯片国产GP232RL软硬件兼容替代FT232RL DPU02直接替代CP2102

USB适配器，是英文Universal Serial Bus(通用串行总线)的缩写，而其中文简称为“通串线”，是一个外部总线标准，用于规范电脑与外部设备的连接和通讯。是应用在PC领域的接口技术，移动PC由于没有电池，电源适配器对其尤为重要。今天来讲讲USB适配器的国产适用芯片。一、GP232R ......

软硬适配器 232 芯片国产更新时间 2023-09-12

Q-learning and RL implementation

Aim: Train a model to properly play vintage video games... Deep Q-learning Algo~ Very short Brief of Notations: {A,pi(Policy),Q(quality of action-at a ......

implementation Q-learning learning and RL更新时间 2023-09-01

【RL】L7-Temporal-difference learning

## TD learning of state values The data/experience required by the algorithm: - $\left(s_0, r_1, s_1, \ldots, s_t, r_{t+1}, s_{t+1}, \ldots\right)$ or ......

L7-Temporal-difference difference Temporal learning L7更新时间 2023-08-13

【RL】CH2-Bellman equation

### the discounted return $$ \begin{aligned} G_t & =R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\ldots \\ & =R_{t+1}+\gamma\left(R_{t+2}+\gamma R_{t+3}+\l ......

CH2-Bellman equation Bellman CH2 CH更新时间 2023-08-13

【RL】CH1-Basic Concepts

# 1.7 Markov decision processes This section presents these concepts in a more formal way under the framework of Markov decision processes (MDPs). An ......

CH1-Basic Concepts Basic CH1 CH更新时间 2023-08-13

【RL】第6课-随机近似与随机梯度下降-

第6课-随机近似与随机梯度下降 ## 6.1 Motivating examples ## Mean Estimation Revisit the mean estimation problem: - Consider a random variable $X$. - Our aim is to e ......

梯度更新时间 2023-08-12

PTE RL

实词重点词已经把高频刷得很熟再去泛听不要在意语法逻辑读到滚瓜烂熟如果没有30 再重头说写实词反复出现的实词不靠逻辑把词语填进去每个空不超过两个不要卡顿读重读慢的尽量抓出来重复模板每排写两道三个单词这道题分值不高，不用放过多时间，模板流利度关键性单词 ......

PTE RL更新时间 2023-08-02

国产替代FT232RL-USB到UART桥接控制器GP232RNL

GP232RNL是一款高度集成的USB到UART桥接控制器，提供了一种简单的解决方案，可以使用最少的元器件和PCB空间，将RS232接口转换为USB接口。GP232RNL包括一个USB 2.0全速功能控制器、USB收发器、振荡器、EEPROM和带有完整的调制解调器控制信号的异步串行数据总线（UART ......

控制器 232 国产 RL-USB UART更新时间 2023-06-21

关于RL 和DRL中的算法总结

其中： RL 分为基于价值的学习和基于策略的学习和 AC 架构的 # 价值学习 ## DQN DQN = Q_learing+网络使用了价值网络 q(..w) ### DQN 训练的过程 **基础的DQN 就是训练Q网络更新w 参数** 代码中梯度下降用的是下面这一张 ![](https:/ ......

算法 DRL更新时间 2023-06-11

GP232RL—UART串口芯片兼容FT232RL国产芯片

GP232RL为接口转换芯片，可以实现USB到串行UART接口的转换，也可转换到同步、异步Bit-Bang接口模式。具备可选择的时钟产生输出，以及新的FTDIChip-ID安全加密狗功能。此外，还提供异步和同步bit bang接口模式。使用GP232RL的USB到串行设计还进一步简化集成外部EEP ......

芯片串口 232 国产 RL更新时间 2023-06-02

RL 基础 | 如何注册自定义 gym 环境

*如何搭建自定义 gym 环境*：https://www.cnblogs.com/moonout/p/17174833.html 如何注册自定义 gym 环境： - 博客：https://zhuanlan.zhihu.com/p/102920005?utm_id=0 - OpenAI Gym 给出的 ......

环境基础 gym RL更新时间 2023-05-31

ASEMI代理ADUM3223ARZ-RL7原装ADI车规级ADUM3223ARZ-RL7

编辑：ll ASEMI代理ADUM3223ARZ-RL7原装ADI车规级ADUM3223ARZ-RL7 型号：ADUM3223ARZ-RL7 品牌：ADI /亚德诺封装：SOIC-16 批号：2023+ 安装类型：表面贴装型引脚数量：16 工作温度:-40°C~125°C 类型：车规级芯片 AD ......

ARZ-RL ADUM 3223 原装 ARZ更新时间 2023-05-09

ASEMI代理ADUM3211TRZ-RL7原装ADI车规级ADUM3211TRZ-RL7

编辑：ll ASEMI代理ADUM3211TRZ-RL7原装ADI车规级ADUM3211TRZ-RL7 型号：ADUM3211TRZ-RL7 品牌：ADI/亚德诺封装：SOIC-8 批号：2023+ 引脚数量：8 工作温度：-40°C~125°C 安装类型：表面贴装型 ADUM3211TRZ-RL ......

TRZ-RL ADUM 3211 原装 TRZ更新时间 2023-05-08

ASEMI代理ADUM131E1BRWZ-RL原装ADI车规级ADUM131E1BRWZ-RL

编辑：ll ASEMI代理ADUM131E1BRWZ-RL原装ADI车规级ADUM131E1BRWZ-RL 型号：ADUM131E1BRWZ-RL 品牌：ADI /亚德诺封装：SOIC-16-300mil 批号：2023+ 安装类型：表面贴装型引脚数量：16 工作温度:-40°C~125°C 类 ......

E1BRWZ-RL 1BRWZ ADUM BRWZ 原装更新时间 2023-05-08

ASEMI代理ADUM1250ARZ-RL7原装ADI车规级ADUM1250ARZ-RL7

编辑：ll ASEMI代理ADUM1250ARZ-RL7原装ADI车规级ADUM1250ARZ-RL7 型号：ADUM1250ARZ-RL7 品牌：ADI/亚德诺封装：SOIC-8-150mil 批号：2023+ 引脚数量：8 工作温度：-40°C~105°C 安装类型：表面贴装型 ADUM125 ......

ARZ-RL ADUM 1250 原装 ARZ更新时间 2023-05-06

ASEMI代理ADI亚德诺ADAU1701JSTZ-RL车规级芯片

编辑-Z ADAU1701JSTZ-RL芯片参数：型号：ADAU1701JSTZ-RL 模拟电源电压：3.3 V 数字电源电压：1.8 V 输入/输出电压：3.3 V 环境温度：25° C 主时钟输入：12.288 MHz 满刻度模拟输入：3.3V 输入阻抗：30 kΩ 分辨率：24 Bits 总 ......

芯片 JSTZ-RL ASEMI ADAU 1701更新时间 2023-04-23

基于RL(Q-Learning)的迷宫寻路算法

强化学习是一种机器学习方法，旨在通过智能体在与环境交互的过程中不断优化其行动策略来实现特定目标。与其他机器学习方法不同，强化学习涉及到智能体对环境的观测、选择行动并接收奖励或惩罚。因此，强化学习适用于那些需要自主决策的复杂问题，比如游戏、机器人控制、自动驾驶等。强化学习可以分为基于价值的方法和基于策 ......

迷宫算法 Q-Learning Learning RL更新时间 2023-04-21

共39篇 :1/2页 首页上一页12下一页尾页