lsamc
1
最近我在想, 我们社团的一贯技术分享模式是通过亿周一次的教学例会
然而一个人接受新事物往往是一个循序渐进地, 缓慢地过程: 也就是说, 除非这人曾经接触过类似的东西, 对此问题已经有一定的思考和理解, 否则很难在两小时内极限地学会一项新东西, 并投入使用. 复杂的概念和技术,尤其如此。
总结经验,我认为这是许多初学者在教学例会上容易跟不上, 听不懂的重点: 哪怕分享者讲的再细, 大家都是需要一定时间来理解, 思考(或者说在大脑里编译)这项技术知识的
然而, 俗话说"通透地理解一项技术意味着你能把它给你外祖母讲懂"; 作为一项新兴(?)技术, 我想是否可以在这里给大家带来一些技术文章, 从最小的玩具出发, 将我理解的RL(reinforcement learning,强化学习)技术片段分享给大家看, 从而帮助一直觉得此领域神秘的新人朋友们获得一个初始理解; 也和论坛里的各位大佬交流下,看看我有没有什么理解偏漏,需要指正的地方
所以, 下一篇文章可能是: “从玩具代码出发理解GRPO”, 大家想看吗
- 我还不大懂, 太想看辣
- 可以期待下, 虽然我会了
- 感觉不用写,网上这种文章太多了
- 啥啊能不能写点有用的啊bro(x
1 个赞
不过我自己看GRPO的东西,我觉得如果你没有深度学习基础和强化学习基础的话,真的挺难理解的?我自己网上找教程看的都不理解。还是把强化学习的基本概念理解了之后看cs336的视频理解就顺畅多了
1 个赞
lsamc
3
1 个赞
QQQWQ
4
好哇好哇,不过我对于最终的效果有一个要求(对我来说很重要): 不能是用传统代码可以简单完成的任务,比如训练一个动点画圆这种
lsamc
5
既然是简单代码讲grpo,怎么会能做出极复杂的内容
我要讲的东西真的,真的非常简单
但是确实是grpo且通用拓展,但是麻雀虽小五脏俱全
嗯,这么想的话,拓展后就确实不是普通代码能做到的了;无论如何,这是机器学习
更复杂的用法可以由各位大佬来示范啦(
QQQWQ
6
不用太复杂,但是不要过于简单,用一个上万参数的模型来判断一个点在不在抛物线上方或者让一个点走直线实在是有点滑稽不是吗?
至少也要走走迷宫之类的
,我确实是有点这个执念,不知道大家怎么想。
lsamc
7
1 个赞
这个方向很赞,支持开写!
我建议可以按“最小可跑 → 稍微真实一点”的节奏来:
1. 先用超小玩具环境讲清楚 GRPO 的核心目标和更新逻辑(把符号和代码一一对齐)
2. 再给一个稍复杂但仍可复现的小任务(比如迷宫/规则推理)
3. 最后补一个“常见踩坑清单”(奖励设计、采样温度、KL/稳定性、评估指标)
这样新手能跟下来,已经会的人也能快速对照自己的实现。期待更新~
lsamc
9
大家怎么都不投票哇!
23阅览量,但是只有8投票太过分了www
让我们看看有没有可能有15个人想看 
lsamc
10
btw 如果大家身边有想了解相关知识(RL/GRPO)的同学, 可以骗ta邀请ta来注册我们的论坛参与参与嘿嘿; 不是AIA的社员也没关系~
1 个赞
哇这个投票怎么点一下就直接确定了..我还没选好随便点点就投了
qzero
12
好耶,特别想复现那个强化学习训练狼抓羊,最后收敛到开局就找石头撞死的经典例子 
1 个赞
lsamc
13
太棒辣,居然有足足18人围观(要知道上个月抽奖都只有19人/樂)
那预告一下,我将在最近来一篇试试水
敬请期待~
当然,欢迎大家也能想本楼其他uu那样,提出你们想听的内容