|
大模型结构的进化(一):LLaMA 3.1结构及影响解析 张俊林 · 3 月前 |
|
关于Scaling Law、半合成数据、MOE及长文本 张俊林 · 5 月前 |
|
技术神秘化的去魅:Sora关键技术逆向工程图解 张俊林 · 8 月前 |
|
Sora能作为物理世界模拟器吗 张俊林 · 8 月前 |
|
大模型“涌现现象”存在吗 张俊林 · 10 月前 |
|
大语言模型为何拥有智能 张俊林 · 10 月前 |
|
大模型训练和进化之路|AI 盐沙龙实录 张俊林 · 1 年前 |
|
世界的参数倒影:为何GPT通过Next Token Prediction可以产生智能 张俊林 · 1 年前 |
|
当前炼制“大语言模型”的两个现象 张俊林 · 1 年前 |
|
大语言模型的涌现能力:现象与解释 张俊林 · 1 年前 |