KAN一经发布就伴随着铺天盖地的宣传,很多媒体将其称为下一代神经网络,让我们来看看KAN和MLP的区别吧。
本篇文章不属于笔者自己的思考,而是总结了b站博主的视频介绍,有兴趣也可以转移到原视频:【KAN网络】非线性空间美学的崛起,傅里叶级数转世泰勒展开重生
文章从以下四点进行概述:
- 1 KAN和MLP的本质区别?
- 2 KAN的核心原理和主要思想?
- 3 为什么KAN拥有很好的准确性和可解释性?
- 4 当前的缺点和对AI领域的深远影响?
1 KAN和MLP的本质区别?
MLP的本质是输入的线性组合外套一个激活函数实现非线性,将线性空间不断变换扭曲成非线性空间。
MLP的硬伤:
- 1 激活函数固定。
- 2 激活函数的脆弱导致一旦激活值为0或者无穷大会导致梯度消失或者梯度爆炸导致反向传播失败。
- 3 线性组合较为简单,学习东西需要庞大的参数量。
KAN的改进:对输入直接进行激活非线性变换然后再组合。
2 KAN的核心原理和主要思想?
KAN(x) = (theta_3*theta_2*theta_1)(x)
非线性表征能力大大提神
3 为什么KAN拥有很好的准确性和可解释性?
MLP通过增加网络宽度和深度提升性能(拟合的过程在调整权重W)。
KAN通过查看激活函数实现可解释(拟合的过程在调整曲线激活函数)。
4 当前的缺点和对AI领域的深远影响?
- 1 官方代码工程化不足。
- 2 核心K-A表示定理能否扩展到深层网络。