Swish 激活函数简介
Swish 激活函数是一种在深度学习中广泛使用的激活函数,它最初作为 Sigmoid-weighted Linear Unit (SiLU) 在 GELU 论文中被提出。本文将介绍 Swish 的数学原理及其应用,并通过与其他激活函数的对比,分析其性质。1. 简介
在深度神经网络中,激活函数的选择对模型性能有着重要影响。从 Sigmoid 到 ReLU,再到 GELU,激活函数的发展体现了深度学习领域对非线性变换的不断探索。Swish 作为一个相对较新的激活函数,最初以 Sigmoid-weighted Linear Unit (SiLU) 的形式在 GELU 论文中被提出,后来被 Google...
GELU(Gaussian Error Linear Unit)激活函数简介
GELU 在深度学习领域,特别是在 BERT、GPT 等大型语言模型中有比较多的应用。本文介绍了 GELU(Gaussian Error Linear Unit)激活函数的理论和应用。从概率论视角出发,推导了 GELU 的数学形式及其导数,并通过与 ReLU、ELU 等经典激活函数的对比,分析了 GELU 的特性。1. 简介
在深度学习的发展历程中,激活函数扮演着至关重要的角色。从早期的 Sigmoid 到广泛使用的 ReLU,激活函数的选择直接影响着神经网络的性能。GeLU (Gaussian Error Linear Unit) 作为一种新型激活函数,在多个领域都展现出了优异的性能,并在 BERT、GPT 等大型语言模型中得到广泛应用。
概率视角
从概率视角看,GELU...
论文笔记:Linear Attention Mechanism: An Efficient Attention for Semantic Segmentation
由于经典的 Dot product Attention 具有较大的空间和时间复杂度,虽然效果很好,但由于图像和视频输入的数据量经常比文字大很多,这种经典的 Attention 限制了在高分辨率图像中的应用。本文提出了一种线性的 Attention 模块,希望能够解决这样的问题同时在性能上不会有明显的损耗。
本文主要贡献点有:
1)提出了一种新的线性化 Attention 方式,能够将计算复杂度从 降低到
2)该 Attention 机制使得 Attention 与网络的结合更加通用和灵活;
3)在语义分割任务中,该 Attention 机制的引入在多种 baseline 上获得了性能提升。
1 METHODOLOGY
A. Definition of Dot-Product Attention
给定一个输入的特征向量 ,其中 代表特征长度, 代表特征维度。那么 Dot-Product Attention...
论文笔记:Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics
Multi-Task Learning (MTL) 问题一个典型方法就是把所有的 Loss 放在一起优化,但是往往又需要设置不同权重。传统方法中往往根据不同 Loss 的量级等人为分析、实验等设置合理的权重,但是取得理想效果往往需要大量工作。本文提出了一种使用 Uncertainty 自动学习权重的方式。
如下图展示了一个典型的 Multi-Task Learning 的场景,同时学习 Semantic、Instance 和 Depth,这一场景包含了分类、特征学习、回归任务,比较典型,也是本文的示例:本文主要创新点如下:
1)一种创新的原则,利用同方差不确定性的多任务学习方法
2)一个统一的用于学习 semantic segmentation, instance segmentation 和 depth regression 的框架
3)展示了通过学习方法获得权重的有效性
1 Multi Task...
Differentiable Optimization 工作整理
在深度学习中,可微(Differentiable)是一个很重要的环节,可微意味着能够进行训练。在 SLAM 和很多 3D 系统中,后端往往伴随着大量的在线优化(Optimization)算法,这些算法对于整个 pipeline 很重要,如果要进行 End-to-end 学习的话,如果随意用回归之类的方法代替优化,往往不能取得满意的效果。一个比较简单直接的思想也就是把优化部分进行可微化,这样就可以比较容易地进行替换。
目前基于将优化算法可微化的论文和开源工作感觉还比较有限,这里就看到的一些进行整理,大家如果有相关工作欢迎留言补充。...
[DNN] 《神经网络与深度学习》中文版及代码下载
Michael Nielsen 大神的 《Neural Networks and Deep Learning》 网络教程一直是很多如我一样的小白入门深度学习的很好的一本初级教程。不过其原版为英文,对于初期来说我们应该以了解原理和基本用法为主,所以中文版其实更适合初学者。幸好国内有不少同好辛苦翻译了一个不错的中文版本,并且使用 LaTex 进行排版以方便阅读。
教材下载:
这本书的中文版本如下:
nndl-ebook.pdf
其官网如下:
https://github.com/zhanggyb/nndl
源码下载:
原作者同时提供了书中的示例代码,这是我们学习的好工具,可惜其使用 Python 2.x 开发:
https://github.com/mnielsen/neural-networks-and-deep-learning
如果您更熟悉 Python 3.x 版本,可以使用我这里修改的版本:
https://github.com/skylook/neural-networks-and-deep-learning...