交叉熵损失的反向传播

本文详细推导了在多分类问题中,结合Softmax激活函数和交叉熵损失函数的反向传播过程。文章从定义Softmax和交叉熵损失开始,逐步计算了损失对网络输出的偏导,以及Softmax函数对其输入的偏导(雅可比矩阵)。最终通过链式法则,得出了一个简洁而优美的结论:损失对Softmax层输入的梯度等于模型的预测概率与真实标签之差(ŷ - y)。

Korbin 发布于 2019-10-02

矩阵中的求导

本文简要介绍了矩阵微积分中的两种基本求导运算。第一种是标量对向量求导,其结果是一个行向量,包含了该标量对向量中每个元素求偏导数的值。第二种是向量对向量求导,其结果是一个雅可比(Jacobian)矩阵,矩阵的每一列是输出向量中的一个分量对输入向量求导的结果。文章明确了求导结果的维度和布局约定。

Korbin 发布于 2019-10-02

nvidia显卡驱动错误

本文记录了一次解决Linux系统下Nvidia显卡驱动错误的经历。在使用`bumblebee`进行双显卡切换时,`optirun`命令报错“Failed to load module "nouveau"”。作者通过修改`/etc/bumblebee/xorg.conf.nouveau`文件,取消对`BusID`的注释并正确指定显卡PCI地址,最终成功禁用了nouveau开源驱动,并加载了nvidia专有驱动。

Korbin 发布于 2019-09-09

基于统计的分词方法

本文主要介绍了基于统计的中文分词方法。首先讲解了N-gram语言模型(一元、二元、三元)的基本原理。接着,重点阐述了隐马尔可夫模型(HMM)在分词中的应用,详细定义了HMM的五个核心参数,并概述了其三大基本问题:概率计算、学习问题和解码问题,以及对应的算法(前向后向、鲍姆-韦尔奇、维特比),最后还对比了HMM、MEMM和CRF模型的特点。

Korbin 发布于 2019-09-08

神经图灵机

本文解读了神经图灵机(Neural Turing Machine, NTM)的核心机制。NTM通过一个外部记忆矩阵增强了神经网络的能力。文章详细介绍了其读、写操作过程,关键在于一个可微的定位向量(addressing vector)。该向量的生成结合了基于内容的寻址(通过余弦相似度)和基于位置的寻址(通过插值、循环卷积偏移和重塑),使得模型能够端到端地学习访问和修改记忆。

Korbin 发布于 2019-09-07

小样本学习的边缘标签图神经网络

本文解读了论文《Edge-Labeling Graph Neural Network for Few-shot Learning》。该方法将小样本分类问题转化为图节点标签预测任务,通过构建一个边标签图来学习样本间的关系。文章介绍了模型的核心思想:利用卷积网络提取特征,构建图结构,并通过图神经网络的邻域聚合框架迭代更新节点和边的特征,最终预测查询样本的类别。

Korbin 发布于 2019-09-06

记一次GRUB引导修复

本文记录了一次在Arch Linux与Windows 10双系统环境下,因Windows更新和修复导致GRUB引导丢失的修复过程。作者在尝试多种方法失败后,最终通过在`grub-install`命令中添加`--removable`参数,或手动将GRUB文件移动到缺省/后备启动路径(EFI/BOOT/BOOTX64.EFI),成功解决了引导卡在`GRUB _`闪烁的问题,恢复了系统启动。

Korbin 发布于 2019-09-03

深度学习在中文分词和词性标注中的应用

本文概述了一种结合深度学习进行中文分词和词性标注的方法。其核心流程是:先将字转换为字向量,通过窗口方法获得包含上下文信息的向量,再经过神经网络层得到每个字的标签得分。模型引入了标签间的转移分数,并使用维特比(Viterbi)算法在全局上寻找最优的标签序列路径,通过最大化对数似然函数进行端到端的训练。

Korbin 发布于 2019-08-25

OWL基础

本文介绍了Web本体语言(OWL)的基础知识。内容涵盖了OWL的基本元素,如类、个体和属性,并解释了其与RDF的关系。文章还详细介绍了RDF的多种��列化方法,包括RDF/XML、N-Triples、Turtle、RDFa和JSON-LD,并以RDF/XML和Turtle为例展示了具体的语法格式和使用方法,为理解语义网技术提供了入门指导。

Korbin 发布于 2019-08-22

sklearn中的广义线性���型

本文概述了scikit-learn库中的多种广义线性模型。内容从普通最小二乘法(LinearRegression)开始,依次介绍了岭回归(Ridge)、Lasso回归、多任务Lasso(MultiTaskLasso���、弹性网络(ElasticNet)以及多任务弹性网络(MultiTaskElasticNet)。文章对每种模型的目标函数进行了数学公式的展示,并解释了关键参数(如α���ρ)的作用,为理解和选择线性模型提供了清晰的指导。

Korbin 发布于 2019-08-20
上一页 下一页