Yudong's Blog

CTC Algorithm Explained Part 2：Decoding the Network（CTC算法详解之解码篇）

03/31/2019 yudonglee Comments 26 comments

转载本文请注明出处：https://xiaodu.io/ctc-explained 作者：yudonglee 本文总共分为五部分来全面阐述CTC算法（本篇为Part 2）：Part 1：Training the Network（训练算法篇），介绍CTC理论原理，包括问题定义、公式推导、算法过程等。Part 1链接。Part 2：Decoding the Network（解码算法篇），介绍CTC Decoding的几种常用算法。Part 2链接。Part 3：CTC Demo by Speech Recognition（CTC语音识别实战篇），基于TensorFlow实现的语音识别代码，包含详细的代码实战讲解。Part 3链接。Part 4：CTC Demo by Handwriting Recognition（CTC手写字识别实战篇），基于TensorFlow实现的手写字识别代码，包含详细的代码实战讲解。Part 4链接。Part 5：Conclusion（总结展望篇），总结CTC算法的理论局限性和适用场景，以及近年来相关的最新研究动态。Part 5链接。在上一篇文章中我们详细介绍了CTC问题背景和模型训练的算法和原理，本篇是整体的第二部分，重点介绍CTC模型预测-解码算法。一般在分类问题中，训练好模型之后，模型的预测过程非常简单，只需要加载模型文件从前到后执行即可得到分类结果。但在序列学习问题中，模型的预测过程本质是一个空间搜索过程，也称为解码，如何在限定的时间条件下搜索到最优解是一个非常有挑战的问题。下面，我们来详细介绍CTC的解码算法。…

CTC Algorithm Explained Part 1：Training the Network（CTC算法详解之训练篇）

07/20/2018 yudonglee Comments 63 comments

转载本文请注明出处：https://xiaodu.io/ctc-explained作者：yudonglee 现实应用中许多问题可以抽象为序列学习（sequence learning）问题，比如词性标注（POS Tagging）、语音识别（Speech Recognition）、手写字识别（Handwriting Recognition）、机器翻译（Machine Translation）等应用，其核心问题都是训练模型把一个领域的（输入）序列转成另一个领域的（输出）序列。近年来基于RNN的序列到序列模型（sequence-to-sequence models）在序列学习任务中取得了显著的效果提升，本文介绍一种RNN（Recurrent Neural Networks）的端到端训练方法——CTC（Connectionist Temporal Classification）算法，它可以让RNN直接对序列数据进行学习，而无需事先标注好训练数据中输入序列和输出序列的映射关系，打破了RNN应用于语音识别、手写字识别等领域的数据依赖约束，使得RNN模型在序列学习任务中取得更好的应用效果。本文总共分为五部分来全面阐述CTC算法（本篇为Part 1）：Part 1：Training the Network（训练算法篇），介绍CTC理论原理，包括问题定义、公式推导、算法过程等。Part 1链接。Part 2：Decoding the Network（解码算法篇），介绍CTC Decoding的几种常用算法。Part 2链接。Part 3：CTC Demo by Speech Recognition（CTC语音识别实战篇），基于TensorFlow实现的语音识别代码，包含详细的代码实战讲解。Part…