0%

来源:中国计算机学会推荐 国际学术会议与期刊目录

官网蓝底亮瞎眼,所以弄了个好看点的。

中国计算机学会推荐国际学术 期刊

A 类

序号 刊物简称 刊物全称 出版社 网址
1 AI Artificial Intelligence Elsevier http://dblp.uni-trier.de/db/journals/ai/
2 TPAMI IEEE Trans on Pattern Analysis and Machine Intelligence IEEE http://dblp.uni-trier.de/db/journals/pami/
3 IJCV International Journal of Computer Vision Springer http://dblp.uni-trier.de/db/journals/ijcv/
4 JMLR Journal of Machine Learning Research MIT Press http://dblp.uni-trier.de/db/journals/jmlr/
Read more »

图像语义分割的深度学习方法发展到现在,一个通用的框架基本确定了,即如下图所示:

通用框架图

其中, FCN 表示各种全卷积网络,CRF 为条件随机场,MRF 为马尔科夫随机场

前端使用 FCN 进行特征粗提取,后端使用 CRF/MRF 优化前端的输出,最后得到分割图。在前一篇关于语义分割的总结中,我已经把前端的不同架构大致总结了,这篇主要介绍后端优化方法。

Read more »

quantitative assessments: 量化评价

the relentless success of: 持续地成功

boundary localization: 边界定位

boundary delineation: 边界描绘

the majority of: 大量

match the criteria: 符合标准, 匹配条件

topologically identical: 结构, 拓扑相等

consist of: 由…组成

be incorporated into: 使成为…的一部分

trade-off: 权衡, 折衷

pros and cons: 优点和缺点

Read more »

在基于词语的语言模型中,我们使用了循环神经网络。它的输入是一段不定长的序列,输出却是定长的,例如一个词语。然而,很多问题的输出也是不定长的序列。以机器翻译为例,输入是可以是英语的一段话,输出可以是法语的一段话,输入和输出皆不定长,例如

英语:They are watching.

法语:Ils regardent.

当输入输出都是不定长序列时,我们可以使用编码器—解码器(encoder-decoder)或者 seq2seq。它们分别基于 2014 年的两个工作:

以上两个工作本质上都用到了两个循环神经网络,分别叫做编码器和解码器。编码器对应输入序列,解码器对应输出序列。

seq2seq 示意图:

seq2seq

Read more »

自然语言是一套用来表达含义的复杂系统. 在这套系统中,词是表义的基本单元. 在机器学习中,使用词向量来表示词. 顾名思义,词向量是用来表示词的向量,通常也被认为是词的特征向量. 近年来,词向量已逐渐成为自然语言处理的基础知识.

word_scatter

一个很自然的想法就是使用 one-hot 向量表示词, 假设词典中不同词的数量为 $N$ ,每个词可以和从 0 到 $N-1$ 的连续整数一一对应。假设一个词的相应整数表示为 $i$ ,为了得到该词的 one-hot 向量表示,我们创建一个全 0 的长为 $N$ 的向量,并将其第 $i$ 位设成 1 。然而,使用 one-hot 词向量并不是一个好选择。一个主要的原因是,one-hot 词向量无法表达不同词之间的相似度。例如,任何一对词的 one-hot 向量的余弦相似度都为 0 。

Read more »

传统的前馈神经网络的输入是时间无关的,它可以很方便地提取图像的特征,但是却无法处理时间序列数据,因为它无法捕捉前一个输入与后一个输入之间的联系,而这种联系在时间序列数据中至关重要. 为了处理序列数据,循环神经网络 (RNN) 应运而生.RNN 于 1980 年诞生, 我们知道,一个三层的前馈神经网络可以学到任何的函数,而RNN则是 “turing-complete” 的,它可以逼近任何算法. RNN 每一层不仅输出给下一层,同时还输出一个隐含状态,给当前层在处理下一个样本时使用, 理论上,RNNs能够对任何长度的序列数据进行处理. 下图展示了前馈神经网络与循环神经网络的区别.

rnn_1

Read more »

语义分割一直是计算机视觉领域非常重要的研究方向,随着深度学习的发展,语义分割任务也得到了十足的进步, 本文从论文出发综述语义分割方法.

语义分割是指像素级的图像理解,即对图像中的每个像素标注所属的类别。示例图如下所示:

seg_pic

左图:输入图像;右图:图像的语义分割结果(源于:PASCAL VOC2011 Example SegmentationsPASCAL VOC2011 Example Segmentations

除了识别图中的摩托车和车手外,我们还要标注每个目标的边界。因此,不同于图像分割,语义分割需要模型能够进行密集的像素级分类。

其中,VOC2012MSCOCO 是语义分割领域重要的数据集。

Read more »

目前深度学习中关于物体识别的问题总共有四大类,从最简单的 图像分类 (Image classification) 到 物体定位 (Object Localization),再到 语义分割 (Semantic Segmentation),最后到难度最高的 实例分割 (Instance Segmentation)。在这四大类问题中,Object Detection 一般指第二类,也即是物体定位问题。物体定位问题在整个物体识别技术线中处于承前启后的地位,它的难度要比单纯的图片分类问题复杂许多,而其运用却是最广泛的。目前领域内的研究者在 Object Detection 问题上进行了很多探索,也取得了许多阶段性的成果。 (Object Detection 相关研究的整理详见这篇 博文,作者整理的很详细)。本篇博文按时间顺序,介绍了 Object Detection 的几篇有代表性的论文,重点介绍论文的思路与方法。

Object Detection

上图清楚说明了image classification, object detection, semantic segmentation, instance segmentation之间的关系. 摘自 COCO dataset

Read more »

图像增强

图像增强是通过一系列的随机变化生成大量“新”样本,从而减低过拟合的可能的技术。现在在深度神经网络中,特别是当训练数据量不充足时,图像增强是必不可少的一部分。

常用的图像增强方法有以下几种:

  • 变形:水平方向翻转图片是最早也是最广泛使用的一种增广
  • 随机裁剪:卷积层对目标位置敏感
  • 颜色变化:一般有改变亮度,调整色调等

随机截取一般会缩小输入的形状,如果原始输入图片过小,导致没有太多空间进行随机裁剪,通常做法是先将其放大的足够大的尺寸。所以如果你的原始图片足够大,建议不要事先将它们裁到网络需要的大小。

实验时通常会将数个增强方法一起用,图像增强通常只增对训练数据,对于测试数据则用得较小。后者常用的是做5次随机剪裁,然后将5张图片的预测结果做均值。

Read more »