Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene...

83
腾讯优图实验室 一键卸妆与视频超分辨率:腾讯优图ICCV 2017分享 沈小勇 腾讯优图 [email protected]

Transcript of Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene...

Page 1: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

腾讯优图实验室

一键卸妆与视频超分辨率:腾讯优图ICCV

2017分享

沈小勇

腾讯优图

[email protected]

Page 2: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

About Me (http://Xiaoyongshen.me)

• BS, MS from ZJU and PhD from CUHK• Supervisors: Prof. Ligang and Prof. Jiaya

• Three years research in CG and five years in CV

• Senior researcher in Youtu• Lead the research group

• My research is mainly on• Image filtering and restoration, matting, deblur, etc.

• Motion and depth estimation, segmentation

• Image classification, object detection and semantic segmentation, etc.

Page 3: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

优图团队立足于社交网络大平台,借助社交业务积累

的海量人脸、图片、音乐等数据,专注在人脸、图像、

音乐、语音、机器学习等领域开展技术研究,并积极

推动研究成果在业务中落地产生价值。

1 关于优图实验室-概览

人脸识别 图像识别 音频识别

Page 4: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

1 关于优图实验室-概览

研究、场景、数据三者融合

房地产

业务场景

平台数据

基础研究

图像识别

人脸识别 活体检测 美容美妆

图像处理 OCR识别

音频分析 语音合成

人体检测

人脸库 身份库 监控数据

分类图库 音乐、清唱、MIDI库

公安 税务 教育

金融 电信

旅游 互联网影像诊断

车辆识别

物体识别

政务

医疗

交通

公益

Page 5: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

1 关于优图实验室-最新技术突破

在ICDAR 2015比赛中刷新

Focused Scene Text挑战的

Text Localization项目世界纪录

2017年3月 2017年4月

在LFW无限制条件下人脸验证测试

中,优图提交的最新成绩为99.80%,

提升了上次99.65%的成绩,再次在

这一测试中刷新纪录。

2017年3月

在国际权威海量人脸识别数据库

MegaFace中,以83.290%的最新

成绩在100万级别人脸识别测试中拔

得头筹

Page 6: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

优图与ICCV

Page 7: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Makeup-Go: Blind Reversion of Portrait Edit

Page 8: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Popular Digital Editing Tools

Page 9: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

A Digital Edit Example

Page 10: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

A Digital Edit Example

Page 11: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

What is the difficulty of this task?

Page 12: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Existing CNN Cannot Remove Make-up

Kim, Jiwon, Jung Kwon Lee, and Kyoung Mu Lee. "Accurate image super-resolution using very deep convolutional networks." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.

Page 13: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Input Output

Result of Applying CNN to Remove Make-up

Page 14: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

OutputGround Truth

Result of Applying CNN to Remove Make-up

Page 15: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Output Ground Truth

Result of Applying CNN to Remove Make-up

Page 16: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Why cannot existing CNN achieve this goal?

Component Domination Effect

Page 17: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

𝐿 = 𝐹 𝑥 − 𝑦2

2

𝑥: input image patch𝐹(𝑥): network output (vectorized)𝑦: ground truth patch (vectorized)

Analysis of the Loss

⋯𝐿2 loss

Page 18: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

𝐿 = 𝑈𝑇𝐹 𝑥 − 𝑈𝑇𝑦2

2

𝑈: PCA matrix𝑈𝑈𝑇 = 𝐼

PCA Components of the Loss

⋯𝐿2 loss

Page 19: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

𝐿 = 𝑓1 𝑥 − 𝑢1𝑇𝑦

2

2+ 𝑓2 𝑥 − 𝑢2

𝑇𝑦2

2+⋯+ 𝑓𝑑 𝑥 − 𝑢𝑑

𝑇𝑦2

2

𝑓𝑖 𝑥 = 𝑢𝑖𝑇𝐹 𝑥 , 𝑖 = 1,2⋯ , 𝑑

PCA Components of the Loss

⋯𝐿2 loss

Page 20: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

𝐿 = 𝑓1 𝑥 − 𝑢1𝑇𝑦

2

2+ 𝑓2 𝑥 − 𝑢2

𝑇𝑦2

2+⋯+ 𝑓𝑑 𝑥 − 𝑢𝑑

𝑇𝑦2

2

𝑓𝑖 𝑥 = 𝑢𝑖𝑇𝐹 𝑥 , 𝑖 = 1,2⋯ , 𝑑

𝑢1𝑇𝑦

PCA Components of the Loss

Page 21: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

𝐿 = 𝑓1 𝑥 − 𝑢1𝑇𝑦

2

2+ 𝑓2 𝑥 − 𝑢2

𝑇𝑦2

2+⋯+ 𝑓𝑑 𝑥 − 𝑢𝑑

𝑇𝑦2

2

𝑓𝑖 𝑥 = 𝑢𝑖𝑇𝐹 𝑥 , 𝑖 = 1,2⋯ , 𝑑

𝑢1𝑇𝑦 𝑢2

𝑇𝑦

PCA Components of the Loss

Page 22: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

𝐿 = 𝑓1 𝑥 − 𝑢1𝑇𝑦

2

2+ 𝑓2 𝑥 − 𝑢2

𝑇𝑦2

2+⋯+ 𝑓𝑑 𝑥 − 𝑢𝑑

𝑇𝑦2

2

𝑓𝑖 𝑥 = 𝑢𝑖𝑇𝐹 𝑥 , 𝑖 = 1,2⋯ , 𝑑

𝑢1𝑇𝑦 𝑢2

𝑇𝑦 𝑢𝑑𝑇𝑦

PCA Components of the Loss

Page 23: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Our Framework

Page 24: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

𝐼𝑋

Component Regression Network

supervise

𝐼𝑌

SUM

1𝑠𝑡 subnetwork

2𝑛𝑑 subnetwork

shared subnetwork

Common network

PCA

Component Decomposition

𝐼𝑌 − 𝐼𝑋

Page 25: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Experimental Results

Page 26: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Component-level Comparison

Page 27: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Component-level Comparison

Page 28: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Component-level Comparison

Page 29: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Input Touched Image

Page 30: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Our Result

Page 31: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Ground Truth

Page 32: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Overly Touched

Page 33: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Our result

Page 34: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试
Page 35: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试
Page 36: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Not-That-Good Result

Ground Truth Touched

Page 37: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Not-That-Good Result

Ground Truth Output

Page 38: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Summary

• We discovered the component domination effect.

• We proposed a Component Regression Network to tackle the problem.

Page 39: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Detail-revealing Deep Video Super-resolution

Page 40: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Motivation

• Old and Fundamental• Several decades ago [Huang et al, 1984] → near recent

• Many Applications• HD video generation from low-res sources

40

Page 41: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Motivation

• Old and Fundamental• Several decades ago [Huang et al, 1984] → near recent

• Many Applications• HD video generation from low-res sources

• Video enhancement with details

41

Page 42: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Motivation

• Old and Fundamental• Several decades ago [Huang et al, 1984] → near recent

• Many Applications• HD video generation from low-res sources

• Video enhancement with details

• Text/object recognition in surveillance videos

42

Page 43: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Previous Work

• Image SR• Traditional: [Freeman et al, 2002], [Glasner et al, 2009],

[Yang et al, 2010], etc.• CNN-based: SRCNN [Dong et al, 2014], VDSR [Kim et al,

2016], FSRCNN [Dong et al, 2016], etc.

• Video SR• Traditional: 3DSKR [Takeda et al, 2009], BayesSR [Liu et al,

2011], MFSR [Ma et al, 2015], etc.• CNN-based: DESR [Liao et al, 2015], VSRNet [Kappeler, et

al, 2016], [Caballero et al, 2016], etc.

43

Page 44: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Remaining Challenges

• Effectiveness• How to make good use of multiple frames?

44Data from Vid4 [Ce Liu et al.]

Bicubic x4

Misalignment

Occlusion

Large motion

Page 45: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Remaining Challenges

• Effectiveness• How to make good use of multiple frames?

• Are the generated details real?

45Image SRBicubic x4

Page 46: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Remaining Challenges

• Effectiveness• How to make good use of multiple frames?

• Are the generated details real?

46Image SRTruth

Page 47: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Remaining Challenges

• Effectiveness• How to make good use of multiple frames?

• Are the generated details real?

• Model Issues• One model for one setting

47

VDSR [Kim et al., 2016] ESPCN [Shi et al., 2016] VSRNet [Kappeler et al, 2016]

Page 48: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Remaining Challenges

• Effectiveness• How to make good use of multiple frames?

• Are the generated details real?

• Model Issues• One model for one setting

• Intensive parameter tuning

• Slow

48

Page 49: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Our Method

• Advantages• Better use of sub-pixel motion

• Promising results both visually and quantitatively

• Fully Scalable• Arbitrary input size

• Arbitrary scale factor

• Arbitrary temporal frames

49

Page 50: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

50Data from Vid4 [Ce Liu et al.]

Page 51: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Our Method

• Motion Estimation

51

𝐼𝑖𝐿

𝐼0𝐿

ME

𝐹𝑖→0

Page 52: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Our Method

• Sub-pixel Motion Compensation (SPMC) Layer

52

𝐼𝑖𝐿

𝐼0𝐿

ME

𝐹𝑖→0

SPMC

Page 53: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Our Method

• Detail Fusion Net

53

𝐼𝑖𝐿

𝐼0𝐿

ME

𝐹𝑖→0

SPMC Encoder DecoderConvLSTM

𝑡 = 𝑖 − 1

𝑡 = 𝑖 + 1

skip connections

Page 54: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

54

𝐼𝑖𝐿

𝐼0𝐿

ME

𝐹𝑖→0

SPMC EncoderConvLSTM

𝑡 = 𝑖 − 1

𝑡 = 𝑖 + 1

skip connections

Input size:

Fully convolutional

Arbitrary Input Size

Decoder

Page 55: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Arbitrary Scale Factors

55

2× 3× 4×

ParameterFree

𝐼𝑖𝐿

𝐼0𝐿

ME

𝐹𝑖→0

SPMC EncoderConvLSTM

𝑡 = 𝑖 − 1

𝑡 = 𝑖 + 1

skip connections

Decoder

Page 56: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Arbitrary Temporal Length

56

3 frames

5 frames

𝐼𝑖𝐿

𝐼0𝐿

ME

𝐹𝑖→0

SPMC EncoderConvLSTM

𝑡 = 𝑖 − 1

𝑡 = 𝑖 + 1

skip connections

Decoder

Page 57: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Analysis

• Details from multi-frames

57

3 identicalframes

Output (identical)

Page 58: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Analysis

• Details from multi-frames

58

3 consecutiveframes

Output (consecutive)Output (identical)

Page 59: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Analysis

• Ablation Study: SPMC Layer v.s. Baseline

59

Output (baseline)

𝐹𝑖→0

BWResize

Backward warping+

Resize(baseline)

Page 60: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Analysis

• Ablation Study: SPMC Layer v.s. Baseline

60

Output (SPMC)

𝐹𝑖→0

SPMC

SPMC Output (baseline)

Page 61: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Comparisons

61Bicubic x4

Page 62: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Comparisons

62BayesSR [Liu et al, 2011; Ma et al., 2015]

Page 63: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Comparisons

63DESR [Liao et al., 2015]

Page 64: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Comparisons

64VSRNet [Kappeler et al, 2016]

Page 65: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Comparisons

65Ours

Page 66: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Comparisons

66Bicubic x4

Page 67: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Comparisons

67Ours

Page 68: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Running Time

68

Page 69: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Running Time

69

2 hour / frame

Scale Factor: 4×Frames: 31

• BayesSR [Liu et al, 2011]

Page 70: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Running Time

• MFSR [Ma et al, 2015]

70

10 min / frame

Scale Factor: 4×Frames: 31

Page 71: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Running Time

• DESR [Liao et al, 2015]

71

/ frame

Scale Factor: 4×Frames: 31

8 min

Page 72: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Running Time

• VSRNet [Kappeler et al, 2016]

72

40 s / frame

Scale Factor: 4×Frames: 5

Page 73: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Running Time

• Ours (5 frames)

73

0.19 s / frame

Scale Factor: 4×Frames: 5

Page 74: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Running Time

• Ours (3 frames)

74

/ frame

Scale Factor: 4×Frames: 3

0.14 s

Page 75: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

75

Page 76: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

76

Page 77: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

77

Page 78: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

78

Page 79: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

Summary

79

• End-to-end & fully scalable• New SPMC layer• High-quality & fast speed

𝐼𝑖𝐿

𝐼0𝐿

ME

𝐹𝑖→0

SPMC EncoderConvLSTM

𝑡 = 𝑖 − 1

𝑡 = 𝑖 + 1

skip connections

Decoder

Page 80: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

腾讯优图X-Lab

• 成立于2017年,T5科学家领衔,负责前沿视觉技术研究与其它AI领域的融合

• 团队主要成员

贾佳亚教授杰出科学家

戴宇荣专家研究员

沈小勇高级研究员

Page 81: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

81

Page 82: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

我们需要

• 高级计算机视觉研究员• 负责计算机视觉算法的研究与产品落地,负责指导团队成员与实习生

• 要求:博士或者优秀硕士

• 计算机视觉工程师• 计算机视觉算法的优化以及在云端,移动端的落地

• 要求:两年以上相关开发经验

• 实习生• 要求:对计算机视觉具有浓厚兴趣,工程算法能力强者优先考虑

Page 83: Structure Manipulation From the perspective of Human ...²ˆ小勇.pdf · Focused Scene Text挑战的 Text Localization项目世界纪录 2017年3月 2017年4月 在LFW无限制条件下人脸验证测试

83