2017년과 2018년에 이어 NVIDIA AI Conference에 참석했습니다. (https://www.nvidia.com/ko-kr/ai-conference/) 기업 인수와 신규 칩셋 등 NVIDIA의 최신 소식을 접할 수 있었고, NVIDIA와 국내 기업들이 협업을 흥미롭게 살펴볼 수 있었습니다.

 

[Link 1. ‘NVIDIA Deep Learning Day 2017]

[Link 1. ‘NVIDIA AI Conference 2018]

 

(덧붙인 내용은 이탤릭으로 표시했습니다.)

 

[Video 1. ‘I AM AI: GTC 2019 Kickoff’ 출처: NVIDIA YouTube Channel]

 

Keynote (Marc Hamilton, VP of Solutions Architecture and Engineering)

방콕의 한 호텔입니다. 실제 모습이 아닙니다. 실제 모습으로 착각할 수 있을 만큼 정교한 시각화입니다. 호텔을 건설하기 전에 시각화를 통해 창문, , 반사, 그림자, 조형물의 색상, 소재 등을 시뮬레이션 해 볼 수 있습니다.

 

NVIDIA CEO Jensen Huang이 벤쿠버에서 열린 ‘SIGGRAPH 2018’ 컨퍼런스의 Keynote 발표 영상으로, NVIDIA Turing GPU Architecture 기반의 데모를 시연하는 장면입니다. , 명암의 변화에 집착했던 레오나르도 다 빈치가 르네상스 미술에 한 획을 그은 것처럼, 21세기의 NVIDIA는 여러 영역 중에서도 Graphics의 변혁을 이끌고 있는 듯 합니다. 모든 액션이 실시간으로 처리됩니다.

 

[Video 2. ‘SIGGRAPH 2018 - NVIDIA CEO Jensen Huang - Reinventing Computer Graphics’ 출처: NVIDIA YouTube Channel ]

 

AI 2030년에 이르면 Global GDP 기준 16조 달러를 기여할 것으로 예측됩니다. Smart city, Healthcare 등 모든 산업에 영향을 미치게 돌 것입니다. NVIDIA ‘Inception Program’을 통해 4천 개 이상의 Startup을 지원하고 있습니다. (https://www.nvidia.com/en-us/deep-learning-ai/startups/)

CPU + GPU Architecture로 많은 난제들을 해결해 왔습니다. 2006년에 출시된 CUDA GPU는 이후로 열 차례 Version release를 통해 속도와 에너지 효율성을 개선하며 성장을 이어가고 있습니다. GPU를 사용하는 Super Computer의 수가 1년 사이 25% 증가했으며, 1위와 2위를 비롯한 다수의 Super Computer NVIDIA GPU를 사용하고 있습니다. GPU 개발자가 늘수록 CUDA App도 늘고 있습니다.

CUDA-X는 이제 모든 플랫폼에서 사용 가능합니다. Workstation, Server, Cloud에 관계가 없으며, Expedia, Twitter, Microsoft 등의 기업들이 CUDA-X를 도입했습니다.


[Image 1. CUDA-X 출처: NVIDIA (https://www.nvidia.com/en-us/technologies/cuda-x/)]

 

Supercomputer에 비해  Hyperscale은 서버 당 속도가 현저하게 낮습니다. 대신 서버 간 연결이 많습니다. 동일한 하드웨어 상에서 소프트웨어 업데이트만으로 세 배의 속도 개선 효과를 거뒀습니다. (HPL-AI, Mixed-precisions) Data Science의 등장으로 Supercomputer 보다는 Supercomputer Hyperscale의 중간 정도 서버의 수요가 늘고 있습니다. 가장 빠른 단일 서버인 DGX-2 AI를 위해 설계되었습니다. (https://www.nvidia.com/en-us/data-center/dgx-2/)

AI Datacenter는 전통적인 Enterprise Datacenter와 다릅니다. 엄청난 컴퓨팅을 소화할 수 있는 모델을 만들어야 합니다. 96개의 DGX를 모은 DGX SuperPOD Supercomputer 22위에 올랐습니다. (https://www.top500.org/system/179691)

 

RAPIDS, GPU Accelerated Platform for Data Science (이상문 전무, NVIDIA)

RAPIDS GPU를 이용해 Data Science를 수행하기 위한 Library입니다. (https://rapids.ai/) Data Science Pipeline End to End로 구현할 수 있습니다. cdDF, cdML, cdGraph 등의 기능을 활용해 Data Preparation, Model Training, Visualization을 수행합니다.


[Image 2. Data Science Pipeline with GPUs and RAPIDS 출처: NVIDIA Developer Blog (https://devblogs.nvidia.com/gpu-accelerated-analytics-rapids/)]


함수들과 Machine Learning 알고리듬이 Library화 되어 있습니다. csv 파일을 로드하는 code입니다.

 

import cudf

gdf = cudf.read_csv(‘path/to/file.csv’)

for column in gdf.columns:

print(gdf[column].mean())

 

기존에는  GPU에서 CPU로 데이터를 보내 연산을 했지만, 이제는 GPU 상에서 연산을 수행할 수 있습니다.


Deep Learning Research of NAVER Clova for AI-Enhanced Business (하정우 리더, NAVER)

HDTS Hybrid Dnn Text to Speech 기술로 Clova는 유인나 배우님의 목소리를 합성해 낼 수 있었습니다. 단 네 시간의 음성 녹음만으로 가능했습니다. 그 밖에도 Speech enhancement를 통한 배경 잡음 제거, 상대편 음성 제거 등을 구현했습니다. Google Dupex와 유사한 식당 예약 서비스도 시작했습니다.

특정 인물이 나오는 화면만 편집해 보여 주는 Auto Cut, 특정 인물만을 Cropping Auto Cam Clova가 구현한 기술입니다.

 

Kakao OCR Inference 성능 최적화 (이현수, Kakao)

OCR Detection Model Recognition Model로 구성됩니다. TensorFlow ModelTensorRT로 변환했습니다.

TensorFlow 모델을 Export 합니다. 복수 개의 Type을 사용할 수 없으므로 Cast를 사용할 수 없으며, Data type을 통일합니다. 가변 Input보다 고정 Input으로 처리하는 것이 좋습니다.

UFF Universal Framework Format 변환으로 지원하지 않는 연산을 사용할 수 있게 합니다. (IPluginV2)

FP32, FP16은 큰 차이가 없으나, INF8은 정확도가 떨어질 수 있어 Network Quantization이 필요할 수 있습니다. (IIint9entropycalibrator2) Calibration 후 결과가 떨어지지 않는지 점검합니다.

결과적으로 Detector 4~5배 개선되었고, GPU Memory는 절반 수준으로 사용하게 되어 효율성이 높아졌습니다. Recognizer 1.5배 가량 개선되었습니다. 개선이 크지 않은 이유는 이미지의 사이즈 자체가 작아 Inference 최적화에 어려움이 있었기 때문입니다.

 

Implication

네어버와 카카오가 여러 세션에서 자사의 서비스들을 지원하기 위해 NVIDIA와 협력하는 시도가 인상적이었습니다. NVIDIA 생태계가 해를 거듭할수록 탄탄해지고 있다는 의미가 아닌가 싶습니다.