본문 바로가기

POST/Series Article

[IT 짬바 따라잡기] #1 - Rancher 기반, AI 플랫폼 구축 프로젝트

 

OSC는 무수히 많은 프로젝트를 진행해 왔고, 하고 있고, 할 예정입니다. 프로젝트 팀 내부에서 자체 회고를 진행하기도 하지만, 본 시리즈에서는 구체적인 프로젝트 회고가 아닌, OSC에서 어떤 프로젝트를 수행했고 어떠한 여정을 지나 성공적인 프로젝트로 남겼는지에 대한 프로젝트 성공기를 기록합니다.

Rancher 기반, AI 플랫폼 구축 프로젝트

1. 프로젝트 설명

Rancher 기반의 AI 플랫폼 구축 프로젝트는 딥노이드에서 진행했습니다. 딥노이드는 AI 전문 기업으로, 기존에 사용하던 온프레미스 시스템을 고도화하고 새로운 기술 스택을 활용해 발전된 플랫폼을 구축하기 위해 프로젝트를 시행했습니다. 

 

본 프로젝트는 2022년 7월 ~ 20202년 9월까지 두 달 동안 진행되었고 기존에 다루지 않았던 새로운 스택들을 활용했습니다. 또한, 쿠버네티스 클러스터만으로 50 Node 가까이 다뤄, 진행했던 프로젝트 중에서도 대규모라고 말할 수 있습니다. 

 

(1) 핵심 내용

  • GPU
    • AI 플랫폼을 구축함에 따라 많은 양의 단순 사칙 연산 수행을 위해 GPU 코어를 사용했습니다.
    • GPU 노드는 NVIDIA 그래픽카드를 활용했고 구동 시에는 NVIDIA GPU Operator를 사용했습니다.
  •  Ceph Storage
    • 대규모 확장이 가능한 개방형 스토리지 솔루션이자 현대적 데이터 파이프라인에 적합한 Ceph Storage를 사용했습니다. 
    • 운영 규모 확장, 빠른 출시와 데이터에 대한 심층적 인사이트 확보를 목적으로 한 고객사 딥노이드의 요청이었습니다. 

2. 기술 스택

 

3. 구축 내용

출처 : deepnoid

 

프로젝트를 통해 구축한 AI 플랫폼은 DEEP:PHI 입니다. DEEP:PHI는 사용자가 별도의 코딩과 프로그래밍 과정을 거치지 않아도 데이터만 업로드하면 간편한 모듈 조립으로 인공지능 알고리즘을 만들고 애플리케이션으로 배포할 수 있는 플랫폼입니다. 

 

기존에는 AI 도입을 원하는 기업들이 프로그램이나 관련 기술이 있어야만 AI를 도입할 수 있었고, 코딩 데이터셋을 수집하는 등의 과정이 필요했습니다. DEEP:PHI는 가장 많이 쓰는 AI 모델을 10가지 정도로 추려서 블록형 모듈화 하여 필요한 기능을 끌어 쓸 수 있는 자동화 툴입니다. SaaS기반으로, 별도의 플랫폼 구축이나 관련 지식이 필요 없고 빠른 시간 안에 협업에 적용할 수 있다는 것도 장점입니다. 

 

4. KPT (짧은 회고)

(1) Keep 

 

- Ceph Storage

Ceph Storage는 새롭게 시도한 스택인데, 오픈소스이다 보니 문서가 복잡하고 잘 정리되어 있지 않았습니다. 솔루션 자체가 익숙하지 않기도 했지만, 문서만을 활용해 방법들을 하나씩 찾아가며 적용해야 한다는 어려움이 있었습니다. 그럼에도 팀원들과 함께 방법을 찾으면서 결국 성공적으로 적용했고 고객사도 만족했습니다. 

팀워크가 빛을 발했던 순간들로 기억에 남습니다. 앞으로도 협업을 통해 어려움을 극복하고 동료를 믿으며 함께 프로젝트를 수행하는 분위기가 잘 조성되었으면 좋겠습니다. 

 

 

(2) Problem

 

- 충분한 시간

고객 측에서 기술과 관련한 요청이 있었을 때 충분히 검토하고 피드백을 줄 수 있는 시간이 있었다면 더 좋았겠다는 생각이 듭니다. 아쉬움이라고 하기에는 거창하지만, 프로젝트 진행 당시에는 지나쳤던 부분이 시간이 지나고 나서 더 나은 방법이 있었다고 깨닫는 부분이 있습니다. 

 

- 이슈의 해결

프로젝트 기간의 어려움은 아니었고 다소 허무한 이슈가 Ceph Storage에 있었습니다. 최신 버전의 Ceph Storage를 설치했는데, 기동이 안되어 OS를 다시 깔아보고 재설치하는 등 이슈 해결을 위해 많은 방법들을 동원했습니다. 그런데 알고보니 최신 버전의 버그였습니다. 바로 이전 버전을 깔아보니 문제가 해결되었던 경우가 있었습니다. 

 

(3) Try

 

- Troubleshooting

이슈가 발생하면 원인, 로그, 시스템 현황을 파악하면서 이슈를 해결합니다. 문제 발생의 출처를 밝히는 것이 가장 중요한데 수고스럽지만 트러블 슈팅에서 가장 중요한 일이기도 합니다. 오픈소스의 경우 기능이 먼저 출시되고 문서가 나중에 업데이트되어 최신 버전에서 발생하는 이슈에 대한 답을 얻기가 다소 어렵습니다. 이게 오픈소스의 한계이기도 합니다. 하지만 오픈소스를 사용하면서 발생하는 문제나 어려움을 해결하는 게 저희의 역할이기 때문에 이슈 발생 그리고 해결에 대한 모든 가능성을 열어두고 대응합니다. 

 

5. 후기

본 프로젝트는 개인적으로 뜻 깊은 프로젝트로 남습니다. 그동안 여러 분야의 프로젝트를 수행해 왔지만 AI와 같은 최신 산업에 기여할 수 있는 기회였고 프로젝트를 하면서 과거 사용하지 못했던 기술 스택에 대한 내재화가 많이 진행됐습니다. 또 고객사 딥노이드의 수준이 높아 의사소통이 잘 된 것도 프로젝트가 성공적으로 마무리된 데에 많은 기여를 한 것 같습니다. 사실 지식의 깊이 보다는 고객의 성향이 더 중요하지만 원활한 의사소통이 프로젝트를 성공으로 이끄는 요소 중 하나인 것은 분명합니다. 

 


 

Interviewee : JiSun Yoo
Editor : Ellen Hwang