경계를 허무는 플랫폼 엔지니어링: 멀티클라우드와 AI 서비스 통합의 핵심 역할

팀 스토리
페이스북링크드인트위터

flexible 행사에서 flex 클라우드플랫폼팀은 '경계를 허무는 플랫폼 엔지니어링: 멀티클라우드와 AI 서비스 통합의 핵심 역할'을 주제로 세션을 열었습니다. 이번 세션에서는 급변하는 AI 시대에 플렉스팀이 왜 멀티클라우드를 선택했고, 엔지니어들의 자율성을 극대화하고 조직 생산성을 높이기 위해 구축한 플랫폼 아키텍처 전략과 핵심 인사이트가 공유되었습니다.

AI 시대, 멀티클라우드는 선택 아닌 필수

플렉스팀이 멀티클라우드 전략을 채택한 핵심 배경에는 AI 생태계의 급격한 변화가 자리 잡고 있습니다. 현재 LLM 시장은 모델의 성능 예측이 어렵고 비결정적이며, Gemini, Claude, GPT 등 각 모델이 상호 배타적인 특징을 가집니다. 플렉스팀은 올인원 HR SaaS로서 방대한 양질의 HR 데이터를 기반으로 스피치 텍스트 요약, HR 관련 LLM 등 다양한 AI 서비스를 제품에 통합할 계획입니다.

특정 클라우드 벤더에 종속되지 않고, 제품 내 다양한 데이터 도메인에 가장 적합한 최적의 모델을 유연하게 활용하여 고가치 비즈니스 결과를 내기 위해 멀티클라우드 환경은 필수적인 선택이었습니다. 클라우드플랫폼팀은 이러한 유연성을 기반으로 조직 생산성 향상, 벤더 종속성 없는 시스템 구축, 그리고 다른 엔지니어들이 비즈니스에 집중할 수 있도록 지원하는 것을 목표로 합니다. 최고의 인재는 통제가 아닌 자율성을 기반으로 성과를 낸다는 신념 아래 , 엔지니어들이 언제든 필요에 따라 개발하고 가치를 창출할 수 있는 플랫폼을 구축하는 데 집중했습니다.

엔지니어의 자율성을 보장하는 'LLM Agnostic Architecture'

플렉스팀은 목표 달성을 위해 'LLM Agnostic Architecture'를 구축했습니다. 이 아키텍처는 서비스와 인프라, 플랫폼이 특정 LLM이나 클라우드에 종속되지 않도록 설계되었으며, 중앙화된 AI 백엔드를 통해 AWS Bedrock, GCP Vertex AI, Azure AI Portal 등 다양한 클라우드 서비스의 LLM을 호출하고 관리합니다. 이 유연한 구조는 엔지니어들이 모델 선택에 제약을 두지 않고 빠르게 실험하고 제품화할 수 있도록 지원합니다. 특히 멀티클라우드 환경의 복잡성을 해결하기 위해 통합 권한 및 인증 관리 시스템이 구축되었습니다.

플렉스팀은 AWS EKS 클러스터 내의 Kubernetes 워크로드의 Service Account(SA)가 각 클라우드 제공업체(AWS, GCP, Azure)의 SA와 1대1로 매핑되도록 구성했습니다. 이는 AWS EKS의 IRSA 토큰을 활용하여 GCP, Azure의 IDP 연동을 통해 권한을 위임받는 방식입니다. 개발자는 YAML 매니페스트에 Annotation으로 필요한 플래그를 활성화만 하면, Kyverno Admission Controller를 통해 환경 변수 등 필요한 메타데이터 주입이 자동화됩니다. 이로써 애플리케이션은 멀티클라우드 사용을 위한 모든 정보를 알 필요가 없으며, 보안을 강화하면서도 개발 효율성을 극대화했습니다. 다만, AI와 멀티클라우드 서비스의 도입은 사용처별, 모델별로 급증하는 비용의 복잡도를 관리해야 하는 새로운 과제를 던졌습니다.

AI 시대, 증가하는 비용 복잡성에 대응하는 FinOps와 데이터 기반 핵심 인사이트

AI 서비스 확산으로 비용 측정과 관리가 더욱 복잡해진 멀티클라우드 환경에서, 플렉스팀은 이 문제를 해결하고 데이터 기반의 핵심 인사이트를 얻기 위해 Multi-Cloud LLMOps 파이프라인을 구축했습니다.각 클라우드 제공업체별 LLM 호출 로그를 수집하고 , 여기에 토큰 사용량, 목적별 모델 호출 수, 호출처 등 분석에 필요한 메타데이터를 주입합니다.

수집된 로그 데이터는 AWS S3에 통합 저장되며, AWS Glue Catalog와 Athena를 활용하여 데이터를 쿼리합니다. 최종적으로 Metabase와 같은 BI 툴로 시각화하여 전사적인 통찰을 위한 데이터로 활용됩니다. 이러한 데이터 파이프라인을 통해 플렉스팀은 AWS 청구 보고서 외에 주간 및 일간 단위로 비용을 트래킹하고 리포팅하는 FinOps(Financial Operations)를 실현했습니다.

이는 빠른 피드백 루프를 만들어 제품 성장을 확인하고 비용 절감 방안을 모색하는 데 중요하며 , AI를 활용하여 특정 모델에 대한 의존도 분석, 인당 원가율 측정 등을 수행하며 경영 및 운영 인사이트를 제공하는 도구로 활용될 수 있음을 보여주었습니다. 플랫폼 팀은 이러한 로그 수집 및 조회 시스템 구축에 비용을 투자한 것이 자동화 과정에서의 트레이드오프였음을 설명하며 , 이 투자가 결국 통찰력의 가치를 위한 것이었음을 강조했습니다.

플렉스팀은 앞으로도 기술 설계를 넘어 문화의 전환까지 고려하며, 변화하는 요구에 유연하게 대응하고 안전하게 확장할 수 있는 플랫폼을 지속적으로 고도화할 예정입니다.

경계를 허무는 여정, 클라우드플랫폼팀에 합류하세요!

글이 마음에 드셨나요?
공유하기
페이스북링크드인트위터
flex가 궁금하다면? 지금 무료로 체험해 보세요
flex가 궁금하다면? 지금 무료체험하기
  • [flex update] 근무, 급여정산, 비용관리 기능 업데이트 및 기타 주요 안내
    10월 넷째 주 flex 제품 업데이트 소식을 안내해 드려요.
  • 팀 스토리
    2025. 10. 23
    모든 탭에 퍼지는 실시간 이벤트, SSE 1개로 끝내는 전략
    “여러 탭을 단 하나의 파이프로 연결하는 방법, 궁금하지 않으신가요?