📍 간단 후기
🏷️ 4차 프로젝트
우리의 4차 프로젝트 목적은 기업에 특화된 이미지를 생성해주는 AI 만들기이다. 중점이 된 기술은 멀티모달과 CV(Computer Vision)이다. 우리 프로젝트는 UX(User experience)에 중심을 두자는 것이 핵심이다. 설계하고 진행해보면서 사용되는 모델이나 기술들을 공부하고, 체험해보면서 많이 재밌었고, 신기했다.
🏷️ 최종 프로젝트
4차에서 더 발전된 프로젝트를 진행해보자 하고 진행하고 있다. 이번주 월,화는 4차 프로젝트에 몰두하고 수요일부터는 최종 프로젝트를 진행했다. 기획부터 디자인, 설계서 작성 등 프로젝트를 실무처럼 할 수 있게끔 처음부터 진행하고 있다. 그래서 그런지 몰라도 벌써부터 결과가 어떻게 나올지 기대된다. 이유는 이번에 사용해 볼 기술 때문이다. 멀티모달이 주가 되어야 하기 때문에, 우리는 출력 데이터 값을 이미지, 텍스트, 비디오 로 나오게 할 예정이다. 이를 사용자에게 보여주는 화면을 구현해 활용한다면 정말 재밌을 것이다.
📍 좋았던 점
- 프로젝트 진행

프로젝트 진행 초기에는, 역시나 문서 작업이다. 문서 작업은 다들 많이 지루해한다. 그리고 많이 힘들어한다. 이번 프로젝트에서 PM을 담당해서 모든 프로젝트의 진행을 총괄해야 한다. 대학교에서 프로젝트를 진행할 때도, 늦은 밤까지 관련 문서를 작성하며 힘들게 작성했던 기억이 있다. 그렇지만 이번 프로젝트는 좀 달랐다. 프로젝트 기획서를 쓸 때에도 재밌었다. 우리가 사용할 모델들이 과연 잘 나올지, 나온다면 얼마나 재밌을지 기대하면서 썼다. 이런 프로젝트는 처음이다. 또 직접 모델들을 활용해보면서 Baseline을 비교해봤다. 심지어 성능평가를 하는 과정에서조차 재밌었던 모델들이라 더 잘 써졌던 것 같다. 물론 아직 초안이지만, 프로젝트의 진행이 어떻게 될지 기대된다.
WBS 작성은 나름 순탄했다. 아마 내가 **파워 J**라서 그럴 수도 있다. 큼지막한 작업들 기준으로 언제 얼마나 진행하면 좋을지 작성하는 것이 WBS 초안이다. 계획을 미리 세우며 작업하는 것은 나에게 있어 굉장히 큰 안심이다(과연 이 계획이 지켜질란지는....).
- 멀티모달

우리가 쓰려는 모델은 크게 5가지이다. LLM 모델, Image-to-txt 모델, txt-to-Image 모델, 2D-to-3D 모델, 2D-to-Video 모델 이렇게 총 5가지이다. 팀원이 5명이라 각자 하나씩 Fine-tuning을 하기로 했다. 나는 LLM 모델을 맡았다. 각자 쓰려는 모델을 다음과 같다.
- LLM: Gemma-3n
- Image-to-txt: InternVL3
- txt-to-Image: Stable-Diffusion 3.5
- 2D-to-3D: Stable-Point-Aware-3D
- 2D-to-Video: SV4D 2.0
각 모델들은 다음과 같은 기능을 한다.
- LLM: General response
- Image-to-txt: 기업에 특화된 자동차 이미지를 학습시켜 그에 맞는 특징 값을 출력해 이미지-특징 쌍을 추출한다.
- txt-to-Image: Image-to-txt에서 추출된 이미지-특성 쌍을 학습해 개선된(or 새로운) 자동차 이미지를 생성한다.
- 2D-to-3D: 생성된 자동차 Image를 사용자는 360도로 확인하여 디자인을 다각도에서 바라볼 수 있다.
- 2D-to-Video: 생성된 자동차 Image를 영상화하여 직접 도로 주행 시 어떻게 보이는지 사용자가 확인할 수 있다.
위 모델들의 역할을 보기만 해도 벌써 기대된다. 반면 근본적인 문제는 얼마나 개선된? 차량이라는 점이다. 사실 비슷한 이미지가 나올 것이다. 또 다른 문제는 자동차 디자인 설계 시(디자인 프로토타입 생성 시) 공학적 요소 등 내부 요인과 바람 등의 외부 요인 고려이다. 학습시키는 과정에서 이 정보들을 추가적으로 학습시킬 필요가 존재했다. 마지막 문제는 Fine-tuning 결과의 성능이다. 예상하는 것만큼 잘 나오지는 않을 것이라는 추측이 많아 걱정이 된다. 또 거의 모든 모델들이 한글 지원이 가능하냐? 는 점도 관건일 것이다.
+++
LLM 모델을 Gemma-3n 모델을 사용할 지 말지는 아직 고민중이다. 그렇지만 내가 Gemma-3n 모델을 쓰려는 이유는 다음과 같다.
- 멀티모달 입력 지원: 텍스트, 이미지, 오디오, 비디오를 입력으로 받아 텍스트 출력 생성
- 경량 구조: 8B 파라미터지만, 효율적 구조 덕분에 4B 모델 수준의 메모리로 실행 가능
- MatFormer 아키텍처: 중첩된 하위 모델(E2B 포함)을 통해 유연한 성능 조절 가능
- 32K 토큰 컨텍스트: 긴 문서나 복잡한 입력도 처리 가능
- 140개 이상 언어 학습: 다국어 지원이 뛰어남
- Instruction-tuned: 대화형 응답에 최적화되어 있음
📍 부족한 점
- 4차 프로젝트

위는 우리팀 챗봇 예시이다. 4차 주제가 'RAG를 활용한 챗봇을 만들고 배포까지 하는 것' 이다. 위를 보면 알 수 있듯이, RAG를 활용한 챗봇은 성공했다. 다만 이미지를 불러오고, 생성하는 과정에서 오류가 존재했다. 이번 4차 프로젝트는 최종 프로젝트와 주제를 맞추기 위해 3,4일을 주제 고민에 몰두했었다. 그래서 그런지 재밌을 만한 주제였지만, 어려운 주제이기도 했다.

우리팀의 System Architecture이다. 딱 봐도 쉬워보이지는 않을 것이다. 이번에는 LLM 모델을 단순히 API를 사용해서 General response를 생성했다. 그리고 RAG에는 수집된 자동차 이미지와 그에 맞는 특성이다. 그에 따라 기존에 있던 이미지를 보여주는 과정과 이미지를 새롭게 생성하는 과정이 따로 존재해야했다. 이를 위해 DB도 2개를 활용한 것이다. 또 Chat history의 저장을 위해 EC2를 연결한 RDS는 MySQL로 작업을 진행했다. 난 여기서 PM 및 DevOps의 전반적인 과정을 맡았다. 또 모델이 돌아가는 과정을 직접 확인해보며 구조도 확인해보았다. 전반적으로는 순항이었으나, 시간이 좀 부족한 프로젝트이지 않았나 싶다.
화요일 발표가 끝난 후 이미지 불러오기에서의 오류를 팀원이 고쳤다. 역시나 경로 설정 문제였다. 또한 이미지 생성에 있어서는 GPU 환경에서 돌려야 하기 때문에 Runpod 및 AWS 서버 연동을 잘 해볼 필요성이 있다고 느꼈다.
📍 성찰 및 마무리
4차 프로젝트가 끝나고 최종 프로젝트가 시작됐다. 최종 프로젝트는 8주간 진행된다. WBS를 써보니 8주가 짧다는 생각밖에 안든다. 8주간 열심히 해봐야겠단 생각이 4차 프로젝트가 끝나고 바로 들었다. 4차때 최종 프로젝트의 프로토타입을 만들어보니, 더 정교하게 완성하고 활용한다면 얻어가는 것도 많을 것이란 생각이 든다.
AWS가 재밌었다고 느꼈어서 그런지, 이번 프로젝트에서도 서버 연동 및 배포를 진행해보려고 한다. 각자 원하는 것을 최대한 할 수 있도록 분배하는 것과 일정 조절을 잘 할 수 있는 것도 PM의 역할이라고 생각한다. 문서 작성을 해보면서 신경 쓸 것이 너무도 많다는 것을 깨달았고, 성장할 수 있겠다는 생각이 많이 들었던 한 주였다. 이런 깨달음을 통해 다음주부터 일정 분배 잘 하면서 프로젝트 진행을 열심히 해보아야겠다.
*** 다음주는 데이터 수집 드루와!
'[SKN FAMILY AI CAMP] > 주간' 카테고리의 다른 글
| 🐉 SKN FAMILY AI CAMP 13기 21주차 후기 (2025.08.11 ~ 2025.08.14) (4) | 2025.08.18 |
|---|---|
| 🐉 SKN FAMILY AI CAMP 13기 20주차 후기 (2025.08.04 ~2025.08.08) (0) | 2025.08.10 |
| 🐉 SKN FAMILY AI CAMP 13기 17주차 후기 (2025.07.14 ~ 2025.07.18) (9) | 2025.07.17 |
| 🐉 SKN FAMILY AI CAMP 13기 16주차 후기 (2025.07.07 ~2025.07.11) (5) | 2025.07.11 |
| 🐉 SKN FAMILY AI CAMP 13기 14주차 후기 (2025.06.23 ~2025.06.27) (1) | 2025.06.28 |