🐉 SKN FAMILY AI CAMP 13기 22주차 후기 (2025.08.18 ~ 2025.08.22)

[SKN FAMILY AI CAMP]/주간

🐉 SKN FAMILY AI CAMP 13기 22주차 후기 (2025.08.18 ~ 2025.08.22)

ki-june 2025. 8. 22. 18:59

📍 간단 후기

🏷️ 최종 프로젝트

중간발표 이후 다시 개발이 진행됐다. 이번 주 우리 조 목표는 '파이프라인 구성 및 User Scenario에 따른 모델 돌려보기'이다. 써보니까 되게 간단해 보이는 게 한숨이 한 번 나온다...

나는 이번주에 우리의 새로운 sLLM인 Kanana를 파인튜닝해 봤다. 또 Django Framework의 기능들을 점검하고 Google 로그인 기능을 추가해 보는 작업을 수행했다.

🏷️ 코딩 테스트 프로젝트

이번주 역시 코딩테스트를 하지는 못했다. 그렇지만 과제 제출하듯이 각자 푼 코드를 제출하는 형식으로 진행한다. 다음 주 스터디에서 풀이를 진행하면서 각자 설명하는 식으로 할 예정이다.

이번 주에 제출해야 될 코딩 테스트 문제는 Greedy Algorithm과 정렬 문제에 관한 Lv2~3 문제들이다. 또 다음 주에 있을 코딩 테스트 스터디에는 Hash 관련 문제 Lv2~3 문제들을 풀 예정이다.

📍 좋았던 점

sLLM Finetuning

저번주에 완료했던 정재된 데이터를 토대로 파인튜닝을 다른 모델에 적용시켜 보았다. 눈에 띄게 좋아졌다. 확실히 1.2B 모델을 Finetuning 하다가 8B 모델을 Finetuning하니 눈에 띄게 좋아진다는 점에 뿌듯했다.

kanana를 선택한 이유는 저번 Baseline 모델 성능 평가 결과 2안이었기 때문이다. 확실히 exaone은 1.2B 아니면 32B였기 때문에, 1.2B를 선택한 결과를 이렇게 본 것 같다. 그래도 kanana는 8B 모델이라 성능도 잘 나오고 좋았다.

+++ 여기서 B는 Billion이다. 파라미터 수를 의미하는데, 8B이면 80억개의 파라미터를 통해 모델이 구성된다고 보면 된다.

***

첫 LLM 모델: exaone 4.0 1.2B

LGAI-EXAONE/EXAONE-4.0-1.2B · Hugging Face

💬 ykvns/testonly_exaone4.0-1.2B

huggingface.co

이번 LLM 모델: kanana 1.5 8B-instruct-2505

kakaocorp/kanana-1.5-8b-instruct-2505 · Hugging Face

🤗 1.5 HF Models | 📕 1.5 Blog | 📜 Technical Report News 🔥 Table of Contents Kanana 1.5 Kanana 1.5, a newly introduced version of the Kanana model family, presents substantial enhancements in coding, mathematics, and function calling

huggingface.co

또 이를 토대로 문서 작업을 시작했다. 이번주 문서는 7개나 됐다......

어떻게 프로젝트를 진행하고 있는지 확인하기 위해서는 문서 작업이 필수다(다시 한번 강조한다). 그래서 이번에도 sLLM 파인튜닝 결과 등을 기반으로 문서 작업을 진행했다. 문서 작업을 위해서 HuggingFace에 파인튜닝한 Adapter를 올렸다.

ki-student/kanana-finetuned-model-v1 · Hugging Face

Model Card for Model ID Model Details Model Description Developed by: [More Information Needed] Funded by [optional]: [More Information Needed] Shared by [optional]: [More Information Needed] Model type: [More Information Needed] Language(s) (NLP): [More I

huggingface.co

이번 기회로 HuggingFace에 직접 파인튜닝한 모델도 올려보고, 몇몇 모델을 써볼 수 있어서 뜻깊었다. 또 HuggingFace와 좀 친해진 것 같아 다행히 다른 생각도 든다.

sLLM 정성평가

정성평가 결과는 나쁘지 않았다. 기본 모델도 충분히 잘 대답해서 놀랐다. 그렇지만 아쉬운 점이 있었다. 그 점은 아래 그림을 통해 설명하겠다.

텍스트 그대로 보면 된다. 확실히 데이터 정재를 다시 할 필요가 있었다. 그래서 생각한 데이터 정재 방법은 아래와 같다.

context 필드가 원래 원문 내용이었다. 그렇지만 이번에는 positive와 negative answer로 나누어 학습을 진행한다. 이는 유사도 순위에 따라서 진행한다. negative는 sLLM이 정답으로 인식하지 않도록 확실하게 학습시켜 주는 것이다. 그럼 positive만 답이 아니라 negative가 답이 아니라는 것도 학습시켜 더 좋은 성능을 기대할 수 있겠다는 생각을 했다. (해당 결과는 아직 나오지 않았다.)

Django

TOKEN_CHUNK_SIZE = 1000

TOKEN_CHUNK_OVERLAP = 400

CHAR_FALLBACK_CHUNK_SIZE = 4000

CHAR_FALLBACK_CHUNK_OVERLAP = 1000

SEPARATORS = ["\n\n", "\n", "。", "．", ". ", "! ", "? ", " ", ""]

Django 기능 점검을 위해 PostgreSQL(RDB)과 Qdrant(vectorDB)를 확인했다. vectorDB를 저장하는 데 있어 임베딩은 필수이다. 하지만 chunk_size와 overlap을 어느 정도로 하는지에 따라 vectorDB에 저장되는 문서의 퀄리티가 차이가 났다. 그래서 위와 같은 선택을 했다. 보통 chunk_size 대비 overlap 은 10~20%가 이상적이다. 하지만 Qdrant Dashboard를 확인해본 결과, 내용이 잘려있는 경우가 너무 많았다. 그래서 40%로 진행했던 것이다. 여전히 내용이 잘린 경우가 존재했지만, 확실히 잘 저장된 것이 보여 40%로 고정했다.

위 코드는 TOKEN을 우선순위로 chunking하고 문자열 기준으로 chunking을 진행하는 것이다. 이는 더 확실하게 2중으로 검사한다고 생각하면 된다. 문자열 기준으로 다시 하는 이유는, 라이브러리가 설치되지 않았거나 특정 환경에서 사용할 수 없는 경우 토큰 기반 분할은 실패한다. 이때 문자 기반 분할은 안정적인 대안 역할을 한다. 문자 수를 기준으로 문서를 나누는 이 방법은 어떤 환경에서도 작동하므로, 파이프라인이 중단되는 것을 막아주기 때문이다.

그 결과로 Qdrant에 문서를 업로드 해 RAG를 완성하는 과정을 진행했다.

구글 로그인과 같은 소셜 로그인은 API키 발급이 필요하다. 해당 소셜 로그인을 위한 과정은 다음과 같이 진행해야 한다.

구글 클라우드 접속 -> 프로젝트 생성 -> OAuth 클라이언트 ID 생성 -> redirection 할 링크 입력 -> Django 웹 서비스의 admin에 social application에 클라이언트 ID와 secret pw 입력

보시는 바와 같이 생각보다 복잡했다. 처음에는 .env에 API 키 입력한 다음에 쓰면 되는 줄 알았다. 역시 사람은 해보고 나서야 방법을 깨닫는다...

📍 부족한 점

프로젝트 파이프라인

이번주에는 기본적인 파이프라인 적용 및 user scenario를 작성하는 것이 가장 큰 일이었다. 이를 위해 팀원들과 반나절 정도 회의를 진행했다.

결과는 나름 괜찮았다. User Scenario는 크게 3가지가 나왔다.

체크리스트 완성 및 이미지 생성
몇 개의 체크리스트만 완성 및 이미지 생성
입력 데이터 자체가 이미지인 경우

여기서 체크리스트는 디자인 생성을 위한 모델이 입력받아야 될 최소한의 정보이다. 이를 작은 창으로 띄어 사용자가 확인할 수 있도록 할 예정이다. 하지만 사용자의 입장에서는 체크리스트를 다 채워야 하는 것은 매우 번거로울 수 있다. 그렇기 때문에 2번이 있는 거다. 때문에, 꼭 필요한 체크리스트를 정해야 한다. 이를 위해 회의를 반나절 정도 한 것 같다.

체크리스트 선정은 이미지 생성 모델 파인튜닝 시 넣었던 설명 값들을 위주로 구성했다.

-> 색상 / 유리 / 휠&타이어 / 조명 / 전면부&측면부 / 차체 표면 / 비율&자세 / 차체

마지막으로 이미지 생성 모델이 멀티모달 모델이다. 이에 이미지도 입력받기가 가능하다. 기존에 하려던 부분 수정 작업을 이 모델이 진행할 수 있다. 사용자가 어느 특정 부분이 맘에 안들어서 바꿔달라고 요구할 수도 있기 때문이다. 또 디자인이 이미 생성되어 있는 경우 그것만 고치기 위해 우리 플랫폼을 사용할 수도 있다. 이를 위해 3번을 추가한 것이다.

+++ 혹시나 까먹으셨을 분들을 위해 -> 우리 팀 주제: 자동차 디자이너를 위한 프로토타입 생성 플랫폼

이제 이론은 어느정도 완성이 됐다. 직접 반영만 하면 되는데, 다시 개발을 열심히 진행해 봐야겠다.

📍 성찰 및 마무리

이번 주는 그래도 눈에 보이는 결과를 내기 위해 노력했다. 이제 3주 남았다. 기본적인 Q&A만 할 수라도 있도록 Django를 수정했다. 확실히 재밌는 과정이다. sLLM 파인튜닝과 Django 개발 등을 진행하다 보니, 나름 틀이 보이고 사용해 보고 싶던 기술들을 사용해보고 직접 적용하고 있으니 재미는 있다. 다만, 쉽지 않다. 이 점 명확히 하며 긴장하며 다음 주를 맞이해야 될 것 같다.

멘토링 과정에서 또 많은것들이 바뀔 수도 있다. 그 점 감안하고 다음 주를 맞이해야 될 것 같다.

이번 주는 정말 바쁘게 보낸 것 같다. 잠을 확실히 많이 줄였다. 프로젝트 때문인 것은 아니다. 운동과 약속 같은 워라밸을 잘 유지하고 싶기 때문이었다. 이 부분에 있어서는 다시 한번 고민해 봐야겠다.

저번주부터는 러닝을 시작했다. 이 글을 읽는 여러분도 맨날 앉아만 있지 말고 헬스도 하고, 러닝도 하시길 바란다. 헬스만 하고 약속 가고, 맛있는 것만 먹고, 계속 앉아있으면 살찐다. (자기 관리 열심히 합시다~)

이번 주도 외쳐본다. 취업하자. 취업하자. 취업하자. 취업하자.

'[SKN FAMILY AI CAMP] > 주간' 카테고리의 다른 글

🐉 SKN FAMILY AI CAMP 13기 25주차 후기 (2025.09.08 ~ 2025.09.15) (1)	2025.09.17
🐉 SKN FAMILY AI CAMP 13기 23주차 후기 (2025.08.25 ~ 2025.08.29) (6)	2025.08.29
🐉 SKN FAMILY AI CAMP 13기 21주차 후기 (2025.08.11 ~ 2025.08.14) (4)	2025.08.18
🐉 SKN FAMILY AI CAMP 13기 20주차 후기 (2025.08.04 ~2025.08.08) (0)	2025.08.10
🐉 SKN FAMILY AI CAMP 13기 18주차 후기 (2025.07.21 ~ 2025.07.25) (6)	2025.07.25

현재글🐉 SKN FAMILY AI CAMP 13기 22주차 후기 (2025.08.18 ~ 2025.08.22)

ki-june

Today :
Yesterday :

ki-june