- 비타민 12기 : 구준회, 김지원
- 비타민 13기 : 박서진, 신진섭, 엄성원
- 2023년 겨울방학
- 도배 하자 도메인의 AI 챗봇 생성
- 도배 하자 도메인의 질문을 이해하고 정확한 답변을 생성하는 언어 모델을 개발합니다.
- 도배 하자 도메인에 AI 기술을 활용해 자재 관리 및 운용의 향상을 도모합니다.
- 고객 만족도 향상, 제품 및 서비스 전반에 대한 품질 향상을 기대합니다.
EDA는 텍스트 데이터의 특성, 분포, 형태 등 데이터의 구조를 파악하는 것을 목표로 합니다.
- Python libraries: Pandas, Matplotlib, Seaborn.
- Analysis Techniques: 기술 통계, 상관분석, 유사도 분석
- 질문 2개 / 답변 5개
- 바이트 수 : 총 600,232개의 바이트
- 음절 수 : 140,118개의 음절
- 문장 수 : 총 11,501개의 문장
데이터 수집 부분에서는 Prompt Engineering과 Web Crawling을 통해 진행한 데이터 수집 프로세스 내용을 담았습니다.
- 논문 및 레퍼런스 자료 Prompt Engineering
- 키워드 기반 Prompt Engineering
- 오늘의 집 등과 같은 도메인 사이트 Web Crawling
데이터 증강 부분에서는 수집한 데이터를 정제, 정교화, 취합 후 검토 작업에 대한 내용을 담았습니다.
- 단순히 데이터를 늘리는 것만이 정답이 아니라 판단하고 주어진 데이터를 답변에 최적화될 수 있도록 연구했습니다.
- 어떤 답변이 좋은 답변인지 확신이 없기 때문에 경우의 수를 나눠서 시도했습니다.
모델링 부분에서는 모델 선택의 이유, 아키텍처 세부 사항 및 학습 과정을 포함하여 사용된 모델에 대한 자세한 설명을 담았습니다.
- Skt/kogpt2-base-v2 [from baseline code] : SKT에서 개발한 한국어 gpt2 모델 (125M)
- 42dot/42dot_LLM-SFT-1.3B : 국내 최고의 한영통합 언어 모델 기반의 경량 생성형 언어모델
- maywell/Synatra-42dot-1.3B : 위 모델을 기반으로 Instruction tuning된 Pretrained LLM -> 다양한 3B 이내 경량 모델로 실험하던 중 GPU 메모리 아웃이 나지 않은 모델
- Prompt : LLM에 instruction을 주어 특정 task에 맞는 적절한 대답을 형성하는 것
- Fine Tuning : 사전 학습된 모델을 소규모의 데이터 세트에 대해 추가로 학습시켜 특정 작업이나 도메인에서 기능을 개선하고 성능을 향상시키는 프로세스
- PEFT : 적은 매개변수 학습만으로 빠른 시간에 새로운 문제를 효과적으로 해결하는 Fine-Tuning 기법
- LoRA : PEFT 방법론 중 하나로, 대부분의 매개변수 가중치는 유지하되 일부만 미세조정하는 방식 -> 훈련 비용과 컴퓨팅 자원을 절약하면서 성능 향상 기대
- 아무래도 공모전이라 주최측에서 원하는 답을 찾기가 매우 까다로웠음(답변을 잘하기 위해서는 기본적으로 대량의 데이터를 학습시키는 것이 맞지만 데이터를 정교하게 하는 것이 더 중요했던..)
- 같은 언어모델이라도 학습 방식에 있어 엄청난 차이가 있기 때문에 이 부분을 좀 더 공부해야 겠다고 느낌
- 아직 미완성