기존에 공개된 학습 데이터를 통해 3.2에 사용할 수 있는 학습 데이터를 만들어 보겠습니다.import csvfrom datasets import load_datasetfrom transformers import AutoTokenizerfrom tqdm import tqdm # 진행 상태 표시를 위한 tqdmfrom huggingface_hub import HfApi, loginlogin('') # 허깅 페이스 api 키로 로그인해서 데이터 셋, 토크나이저 가져올 수 있도록 합니다.# 데이터셋 로드dataset = load_dataset("chanind/openwebtext-llama3")# Meta-Llama-3-8B 토크나이저 로드 (디코딩용)tokenizer = AutoTokenizer.from_..