모델을 굽기 위해 데이터를 수집하면서 토큰 수 확인은 필수기에 한번 가지고 왔습니다.from datasets import list_datasets, load_dataset# 데이터셋 불러오기dataset = load_dataset("nvidia/ChatQA-Training-Data","synthetic_convqa")# 데이터셋 분할 정보 확인print(dataset)일단 데이터 불러오기!import pandas as pdimport tiktokendf = pd.DataFrame(dataset["train"])df이제 DataFrame으로 변경하고 데이터 형식 확인하기여기선 다른 이름이 많은데 저는 특정 column만 골라서 사용할 겁니다.import mathdef tokenize_in_batches(d..