반응형

인공지능/자연어 처리 151

토큰 수 확인하기

모델을 굽기 위해 데이터를 수집하면서 토큰 수 확인은 필수기에 한번 가지고 왔습니다.from datasets import list_datasets, load_dataset# 데이터셋 불러오기dataset = load_dataset("nvidia/ChatQA-Training-Data","synthetic_convqa")# 데이터셋 분할 정보 확인print(dataset)일단 데이터 불러오기!import pandas as pdimport tiktokendf = pd.DataFrame(dataset["train"])df이제 DataFrame으로 변경하고 데이터 형식 확인하기여기선 다른 이름이 많은데 저는 특정 column만 골라서 사용할 겁니다.import mathdef tokenize_in_batches(d..

Chat QA1, Chat QA2 정리하면서 발전 가능성, 개선 점 생각해보기

2024.12.23 - [인공지능/논문 리뷰 or 진행] - ChatQA: Surpassing GPT-4 on Conversational QA and RAG - 논문 리뷰 ChatQA: Surpassing GPT-4 on Conversational QA and RAG - 논문 리뷰https://arxiv.org/abs/2401.10225 ChatQA: Surpassing GPT-4 on Conversational QA and RAGIn this work, we introduce ChatQA, a suite of models that outperform GPT-4 on retrieval-augmented generation (RAG) and conversational question answering (Q..

MoE란? - Mixture of Experts

https://huggingface.co/blog/moe Mixture of Experts ExplainedMixture of Experts Explained With the release of Mixtral 8x7B (announcement, model card), a class of transformer has become the hottest topic in the open AI community: Mixture of Experts, or MoEs for short. In this blog post, we take a look at the buildinghuggingface.co MoE란? 모델의 규모가 크면 클수록 더 좋은 성과를 보인다.그러나 MoE를 사용하면 훨씬 더 적은 컴퓨팅으로 모델을 학..

Hugging face Chat-ui, Vllm으로 챗봇 만들기

https://github.com/huggingface/chat-ui GitHub - huggingface/chat-ui: Open source codebase powering the HuggingChat appOpen source codebase powering the HuggingChat app. Contribute to huggingface/chat-ui development by creating an account on GitHub.github.comhttps://docs.vllm.ai/en/latest/serving/openai_compatible_server.html Chat UI는 모델을 잘 보일 수 있게 사이트를 만들어주는 느낌이고, Vllm은 모델을 빠르게 돌려주는 툴 인것 같네요  일단..

ESC task 발표 준비

ESC task 설명목적데이터셋기존 kullm v3 학습에 사용한 데이터셋 + esconv 번역한 데이터기존 데이터셋 달라진 점우리 데이터셋 예시실험 결과분석 결과최종 모델 설명 + 데모? ESC task 설명ESC - Emotional Support Conversation감정적 지지를 제공하는 대화 시스템을 정의하는 작업 도움을 요청하는 사용자의 감정적 상태를 파악하고, 그들의 문제를 탐색한 뒤 위로하거나 적절한 조언을 제공, 사용자가 감정적 안정감을 찾도록 돕는 대화 형태 탐색 : 문제를 파악하기 위해 대화하는 단계위로 : 공감을 표현하고 그들의 감정에 대한 이해를 제공하는 단계행동 : 문제를 해결할 수 있는 행동을 제안하는 단계ESConv - Emotional Supprot Conversation ..

SAE tutorial - logits lens with features

Logit Lens로 SAE 특징 이해하기이 노트북은 "Logit Lens로 SAE 특징 이해하기" 게시물에 문서화된 분석을 수행하기 위해 mats_sae_training 라이브러리를 사용하는 방법을 보여줍니다.따라서 이 노트북에는 다음 섹션이 포함됩니다:Huggingface에서 GPT2-Small Residual Stream SAE를 로드하기.특징에 대한 가상 가중치 기반 분석 수행 (특히 logit 가중치 분포를 살펴봄).neuronpedia에서 공용 대시보드를 사용하기 위해 Neuronpedia 탭을 프로그래밍 방식으로 열기.토큰 세트 강화 분석 수행 (Gene Set Enrichment Analysis를 기반으로).설정여기서는 다음과 같은 작업을 위한 다양한 함수를 로드합니다:Huggingface..

SAE tutorials - SAE basic

내일 완성형으로 작성하겠지만 여기서 pandas 버전 문제가 있더라고여그러므로 pandas를 아래와 같이 버전 다운 시키면 됩니다.pip install pandas==2.2.0https://stackoverflow.com/questions/78524556/typeerror-cannot-convert-numpy-ndarray-to-numpy-ndarraySAE Lens + Neuronpedia Tutorial이 튜토리얼은 기계적 해석 가능성에서 인기 있는 새로운 기법인 희소 오토인코더(Sparse Autoencoders, SAEs)를 사용하여 신경망을 분석하는 방법에 대한 입문서입니다. 더 자세한 내용은 이 게시물을 참고하세요.하지만 여기서는 SAE 특징이 무엇인지, SAELens에 SAEs를 로드하고 특..

SAE 튜토리얼 진행해보기 - training SAE

SAELens을 사용한 기본 SAE 훈련 이 튜토리얼은 작은 크기의 Sparse Autoencoder(SAE)를 훈련하는 방법을 설명하며, 구체적으로 tiny-stories-1L-21M 모델을 대상으로 합니다.SAELens 라이브러리는 활발히 개발 중이므로, 이 튜토리얼이 오래되었을 경우 여기를 통해 이슈를 제기해 주세요.try: #import google.colab # type: ignore #from google.colab import output %pip install sae-lens transformer-lens circuitsvisexcept: from IPython import get_ipython # type: ignore ipython = get_ipython()..

728x90
728x90