반응형

소프트웨어 741

SAE 튜토리얼 진행해보기 - training SAE

SAELens을 사용한 기본 SAE 훈련 이 튜토리얼은 작은 크기의 Sparse Autoencoder(SAE)를 훈련하는 방법을 설명하며, 구체적으로 tiny-stories-1L-21M 모델을 대상으로 합니다.SAELens 라이브러리는 활발히 개발 중이므로, 이 튜토리얼이 오래되었을 경우 여기를 통해 이슈를 제기해 주세요.try: #import google.colab # type: ignore #from google.colab import output %pip install sae-lens transformer-lens circuitsvisexcept: from IPython import get_ipython # type: ignore ipython = get_ipython()..

chat bot을 통한 inference 후 chat gpt API를 사용하여 평가하기

어제 inference만 했다면 오늘은 평가까지 진행해보겠습니다.import jsonimport osimport torchfrom setproctitle import setproctitlefrom transformers import AutoModelForCausalLM, AutoTokenizer, pipelinefrom peft import PeftModel, PeftConfigfrom openai import OpenAIclient = OpenAI(api_key="")여기에 api 키를 넣어줍니다.연구실 API가 있으니 너무 편하네요....setproctitle("")os.environ["CUDA_VISIBLE_DEVICES"] = "7"# 테스트 데이터 경로 및 저장 경로 설정test_data_pat..

Sparse Autoencoder 시작

SAE를 통해 LLM의 데이터를 변경, 조작해보자가 시작되었습니다!!!!https://transformer-circuits.pub/2024/scaling-monosemanticity/ Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 SonnetAuthors Adly Templeton*, Tom Conerly*, Jonathan Marcus, Jack Lindsey, Trenton Bricken, Brian Chen, Adam Pearce, Craig Citro, Emmanuel Ameisen, Andy Jones, Hoagy Cunningham, Nicholas L Turner, Callum McDougall, Monte ..

모델 추론 코드 작성하기 - Transformer, peft, inference

이번에 오류가 너무 많았습니다..그냥 generation을 통해서 모델 추론을 진행했더니 모델 출력이 이상한 것만 나오질 않나...제 서버에서는 Config가 없다고 모델이 불러와 지지도 않지 않나....transformers 버전 때문에 출력이 다르게 나오지 않나....pipeline이 안 불러와지는 서버가 있지 않나....등등 다양한 오류가 있었습니다....결국 저는 제 서버에서 config 없으니 모델 안 불러지는 것을 peft를 통해 base 모델을 넣고, 추론을 진행하였습니다.import jsonimport osimport torchfrom setproctitle import setproctitlefrom transformers import AutoModelForCausalLM, AutoToke..

재미있는 인공지능 속 세상 여행 3주차 - Chat GPT의 등장과 비즈니스 환경 변화

학습 내용1. 오픈 AI 시작과 챗 GPT2. 오픈 AI와 MS의 연합3. 챗 GPT 어떻게 동작하는가?4. 챗 GPT4의 등장과 새로운 변화는?5. 생성형 AI는 어떻게 비즈니스를 확장하는가?학습 목표오픈 AI의 서립 과정CHAT GPT의 작동 원리생성형 인공지능과 비즈니스의 확장 가능성비즈니스 모델  1. 오픈 AI 시작과 Chat GPT구글은 2019년 T5를 시작으로 생성형 AI에 두각을 드러냈으나 GPT에 빼앗겼다.Attention is all you need - 트랜스포머 모델은 생성형 AI의 핵심 알고리즘 일론 머스크 - 알파고 같은 AI가 한 기업에 있을 시 인공지능이 몇몇 기업에 의해 좌지우지 될 것! -> 특정 기업의 인공지능 독점 방지를 위해 투자=> Open AI 탄생  샘 알트먼 ..

인공지능/공부 2024.09.18

LLM interpretability1 : Toy Models of Superposition

https://transformer-circuits.pub/2022/toy_model/ Toy Models of SuperpositionIt would be very convenient if the individual neurons of artificial neural networks corresponded to cleanly interpretable features of the input. For example, in an “ideal” ImageNet classifier, each neuron would fire only in the presence of a specific vtransformer-circuits.pub 제가 원했던 분야 중 하나입니다.드디어 조금씩 진행하게 되었네요 일부 뉴런은 명확..

동역학 정리 2주차 - 곡선 좌표계, 곡선 운동 curvilinear

https://youtu.be/ZCJfq77sFE8?si=BuVkGLRfDvfLGuKn 곡선 운동에서는 이동거리를 위치만 사용해서 구하면 안 되고, 원호를 통해 구해야 한다.즉 여기서 △r이 변위가 아니라 그 위에 있는 △s가 변위인 것이다. △r = r' - r△s != △r여기서 △t -> 0으로 가면 순간 속도를 구할 수 있게 되는데 이것은 항상 곡선의 접선(Tangent)이다.곡선 운동에서는 속도의 방향이 계속 바뀌기 때문에 가속도 0은 불가능하다! 속도 성분 구하는 법!velocity는 무조건 경로에 접선이다!가속도도 동일하게 구한다!acceleration도 hodograph(속도 벡터를 이어 붙여서 만든 path)에 접선이다.   투사체 운동수평(horizontal) 운동 - 등속 운동수직(V..

기타 2024.09.11

ESC-Eval: Evaluating Emotion Support Conversations in Large Language Models

https://arxiv.org/abs/2406.14952 ESC-Eval: Evaluating Emotion Support Conversations in Large Language ModelsEmotion Support Conversation (ESC) is a crucial application, which aims to reduce human stress, offer emotional guidance, and ultimately enhance human mental and physical well-being. With the advancement of Large Language Models (LLMs), many researchers haarxiv.org  ESC - 인간의 스트레스를 줄이고 정서적..

재미있는 인공지능 속 세상 여행 1, 2주차 - 생성형 AI

1주차 - 생성형 AI인공지능을 활용한 다양한 콘텐츠, 우리 삶의 변화에 대해 공부하는 것 같네요 생성형 AI란? - 사용자가 원하는대로 결과를 생성해 내는 AI 머신러닝 - 컴퓨터가 데이터를 기반으로 학습한다. -> 패턴을 찾아서 추론한다. ex) 이미지 학습하여 번호판 인식딥러닝 - 인간의 뇌를 컴퓨터에 디자인해서 사용 -> 컴퓨터를 여러 대를 사용하고, 데이터를 많이 사용하여 학습 ex) 알파고생성형 AI - 사람의 창의적인 행동까지 따라서 결과를 생성한다. Discriminate Model - 판단 모델 -> 학습을 통해 패턴을 찾아서 문제에 적용 Generative Model - 생성 모델 -> 데이터를 기반으로 명령을 따라 생성한다. 생성 모델 특징1. 거대한 모델 - 파라미터 2. 엄청난 수..

인공지능/공부 2024.09.10

동역학 과제 1

이 문제는 단순하게 풀렸다.변위, 평균 속도야 이동거리만 따져서 구할 수 있었고, 가속도는 속도를 시간으로 두 번 미분하여 구했습니다. a를 통해서 v를 구하였습니다.그러나 하도 손으로 수학을 안해서 그런지 저 적분할 때 부터 어떻게 했는지 기억이 안나서 잠깐 아리 까리 했었네요적분만 잘 진행했다면 식은 그 뒤로 쭉쭉 풀립니다.가속도와 위치가 섞여있는 식!그럼 속도와 가속도를 모두 섞은 시간이 없는 식을 사용해봅시다. 이 문제도 위의 문제와 동일하게 가속도를 위치로 표현했습니다.동일한 방식으로 적분하여 진행했습니다.분모에 미지수가 있을 때 적분하면 마이너스 붙는것도 깜빡하고 ㅎㅎ.... 시간에 대한 가속도를 줬으면 하나하나 천천히 적분해가면서 속도에 관한 식과 위치에 관한 식으로 바꿔줬습니다.이 부분에서..

기타 2024.09.09
728x90
728x90