반응형

전체 글 1106

딥러닝 응용 3 - Fundamentals 2

Activation Functions - 다중 뉴럴 넷에 비선형성을 추가해줌기울기 소실과 같은 문제 때문에 활성 함수도 계속 진화해왔다. ELU는 또 처음 보네요 결국 Gradient 문제를 해결하거나, 다른 Activation function의 장점을 가져가기 위해 진화되었습니다.task마다, label 구조 마다 다양한 Loss function 함수를 골라서 사용한다. 모든 데이터 셋을 한 배치로 활용해서 epoch당 1번 파라미터 업데이트합니다.업데이트를 동일한 데이터 셋으로 계속 진행되니 결국 local minima에 빠질 수 밖에 없지 않나 싶습니다. 매 데이터 셋 마다 파라미터를 업데이트합니다. 마지막에 진동이 발생할 수 있고, 노이즈의 영향도 커지게 된다. 누적 후 배치 크기만큼 쌓이면 ..

딥러닝 응용 1, 2 - Intro, Fundamentals 1

질병 예측과 같이 참 거짓을 나눌 수 있다.항목이 많아진다면 더 다양한 종류를 분류할 수 있음DNN(Deep Neural Networks)는 뉴런을 모방함 2 - Fundamentals 1inut xoutput yWeight wbias b or w_0Linear regression : y = w^T*x Binary classification은 threshold function을 구하는 과정이라면 Sigmoid는 확률을 출력 Multiclass classification은 Softmax를 통해 진행되며 가장 높은 값 y_k값 선택 Stochastic gradient descent η - 학습률 (learning rate or step size)r은 여기서 gold 즉 정답이다.여기선 출력이 하나였는데 여..

인공지능/공부 2025.09.29

Training LLMs to be Better Text Embedders through Bidirectional Reconstruction 코드 까보기

2025.09.23 - [인공지능/논문 리뷰 or 진행] - Training LLMs to be Better Text Embedders through Bidirectional Reconstruction Training LLMs to be Better Text Embedders through Bidirectional Reconstructionhttps://arxiv.org/abs/2509.03020 Training LLMs to be Better Text Embedders through Bidirectional ReconstructionLarge language models (LLMs) have increasingly been explored as powerful text embedders. Existin..

인공지능/공부 2025.09.25

인공지능 저작권 보호 (Copyright protection in AI) - 1

요즘 Generation AI 시대로 접어들면서 이미지 생성, Text 생성, 음악, 비디오 등 다양한 분야에서 AI가 생성한 작업물들이 나오기 시작했다. 생성형 AI로 인해 다양한 문제가 발생하였고 다양한 가짜들 사이에서 진짜를 가려내야 하기도 한다.이제 디지털 콘텐츠 신뢰를 어떻게 보장할 것에 대해 문제가 생겼다.1. 암호학 - Cryptopraphy : 메시지 내용 보호가 목적 암호화 키와 복호화 키가 있으면 메세지를 암호화하고, 복호화하여 다시 그대로 받을 수 있다.2. 스테가노그래피 - Steganography : 메시지 존재 은닉이 목적 커버 매체 선택(이미지/오디오/비디오/텍스트)(선택) 비밀 메시지 암호화임베딩 기법으로 메시지 은닉수정된 스테고 객체 생성·전달수신자는 사용된 임베딩 방식/키..

Training LLMs to be Better Text Embedders through Bidirectional Reconstruction

https://arxiv.org/abs/2509.03020 Training LLMs to be Better Text Embedders through Bidirectional ReconstructionLarge language models (LLMs) have increasingly been explored as powerful text embedders. Existing LLM-based text embedding approaches often leverage the embedding of the final token, typically a reserved special token such as [EOS]. However, these tokens harxiv.org https://github.com/LU..

딥러닝 응용 - 3주차

Multilabel Classification각각이 하나의 label을 할당받은게 아닌 여러 개의 label에 걸쳐있는 경우 더보기좋아요. 핵심만 딱 잡아 정리해볼게요.단일 출력(sigmoid·binary)에서 멀티 출력으로 갈 때 “파라미터 업데이트”는 사실 형태만 바뀔 뿐, 공통 패턴은 δ = y − r(예측–정답)입니다. 차이는 출력층의 활성화/손실 조합과 그에 따른 δ의 상호작용(클래스 간 결합 유무)에 있습니다.1) 문제 유형별 핵심 공식A. 다중 클래스(단일 라벨, K개 클래스)출력: s=Wz+b \mathbf{s} = W\mathbf{z}+ \mathbf{b}, y=softmax(s)\mathbf{y}=\mathrm{softmax}(\mathbf{s})손실: L=−∑i=1Krilog⁡yi..

인공지능/공부 2025.09.15

Repurposing Language Models into Embedding Models: Finding the Compute-Optimal Recipe

https://arxiv.org/abs/2406.04165 Repurposing Language Models into Embedding Models: Finding the Compute-Optimal RecipeText embeddings are essential for many tasks, such as document retrieval, clustering, and semantic similarity assessment. In this paper, we study how to contrastively train text embedding models in a compute-optimal fashion, given a suite of pre-trained dearxiv.orgDecoder LLM을 Co..

Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge

https://arxiv.org/abs/1803.05457 Think you have Solved Question Answering? Try ARC, the AI2 Reasoning ChallengeWe present a new question set, text corpus, and baselines assembled to encourage AI research in advanced question answering. Together, these constitute the AI2 Reasoning Challenge (ARC), which requires far more powerful knowledge and reasoning than previouarxiv.org 이 것도 과제가 생겨서.... Abst..

An Empirical Study of Clinical Note Generation from Doctor-Patient Encounters

진료 차트 작성해야 할 일이 생겨서....Reference, Prediction 중첩도 Rouge-1 점수를 올려야 해서 일단......논문 확인부터 했습니다.https://aclanthology.org/2023.eacl-main.168/ An Empirical Study of Clinical Note Generation from Doctor-Patient EncountersAsma Ben Abacha, Wen-wai Yim, Yadan Fan, Thomas Lin. Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics. 2023.aclanthology.orgAbst..

딥러닝 응용 - 2주차

시냅스는 10^11개 있고, 10^14개의 연결이 존재 x_0는 Bias가 되고, 이 것을 통해 linear regression 혹은 Classification이 진행될 수 있음 Sigmoid를 통해 확률 값으로 추정할 수 있다. 입 출력이 여러 개다.출력도 벡터 상태이고, Multi Classification를 Softmax 통해 진행하여 각각의 확률 값 알 수 있음 stochastic gradient descent - 기울기의 반대 방향으로 lr을 통해 최적점으로 계속 학습 Multi linear output nodes에서도 동일하게 진행된다 확률로 해석하고 싶다 - Sigmoid or Softmax Entropy - 확률이 0이나 1이면 Entropy는 0 정보가 얼마나 있나 -> 정보가 없으면 큰..

인공지능/공부 2025.09.08
728x90
728x90