반응형

2024/11 9

Learning Factored Representations in a Deep Mixture of Experts - 논문 리뷰

https://arxiv.org/abs/1312.4314 Learning Factored Representations in a Deep Mixture of ExpertsMixtures of Experts combine the outputs of several "expert" networks, each of which specializes in a different part of the input space. This is achieved by training a "gating" network that maps each input to a distribution over the experts. Such models shoarxiv.org 기존 MOE는 단일 layer에서 MOE를 진행했다면 여기서는 Dee..

Adaptive Mixtures of Local Experts - 논문 리뷰

https://www.cs.toronto.edu/~hinton/absps/jjnh91.pdf MOE의 근본 논문이네요MOE 학습하는 방식은 일반 네트워크와 다를 것이 없고, Gate를 통해서 가중치를 추가하여 각 네트워크에 퍼지게 됩니다.여기선 특정 전문가만 계산하는 것이 아니라 전체가 다 계산하게 되어 연산 량이 어마무시하게 늘긴 했습니다.  1. 해결하려는 문제이 논문은 복잡한 데이터 분포를 효과적으로 학습하기 위한 문제를 다루고 있습니다. 특히, 하나의 모델이 데이터의 모든 분포를 캡처하기 어렵기 때문에 이를 해결할 수 있는 방법을 제안하고자 합니다. 연구자들은 다양한 입력 특성에 따라 다른 전문가 모델을 활성화하여 각 지역의 데이터 분포에 적합한 예측을 수행할 수 있는 방법을 찾고 있습니다.2. ..

SelfIE: Self-Interpretation of Large Language Model Embeddings - 논문 리뷰

https://arxiv.org/abs/2403.10949 SelfIE: Self-Interpretation of Large Language Model EmbeddingsHow do large language models (LLMs) obtain their answers? The ability to explain and control an LLM's reasoning process is key for reliability, transparency, and future model developments. We propose SelfIE (Self-Interpretation of Embeddings), a frameworkarxiv.org 이 논문은 Sparse Autoencoder(SAE)와는 다르게 추가..

Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity - 논문 리뷰

https://arxiv.org/abs/2101.03961 Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient SparsityIn deep learning, models typically reuse the same parameters for all inputs. Mixture of Experts (MoE) defies this and instead selects different parameters for each incoming example. The result is a sparsely-activated model -- with outrageous numbers of pararxiv.org  1. 문제 ..

역사와 한국의 영토 10주차 - 독도 영유권

1차시 - 한 일 양국의 독도 영유권한일 양국의 독도 영유권 주장 1) 개요일본 정부 - 1954.07독도를 일본 영토로 주장하는 의견서 제출vs한국 정부 - 응수당시 한국 측이 주장한 내용을 포함, 17세기의 울릉도 분쟁 이 후 20세기 초까지의 독도에 관한 역사적 증거들을 고찰  2) 개정 일본 여지 노정 전도 (1779)18세기 이후 일본이 작성한 모든 공식 지도 - 독도를 조선 영토 혹은 일본 영토 외로 기재개정일본여지노정전도- 1779년 에도막부의 친번 미도번의 학자 나가쿠보 세키수이가 작성한 사찬 지도였는데 후에 관허 지도가 됨- 울릉도와 독도가 기재, 일본 측은 독도를 일본 영토로 주장할 때 이용하는 지도- 울릉도와 독도 그리고 조선의 남단도 그려져 있고, 경위도선이 그어져 있음개정일본여지노..

기타 2024.11.06

역사와 한국의 영토 9주차 - 해방 이후의 독도

1차시 - 일본에서의 독도 1. 일본 영역 참고도1) 독도에 관한 일본 국회에서의 질의응답샌프란시스코 조약은 1951.09.08 연합국과 패전국 일본 사이에서 조인1951.10.22 일본 국회의 소 위원회에서 샌프란시스코 조약 상 일본의 영토가 어떻게 되었는지 설명일본의 후생장관이 '일본영역참고도'를 위원회에 참석한 국회의원들에게 배포- 독도는 다케시마 or 리앙쿠르 락스로 기재 및 그 위에 선이 그어져 있듯이 보임 - 독도가 한국 측 영역에 들어가 있다는 것을 나타내는 반원 사회당 야마모토 국회의원의 질문 - 독도가 일본 영토인지 울릉도에 부속되어 조선에 옮겨지는지 설명을 해달라 일본 정부 쿠사바 후생성 장관의 답변- 현재 점령 하 행정구역에서 독도는 일본 영역에서 제외되어 있으나 평화 조약에 있어서 ..

기타 2024.11.06

Testing Occupational Gender Bias in Language Models: Towards Robust Measurement and Zero-Shot Debiasing - 논문 리뷰

https://arxiv.org/html/2212.10678v2 Testing Occupational Gender Bias in Language Models: Towards Robust Measurement and Zero-Shot DebiasingIn practice, given a job, we provide a prompt x:=(x1,..,xl)x:=(x_{1},..,x_{l})italic_x := ( italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , . . , italic_x start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT ) instructing a language model to generate text aboarx..

Bias and Fairness in Large Language Models: A Survey

https://arxiv.org/abs/2309.00770 Bias and Fairness in Large Language Models: A SurveyRapid advancements of large language models (LLMs) have enabled the processing, understanding, and generation of human-like text, with increasing integration into systems that touch our social sphere. Despite this success, these models can learn, perpetuatarxiv.org        논문 요약: Bias and Fairness in Large Langua..

Attention Speaks Volumes: Localizing and Mitigating Bias in Language Models - 논문 리뷰

https://arxiv.org/abs/2410.22517 Attention Speaks Volumes: Localizing and Mitigating Bias in Language ModelsWe explore the internal mechanisms of how bias emerges in large language models (LLMs) when provided with ambiguous comparative prompts: inputs that compare or enforce choosing between two or more entities without providing clear context for preference. Moarxiv.org 이 논문은 LLM의 편향을 조절하기 위해 A..

728x90
728x90