반응형

소프트웨어 741

자연어 처리 복습 3 - 토큰화, 임베딩, 언어 모델

한국어는 교착어로 조사나 어미가 발달되어 있기 때문에 띄어쓰기 단위인 어절로 토큰화를 진행하면 의미적인 훼손이 일어난다.형태소를 추출하여 분리하는 작업이 선행되어야 의미를 이해하는데 도움이 된다.품사 태깅(POS)도 중요하다.ex) fly = 날다(동사), 파리(명사)오타와, 띄어쓰기가 없어도 형태소 분석기를 사용하면 잘 분류하나, 종류마다 성능이 다 다르다.정제 과정은 아래에서 확인 가능합니다.2024.03.05 - [인공지능/자연어 처리] - 한국어 데이터 전처리 - 한국어 코퍼스 전처리 Python 실습 한국어 데이터 전처리 - 한국어 코퍼스 전처리 Python 실습한국어 코퍼스 전처리 실습 Introduction Chapter 2. 한국어 데이터 전처리 강의의 한국어 코퍼스 전처리 실습 강의입니다..

영어 저장소 22일차

nominate(후보자로)지명하다.nominate 는 사람을 목적어로 취해 그 사람을 '임명하다, 추천하다'의 뜻으로 뒤에 전치사 (for/as)와 함께 사용 된다.conditionally조건부로 appliance기기, 가전제품respective각각의 respect존경하다 strategically전략적으로briefly간략히, 잠시vendor판매자brief간결한, 간단한~에게 간단히 알리다.integral [형] 필수적인within [전] ~이내에 until further notice 추후 공지가 있을 때까지 burst [명] 폭발since '~이래로, 이후로' prior to '전에'job market 구직 시장 competitive [형] 경쟁하는 prepare oneself for ~에 스스로 대비하..

기타 2024.09.03

영어 저장소 21일차

go through 살펴보다, 조사하다 examine [동] 검토하다, 점검하다 as noted 언급된 대로 come with ~이 딸려오다 defective [형] 결함있는, 하자있는 come by 방문하다 overall [형] 전반적인 wear out 마모되다 besides [부] 게다가, 뿐만 아니라 components [명] 부품 detect [동] 감지하다 expire [동] 만료되다 in good working order (기계 등이) 제대로 작동하는invoice [명] 거래내역서, 송장 description [명] 설명, 묘사 completion [명] 완료 quite [부] 상당히, 꽤 have A on board A와 한 배를 타다, A를 합류시키다 workload [명] 작업량, 업무량..

기타 2024.09.02

영어 저장소 20일차

disclose공개하다, 드러내다 founder 창립자investigation조사 investment투자 excessive과도한, 지나친fulfill실행하다, 충족시키다.genuine순정의, 진짜의 collectively집합적으로, 연대로 hazardous위험한, 위태로운hesitate주저하다, 망설이다.facilitate촉진하다, 용이하게 하다.devise~을 고안하다device장치 deliberate신중한, 의도적인govern통제하다, 통치하다, 다스리다.distract흩어지게 하다, 산만하게 하다.emerge나타나다, 벗어나다convey전달하다

기타 2024.09.01

세미나 정리 8-29

RAG - 검색해서 쿼리로 그 문맥 넣기  == 결국 검색이랑 큰 차이 없다. IR을 기본적으로 알긴 해야 된다. BM -25 기본 검색 모델  reranking - 사용자가 진짜로 원하는 답변을 뽑아주기  색인이 잘 되어야 검색도 !  Dense모델은 임베딩을 잘 만들어야 된다. - 상위 랭킹이 잘 안보인다 == sparse 모델과 같이 써서 진행  문서 단위로 검색하면 우리가 보여주는 것이 진짜 검색이 잘 된 것인가, 얼마 단위로 잘라야 잘 보여주는 것인가  RAG 입력 - PDF로 입력  PDF는 정형적이지(정리되지) 않은 형태다 - 본문 주변에 계속 다른 말들이 적혀있다 == 합쳐진다. -> 정보에 노이즈 첨가 == 전처리가 필수  PDF 전처리기가 필요하다! - 입력이 확실하게 나눠서 들어가도록..

You Truly Understand What I Need: Intellectual and Friendly Dialogue Agents groundingKnowledge and Persona -리뷰

https://arxiv.org/abs/2301.02401 You Truly Understand What I Need: Intellectual and Friendly Dialogue Agents grounding Knowledge and PersonaTo build a conversational agent that interacts fluently with humans, previous studies blend knowledge or personal profile into the pre-trained language model. However, the model that considers knowledge and persona at the same time is still limited, leadinar..

자연어 처리 복습 2 - NLP Task, token, 데이터 전처리

NLU - 자연어 이해 = 기계가 자연어의 의미를 이해하는 것으로 의도나 감정, 질문 등을 사람처럼 이해하도록 돕는 것이다.NLG - 자연어 생성 = 자연어를 생성하도록 돕는 기술로 자연스럽고, 정확한 정보를 포함하는 문장을 생성한다. NLP Tasktext classification - 사전에 정의된 카테고리 할당 정보 추출 문장 변환 및 생성품사 분류 및 관계토픽, 키워드 추출자연어 추론information retrieval, document ranking - 두 문서나 문장 간 유사도를 결정하는 작업에서 시작 Text Similarity Task - Query text에 대해 document DB에서 가장 유사한 문서를 반환하는 것을 목표로 하는 retrival 혹은 ranking 작업으로 확장될 ..

자연어 처리 복습 1 - transformer, token, attention

기본적인 딥러닝은 이 전에 작성한 글에서 확인하면 됩니다.2024.08.25 - [인공지능/공부] - 딥러닝 복습 1 - Linear Reagression, Logistic regression,Neural Network 딥러닝 복습 1 - Linear Reagression, Logistic regression,Neural NetworkLinear Regression 선형 회귀로 지도학습(Supervised Learning)을 통해 정답을 학습해 입력에 대한 예측을 출력ex) 집값 예측, 키에 따른 몸무게 예측, 주식 등등..Cost function예측 값h(x)과 정답 값(y)에 대한yoonschallenge.tistory.com2024.08.25 - [인공지능/공부] - 딥러닝 복습 2 - Regula..

딥러닝 복습 2 - Regularization, Drop out, Hyper Parameter, optimization

Regularization이전 글에서 나왔던 오버 피팅을 방지하기 위해 나왔던 방법이다.2024.08.25 - [인공지능/공부] - 딥러닝 복습 1 - Linear Reagression, Logistic regression,Neural Network 딥러닝 복습 1 - Linear Reagression, Logistic regression,Neural NetworkLinear Regression 선형 회귀로 지도학습(Supervised Learning)을 통해 정답을 학습해 입력에 대한 예측을 출력ex) 집값 예측, 키에 따른 몸무게 예측, 주식 등등..Cost function예측 값h(x)과 정답 값(y)에 대한yoonschallenge.tistory.com이렇게 정규화 항은 loss function뒤..

인공지능/공부 2024.08.25
728x90
728x90