https://arxiv.org/abs/2311.01343
요약
이 논문은 대형 언어 모델(LLM)을 활용한 추천 시스템(CLLM4Rec)을 소개하며, 이를 통해 전통적인 ID 기반 추천 시스템이 가진 한계를 극복하고자 한다. 논문은 특히 LLM을 통해 사용자의 텍스트 피드백과 항목의 텍스트 설명을 바탕으로 더 나은 추천을 제공하는 방법을 탐구한다. 연구는 ID와 LLM 기반 접근 방식의 결합을 통해 더 정밀한 추천을 제공하려는 목적을 가지고 있다.
문제 정의
기존의 추천 시스템은 사용자의 암시적 피드백을 기반으로 동작하며, 사용자와 항목에 대한 텍스트 정보를 제한적으로 활용했다. 이로 인해 사용자와 항목의 실제 의미를 충분히 반영하지 못하고, 추천의 일반화 능력이 떨어지는 문제가 발생했다.
방법론
- CLLM4Rec 모델: 이 모델은 사용자와 항목의 텍스트 특징을 사용하여, 대형 언어 모델을 통해 추천을 제공한다. 이를 위해 사용자 및 항목에 대해 텍스트 설명을 학습하고, 이를 통해 추천을 생성하는 방법을 사용한다.
- Soft+Hard Prompting: CLLM4Rec는 사용자/항목의 이력과 텍스트 정보를 기반으로 한 소프트 및 하드 프롬프트 방식을 사용하여 학습한다.
- 상호 규제 사전 학습: 콘텐츠 LLM과 협업 LLM 간의 상호 규제를 통해 사용자/항목의 협업 및 콘텐츠 정보를 효과적으로 학습한다.
실험 결과
- 데이터셋: CLLM4Rec는 여러 공공 데이터셋에서 실험되었으며, AM-Beauty, AM-Sports, AM-Toys, Yelp, LinkedIn과 같은 다양한 데이터셋에서 우수한 성능을 보였다.
- 성능 비교: CLLM4Rec는 기존의 ID 기반 추천 시스템과 비교하여 더 높은 성능을 보여주었으며, 특히 대형 언어 모델의 사전 학습된 지식을 활용하여 더 정밀한 추천을 제공하였다.
한계점
- 복잡성: CLLM4Rec는 대형 언어 모델을 활용함에 따라 높은 계산 비용이 발생하며, 실시간 추천을 제공하는 데 있어 효율성 문제를 가질 수 있다.
- 데이터 의존성: 모델의 성능은 텍스트 데이터의 양과 품질에 크게 의존한다. 또한, 다양한 데이터셋에 대한 일반화 능력을 향상시키기 위한 추가 연구가 필요하다.
결론
이 논문은 LLM을 활용한 새로운 추천 시스템 접근 방식을 제안하며, 기존의 ID 기반 시스템의 한계를 극복하기 위한 방향을 제시한다. CLLM4Rec는 텍스트 기반의 콘텐츠 이해와 협업 필터링을 결합하여 보다 정교한 추천을 가능하게 한다.
방법론이 이해가 가지 않아
방법론 상세 설명
1. CLLM4Rec 모델
CLLM4Rec는 대형 언어 모델(LLM)을 사용하여 사용자와 항목의 텍스트 데이터를 기반으로 추천을 생성하는 모델입니다. 이 모델은 텍스트 설명을 활용하여 사용자와 항목의 특징을 학습합니다. 이를 위해, 사용자와 항목의 상호작용 기록과 텍스트 설명을 변환하여 각각의 문서를 생성하고 이를 기반으로 모델을 학습시킵니다 .
2. Soft+Hard Prompting
Soft+Hard Prompting 전략은 추천 시스템에서의 특정 코퍼스의 언어 모델링을 용이하게 하기 위해 설계되었습니다. 이 전략은 사용자와 항목의 상호작용 기록 및 텍스트 특징에서 생성된 문서를 두 부분으로 나눕니다:
- Soft+Hard Prompt: 이 부분은 문서의 핵심 정보를 제공하며, 사용자/항목의 소프트 토큰(예: 사용자, 항목)과 하드 토큰(예: 어휘)으로 구성됩니다.
- Main Text: 동질적인 항목/어휘 토큰으로 이루어진 주요 텍스트입니다.
이를 통해 모델은 협업 정보와 콘텐츠 정보를 보다 효과적으로 학습할 수 있으며, 안정적인 언어 모델링을 수행할 수 있습니다 .
3. 상호 규제 사전 학습
CLLM4Rec는 협업 LLM과 콘텐츠 LLM의 상호 규제를 통해 사용자와 항목의 협업 및 콘텐츠 정보를 학습합니다. 협업 LLM은 사용자와 항목 간의 상호작용을 학습하며, 콘텐츠 LLM은 텍스트 설명을 학습합니다. 상호 규제 사전 학습은 이 두 모델이 서로의 정보를 보완하며 학습하도록 유도합니다. 이는 협업 LLM이 추천 관련 정보를 학습하고, 콘텐츠 LLM이 부가적인 정보를 제공하여 추천 성능을 높이도록 합니다 .
결론
CLLM4Rec는 이러한 방법론을 통해 사용자와 항목의 의미를 보다 깊이 이해하고, 그 결과 더 정확한 추천을 제공할 수 있습니다. Soft+Hard Prompting 전략과 상호 규제 사전 학습을 통해 모델은 텍스트 기반의 콘텐츠와 협업 필터링 정보를 동시에 활용하여 성능을 향상시킵니다 .
Soft-Hard Prompting?
Soft+Hard Prompting 설명
Soft+Hard Prompting 전략은 추천 시스템을 위한 문서의 언어 모델링을 용이하게 하기 위해 설계된 방법입니다. 이 방법은 다음과 같은 두 가지 중요한 구성 요소를 가지고 있습니다:
- Soft+Hard Prompt: 이 부분은 텍스트 문서의 첫 번째 부분을 나타내며, 문서의 전반적인 맥락을 제공하는 "soft" 토큰(예: 사용자나 항목)과 "hard" 토큰(예: 어휘)으로 구성됩니다. 이 프롬프트는 대형 언어 모델(LLM)이 문서의 주요 내용을 이해할 수 있도록 도와줍니다. 예를 들어, "사용자 A는 아이템 B와 상호작용했다"라는 표현에서 "사용자 A"와 "아이템 B"는 soft 토큰, "상호작용했다"는 hard 토큰으로 간주됩니다 .
- Main Text: 문서의 두 번째 부분으로, 주로 일관된 항목 토큰이나 어휘 토큰으로 구성됩니다. 예를 들어, 특정 아이템에 대한 상세 설명이나 사용자 리뷰 등의 실제 내용이 포함됩니다. 이 부분은 Soft+Hard Prompt가 제공하는 문맥을 기반으로 상세한 내용을 다루고 있습니다 .
구현 방식
Soft+Hard Prompting을 구현할 때, 예를 들어 GPT와 같은 디코더 전용 LLM에서는 이질적인 토큰(soft와 hard 토큰)만을 포함하는 프롬프트 부분의 "키"와 "값"을 생성하고, 마지막 토큰의 "쿼리"를 사용하여 주 텍스트 부분(일관된 항목 또는 어휘 토큰) 생성의 시작점을 잡습니다. 이를 통해 모델은 주 텍스트 부분의 언어 모델링에 집중할 수 있습니다. 반면, T5와 같은 인코더-디코더 기반 LLM의 경우, 프롬프트를 인코더에 입력하고, 디코더를 사용하여 주 텍스트를 생성하는 방식으로 구현할 수 있습니다 .
주요 기능
Soft+Hard Prompting 전략은 추천 시스템에서 중요한 협업 및 콘텐츠 정보를 효과적으로 학습할 수 있도록 도와줍니다. 이 방법을 통해 모델은 프롬프트에 포함된 문맥 정보를 바탕으로 주 텍스트 부분의 내용에 집중하여 더 안정적이고 효과적인 언어 모델링을 수행할 수 있습니다. 또한, 이 전략은 다양한 표현에도 불구하고 일관된 학습 및 테스트 단계를 보장하여 모델의 안정성을 유지합니다 .
이 방법론은 LLM을 추천 시스템에 적용할 때, 사용자와 항목의 다양한 특징을 효과적으로 학습하고, 이를 바탕으로 정밀한 추천을 생성하는 데 기여합니다.
구현 방식?
Soft+Hard Prompting 구현 방식 상세 설명
1. GPT와 같은 디코더 전용 LLM
디코더 전용 LLM은 일반적으로 입력 시퀀스를 받아 다음 토큰을 예측하는 방식으로 작동합니다. Soft+Hard Prompting을 사용하는 경우, 프롬프트는 "soft" 토큰과 "hard" 토큰으로 구성된 이질적인 텍스트로 시작합니다. 이 프롬프트는 모델이 예측을 시작하기 전에 주 텍스트의 맥락을 설정하는 역할을 합니다.
- Soft 토큰: 사용자나 항목을 대표하는 고유 토큰으로, 예를 들어 <user_123>나 <item_456>과 같은 형태로 나타납니다. 이 토큰들은 모델이 사용자 또는 항목의 구체적인 ID나 속성에 대한 정보를 인식하도록 돕습니다.
- Hard 토큰: 일반적인 어휘에서 가져온 단어들로, 예를 들어 "bought", "likes"와 같은 단어들입니다. 이 토큰들은 주 텍스트의 주제를 명확하게 나타내는 역할을 합니다.
예시
Soft+Hard Prompt: "<user_123> has interacted with <item_456> <item_789> ..."
Main Text: "Item_456 is a novel about space exploration. The protagonist..."
이 프롬프트는 GPT 모델에서 "키"와 "값"으로 사용됩니다. 모델은 이 프롬프트를 입력받아 "쿼리"로 사용할 수 있는 마지막 토큰의 벡터 표현을 생성합니다. 그런 다음, 이 "쿼리"를 사용하여 주 텍스트의 첫 번째 토큰부터 순차적으로 생성합니다. 이 과정에서 프롬프트의 정보가 주 텍스트의 생성을 돕습니다.
2. T5와 같은 인코더-디코더 기반 LLM
T5는 인코더-디코더 아키텍처를 사용하며, 입력 시퀀스를 인코더에 넣고, 이를 통해 디코더가 출력 시퀀스를 생성합니다. Soft+Hard Prompting의 경우, 프롬프트는 인코더로 전달되어 인코딩됩니다.
- 인코더: Soft+Hard 프롬프트를 인코딩하여 컨텍스트 벡터를 생성합니다. 이 벡터는 디코더가 주 텍스트를 생성할 때 참조할 정보입니다.
- 디코더: 인코더에서 생성된 컨텍스트 벡터를 사용하여 주 텍스트를 생성합니다.
예시
Soft+Hard Prompt (Input to Encoder): "The review for <item_456> says: ..."
Main Text (Generated by Decoder): "This book provides a deep insight into..."
이와 같이, 인코더는 주어진 프롬프트를 이해하고, 디코더는 해당 프롬프트를 바탕으로 후속 텍스트를 생성합니다. 이 방식은 모델이 주어진 문맥에 대한 이해를 바탕으로 더 일관된 텍스트를 생성할 수 있도록 돕습니다.
추가적인 예시 설명
Soft+Hard Prompting의 중요한 점은 프롬프트가 제공하는 정보가 모델이 다음 토큰을 예측할 때 중요한 역할을 한다는 것입니다. 예를 들어, 특정 사용자가 특정 카테고리의 아이템을 여러 번 상호작용했다는 프롬프트를 주면, 모델은 다음에 해당 사용자가 비슷한 카테고리의 아이템에 관심을 가질 가능성이 높다고 예측할 수 있습니다. 이러한 방식으로 Soft+Hard Prompting은 모델이 더 정확한 추천을 할 수 있도록 도와줍니다.
그러니까 소프트+하드 프롬포트의 내용을 가지고 Main Text를 만든다는 것이야?
소프트+하드 프롬포트가 키 값으로 사용되고, 쿼리는 생성된 값인거고?
네, 정확합니다. Soft+Hard Prompting 전략은 프롬프트의 내용을 기반으로 주 텍스트(Main Text)를 생성합니다. 프롬프트는 "soft" 토큰과 "hard" 토큰으로 구성되며, 이를 통해 모델이 주 텍스트를 생성할 때 필요한 컨텍스트를 제공합니다.
Soft+Hard Prompting의 구성 및 역할
- Soft+Hard Prompt:
- Soft 토큰: 사용자나 항목을 대표하는 고유 토큰입니다. 예를 들어, <user_123>나 <item_456>와 같은 토큰입니다. 이는 모델이 특정 사용자나 항목에 대해 인식할 수 있도록 돕습니다.
- Hard 토큰: 일반적인 어휘에서 가져온 단어들입니다. 예를 들어, "has interacted with", "writes the review for"와 같은 단어들입니다. 이는 모델이 주 텍스트의 맥락을 이해하는 데 도움을 줍니다.
- Main Text:
- Soft+Hard Prompt에 의해 설정된 문맥을 바탕으로 생성되는 텍스트입니다. 예를 들어, 아이템에 대한 상세 설명이나 사용자 리뷰 등이 포함됩니다.
작동 방식
디코더 전용 LLM(GPT 예시)
- Soft+Hard Prompt: 모델 입력 시퀀스의 첫 번째 부분입니다.
- 키/값 쌍: 프롬프트의 각 토큰이 "키"와 "값" 역할을 합니다.
- 쿼리: 주 텍스트의 첫 번째 토큰 생성을 시작하기 위한 문맥 정보를 제공하는 프롬프트의 마지막 토큰 벡터입니다.
Soft+Hard Prompt: "<user_123> has interacted with <item_456> <item_789> ..."
Main Text: "Item_456 is a novel about space exploration. The protagonist..."
인코더-디코더 기반 LLM(T5 예시)
- 인코더 입력: Soft+Hard 프롬프트를 인코더에 입력합니다.
- 컨텍스트 벡터: 인코더가 프롬프트를 인코딩하여 생성한 벡터입니다.
- 디코더 출력: 인코더의 컨텍스트 벡터를 바탕으로 주 텍스트를 생성합니다.
Soft+Hard Prompt (Input to Encoder): "The review for <item_456> says: ..."
Main Text (Generated by Decoder): "This book provides a deep insight into..."
요약
Soft+Hard Prompting 전략은 프롬프트의 내용을 기반으로 주 텍스트를 생성하는 방식입니다. 프롬프트는 키와 값으로 사용되며, 마지막 토큰은 쿼리로 사용되어 주 텍스트 생성을 시작합니다. 이 방법은 모델이 주어진 문맥을 이해하고, 더 일관되고 정확한 텍스트를 생성할 수 있도록 돕습니다.
그럼 상호 규제 사전 학습은 한 LLM은 사용자의 선호도에 대해 학습하는 거고, LLM은 아이탬이나 사용자에 대한 설명을 학습하는거야?
이렇게 학습해서 어떻게 이점을 가지는 거지?
네, 정확합니다. 상호 규제 사전 학습(Mutually Regularized Pretraining)은 두 개의 대형 언어 모델(LLM)을 사용하는 방식으로, 하나는 사용자와 아이템 간의 상호작용 데이터를 기반으로 학습하고(협업 LLM), 다른 하나는 사용자와 아이템에 대한 텍스트 설명을 기반으로 학습합니다(콘텐츠 LLM). 이 두 모델은 서로 보완적인 역할을 하며, 각각의 모델이 가지고 있는 정보를 활용하여 더 나은 학습을 수행합니다.
상호 규제 사전 학습의 작동 방식
- 협업 LLM (Collaborative LLM):
- 이 모델은 주로 사용자와 아이템 간의 상호작용 데이터(예: 구매 기록, 클릭 기록 등)를 학습합니다.
- 예를 들어, 특정 사용자가 어떤 아이템을 여러 번 클릭하거나 구매했다면, 협업 LLM은 이러한 패턴을 학습하여 해당 사용자가 선호하는 아이템의 유형을 파악할 수 있습니다.
- 콘텐츠 LLM (Content LLM):
- 이 모델은 아이템에 대한 텍스트 설명(예: 상품 설명, 리뷰, 사용자의 프로필 등)을 학습합니다.
- 예를 들어, 책에 대한 상세한 설명이나 사용자의 취향을 반영한 리뷰를 통해, 콘텐츠 LLM은 해당 아이템이 어떤 특징을 가지고 있는지, 사용자들이 어떻게 생각하는지를 학습할 수 있습니다.
상호 규제의 이점
상호 규제는 두 모델이 서로의 정보를 보완하여 학습할 수 있도록 돕습니다. 이는 다음과 같은 이점을 제공합니다:
- 정보의 상호 보완: 협업 LLM은 사용자와 아이템 간의 상호작용에서 추출된 협업 정보를 제공하며, 콘텐츠 LLM은 텍스트 기반의 상세한 설명을 제공합니다. 이 두 정보는 서로 다른 관점에서 사용자의 선호도와 아이템의 특성을 이해하는 데 도움을 줍니다.
- 더 나은 추천 정확도: 두 모델이 각기 다른 데이터를 기반으로 학습하면서도 상호 규제에 의해 연결되어 있기 때문에, 하나의 모델이 놓칠 수 있는 정보를 다른 모델이 보완해 줄 수 있습니다. 예를 들어, 협업 LLM이 학습하지 못한 사용자 선호도를 콘텐츠 LLM이 텍스트 설명을 통해 학습할 수 있습니다.
- 노이즈 감소: 콘텐츠 LLM이 텍스트 데이터를 학습할 때 발생할 수 있는 노이즈(예: 비추천 관련 정보)를 협업 LLM이 보완할 수 있습니다. 반대로, 협업 LLM이 스팸이나 잘못된 상호작용 데이터를 학습할 때, 콘텐츠 LLM의 텍스트 정보가 그 노이즈를 걸러내는 역할을 할 수 있습니다.
결론
상호 규제 사전 학습은 협업 LLM과 콘텐츠 LLM이 서로의 강점을 최대한 활용할 수 있도록 설계되었습니다. 이를 통해 추천 시스템의 성능을 향상시키고, 사용자에게 더 정확한 추천을 제공할 수 있습니다. 두 모델의 협력으로 인한 정보의 보완성과 상호 규제는 특히 텍스트 데이터와 상호작용 데이터가 혼합된 복잡한 환경에서 큰 장점을 제공합니다.
그럼 결국 이렇게 2개에서 나온 LLM의 output이 어떻게 생긴거고, 어떻게 활용되는 거야?
두 데이터가 그냥 합친다음에 임베딩을 만드는 곳에 사용되는 거야?
상호 규제 사전 학습에서 두 개의 LLM (협업 LLM과 콘텐츠 LLM)이 생성한 결과(output)는 서로 보완적인 정보를 제공하며, 최종 추천 시스템의 성능을 향상시키기 위해 사용됩니다. 이 두 LLM의 결과를 활용하는 방식은 다음과 같습니다:
1. Output의 생성
- 협업 LLM의 Output: 협업 LLM은 사용자와 아이템 간의 상호작용 데이터를 기반으로 사용자와 아이템에 대한 임베딩을 생성합니다. 이 임베딩은 사용자가 과거에 상호작용한 아이템들 간의 관계를 반영합니다.
- 콘텐츠 LLM의 Output: 콘텐츠 LLM은 사용자와 아이템에 대한 텍스트 설명을 기반으로 임베딩을 생성합니다. 이 임베딩은 텍스트 데이터에서 추출된 세부적인 내용과 사용자의 선호도를 반영합니다.
2. 두 LLM의 Output 활용 방식
- 임베딩 결합: 두 LLM이 생성한 임베딩은 상호 보완적인 정보를 포함하고 있기 때문에, 이 임베딩들을 결합하여 최종적인 사용자와 아이템의 표현을 생성합니다. 결합 방식은 단순히 임베딩 벡터를 합치는 방식일 수도 있고, 더 복잡한 신경망을 사용하여 결합할 수도 있습니다.
- 추천 생성: 결합된 임베딩은 최종적으로 추천 시스템에서 사용됩니다. 예를 들어, 사용자의 결합된 임베딩과 아이템의 결합된 임베딩 간의 유사도를 계산하여 추천할 아이템을 결정할 수 있습니다. 이 때, 유사도가 높은 아이템이 사용자가 선호할 가능성이 높은 아이템으로 추천됩니다.
3. 상호 규제의 역할
- 정보 강화: 상호 규제는 두 LLM이 생성한 임베딩이 더 풍부한 정보를 포함하도록 합니다. 예를 들어, 협업 LLM이 사용자와 아이템의 상호작용을 통해 얻은 패턴을 콘텐츠 LLM이 텍스트 설명을 통해 보완할 수 있습니다.
- 노이즈 감소: 텍스트 데이터와 상호작용 데이터에서 발생할 수 있는 노이즈를 서로 걸러내는 역할을 합니다. 협업 LLM이 스팸이나 불필요한 상호작용 데이터를 포함할 때, 콘텐츠 LLM이 이를 보완해 줄 수 있습니다. 반대로, 콘텐츠 LLM이 텍스트 데이터에서 발생할 수 있는 노이즈를 걸러낼 때, 협업 LLM이 이를 보완할 수 있습니다.
결론
결국, 두 LLM의 결과는 결합된 임베딩 벡터로 표현되며, 이는 최종적인 추천 시스템의 핵심 요소가 됩니다. 이 결합된 임베딩은 사용자의 선호도와 아이템의 특성을 더 정확하게 반영하며, 이를 통해 사용자가 관심을 가질 만한 아이템을 추천할 수 있게 됩니다. 이러한 접근 방식은 특히 텍스트와 상호작용 데이터가 혼합된 환경에서 효과적입니다.
최근 사전 학습된 대형 언어 모델(LLMs)을 기반으로 한 차세대 추천 시스템(RSs) 개발에 대한 관심이 증가하고 있습니다. 그러나 자연어와 추천 작업 간의 의미적 차이는 여전히 잘 해결되지 않아 사용자/아이템 설명자 간의 상관 관계 오류, 사용자/아이템 데이터에 대한 비효율적인 언어 모델링, 자동 회귀를 통한 비효율적인 추천 등의 여러 문제가 발생하고 있습니다. 본 논문에서는 이러한 문제들을 동시에 해결하기 위해 LLM 패러다임과 ID 패러다임을 긴밀하게 통합한 최초의 생성형 추천 시스템인 CLLM4Rec을 제안합니다. 우리는 먼저 사전 학습된 LLM의 어휘를 사용자/아이템 ID 토큰으로 확장하여 사용자/아이템 협업 및 콘텐츠 의미를 충실히 모델링합니다. 이에 따라 RS 전용 코퍼스에 대한 언어 모델링을 통해 사용자/아이템 협업/콘텐츠 토큰 임베딩을 효과적으로 학습하기 위한 새로운 소프트+하드 프롬프트 전략을 제안합니다. 여기서 각 문서는 이질적인 소프트(사용자/아이템) 토큰과 하드(어휘) 토큰으로 구성된 프롬프트와 동질적인 아이템 토큰 또는 어휘 토큰으로 구성된 주요 텍스트로 나뉩니다. 또한, CLLM4Rec이 노이즈가 많은 사용자/아이템 콘텐츠에서 추천 관련 정보를 포착할 수 있도록 돕는 새로운 상호 규제 전략이 도입되었습니다. 마지막으로, CLLM4Rec의 사전 학습된 백본에 다항 가능성이 있는 아이템 예측 헤드를 추가하여 마스킹된 사용자-아이템 상호작용 이력에서 설정된 소프트+하드 프롬프트를 기반으로 홀드아웃 아이템을 예측하는 새로운 추천 지향 미세 조정 전략을 제안합니다. 이를 통해 여러 아이템에 대한 추천을 효율적으로 생성할 수 있습니다.
1. 서론
웹에서 콘텐츠가 기하급수적으로 증가함에 따라, 추천 시스템(RS)은 온라인 서비스 플랫폼의 필수 구성 요소가 되었습니다. 그러나 RS는 오랫동안 고유한 연속 ID 임베딩을 통해 사용자/아이템의 의미적 유사성을 나타내는 ID 기반 패러다임에 의해 지배되어 왔습니다. 대표적인 ID 기반 RS에는 행렬 분해 기반 방법(PMF)과 사용자/아이템 ID 임베딩이 무작위로 초기화되고 과거의 상호작용에서 학습되는 두 개의 타워 모델이 있습니다(예: 협업 필터링, 콘텐츠 기반 방법).
최근 들어 대형 언어 모델(LLM)은 학계와 산업계 모두에서 뜨거운 주제가 되었습니다. GPT, T5, LLaMA와 같은 대규모 코퍼스에서 사전 학습된 대형 트랜스포머 네트워크는 자연어의 지식과 패턴에 대한 놀라운 이해를 보여주며 등장했습니다. 따라서 사전 학습된 LLM을 기반으로 차세대 RS를 개발하는 것은 매우 유망하며, 특히 현대 온라인 서비스 플랫폼에서 사용자가 전기, 설명, 콘텐츠, 리뷰, 설명 등 대량의 텍스트 특징과 관련된 경우 더 정확한 추천을 제공할 수 있습니다.
여러 선행 연구에서는 RS에 LLM을 적용하는 방법을 탐구했습니다. 일반적으로 이러한 방법은 두 단계로 요약될 수 있습니다: (i) 먼저 사용자/아이템을 연속 ID 임베딩으로 표현하는 대신, 관련된 정보를 불연속적인 자연어 기반 프롬프트로 변환합니다. (ii) 그런 다음, 이 프롬프트를 사용하여 LLM을 쿼리하고, 추천과 관련된 정보를 LLM의 텍스트 출력에서 추출하여 추천을 생성합니다. 위의 절차는 사전 학습된 LLM에서 직접 추천 결정을 얻는 제로샷 방식으로 수행될 수 있습니다. 사전 학습된 LLM을 사용하여 사용자와 아이템에 대한 모든 관련 정보를 ChatGPT와 같은 대화창에 입력하고, 사용자가 해당 아이템과 상호작용할지 묻는 방식입니다.
NLP와 추천 간의 근본적인 차이를 해결하기 위해 우리는 CLLM4Rec을 제안합니다. CLLM4Rec은 RS의 ID 패러다임과 LLM 기반 패러다임을 긴밀하게 결합한 최초의 생성형 RS입니다. 우리는 먼저 사전 학습된 LLM의 어휘를 사용자/아이템 ID 토큰으로 확장하여 사용자/아이템 협업 및 콘텐츠 의미를 충실히 모델링합니다. 이를 통해 이질적인 토큰이 포함된 문서에서 효과적인 언어 모델링을 위한 새로운 "soft+hard" 프롬프트 전략을 제안합니다. 각 문서는 소프트(사용자/아이템)와 하드(어휘) 토큰으로 구성된 프롬프트와 협업 모델링을 위한 동질적인 아이템 토큰 또는 콘텐츠 모델링을 위한 어휘 토큰으로 나누어집니다. 이 전략을 통해 두 LLM의 예측 헤드는 협업 정보와 콘텐츠 정보에 집중할 수 있으며, 언어 모델링의 안정성과 효과가 크게 향상됩니다. 또한, 협업 LLM에서 아이템 토큰의 순서를 무시하고 어휘 토큰에 부정적인 영향을 주지 않도록 하기 위해 확률적 아이템 재정렬 전략이 제안되었습니다. 마지막으로, 우리는 CLLM4Rec의 사전 학습된 협업 LLM 백본에 다항 가능성이 있는 아이템 예측 헤드를 추가하여 마스킹된 사용자 상호작용 이력에서 설정된 soft+hard 프롬프트를 기반으로 홀드아웃 아이템을 예측하는 새로운 추천 지향 미세 조정 전략을 제안합니다. 이를 통해 여러 아이템에 대한 추천을 효율적으로 생성할 수 있습니다.
이 논문의 기여는 다음과 같이 요약될 수 있습니다:
- CLLM4Rec은 ID 패러다임과 LLM 패러다임을 긴밀하게 결합한 최초의 생성형 RS로, LLM 어휘 공간에 정렬된 사용자/아이템 ID 토큰 임베딩이 도입되어 내재된 사용자 관심사와 아이템 속성을 잘 포착할 수 있습니다.
- 새로운 soft+hard 프롬프트 전략이 제안되어, 협업 정보와 콘텐츠 정보를 효과적으로 학습할 수 있습니다.
- 추천 지향 미세 조정 전략이 제안되어 다항 가능성 기반 아이템 예측 헤드를 통해 여러 아이템에 대한 추천을 효율적으로 생성할 수 있습니다.
2 관련 연구
2.1 대형 언어 모델(LLM) 기초
대규모 코퍼스에서 학습된 대형 트랜스포머 네트워크, 즉 대형 언어 모델(LLM)은 자연어와 논리적 추론 능력에 대한 전례 없는 이해를 보여주었습니다. 언어 모델링에 사용되는 트랜스포머의 부분에 따라, 기존 LLM은 세 가지 유형으로 분류될 수 있습니다: (i) 인코더만을 사용하는 LLM, 예를 들어 BERT, (ii) 인코더-디코더 기반 LLM, 예를 들어 T5, (iii) 디코더만을 사용하는 LLM, 예를 들어 GPT, LLaMA. 우리는 인코더만을 사용하는 모델에 비해 뛰어난 생성 능력을 가지고 있는 디코더가 포함된 LLM에 중점을 둡니다. LLM의 학습은 주로 두 단계로 이루어집니다. 사전 학습 단계에서는 LLM이 대규모 코퍼스를 통해 언어 모델링(즉, 다음/마스크된 토큰 예측)을 통해 학습되며, 이는 스택된 셀프 어텐션 모듈을 통해 트랜스포머 네트워크 가중치에 효과적으로 지식을 인코딩할 수 있게 합니다. 그런 다음, 미세 조정 단계에서는 여러 생성된 답변에 대한 예제 프롬프트-출력 쌍이나 사용자 피드백을 LLM에 제공하여, 사전 학습된 지식을 바탕으로 프롬프트에 따라 논리적 추론을 수행하고 답변을 생성할 수 있도록 합니다.
2.2 추천 시스템에서의 LLM
최근 LLM 기반 RS는 ID 기반 RS의 오랜 문제들, 예를 들어 사용자/아이템 텍스트 특징에 대한 얕은 이해, 낮은 일반화 능력 등을 해결할 가능성을 보여주었습니다. Hou 등은 기존 LLM이 제로샷 랭커로 사용될 수 있음을 보여주었으며, 이는 사용자 과거 상호작용과 영화 설명을 기반으로 영화의 관련성을 정렬할 수 있습니다. 최근에는 추천 지향 모델을 얻기 위해 LLM을 미세 조정하는 데 더 많은 노력이 기울여졌습니다. 대표적인 예로 P5는 상호작용과 사용자/아이템 특징에서 구축된 코퍼스에서 T5를 미세 조정하며, 아이템은 가상 ID로 제시됩니다. 이후 M6가 제안되어 텍스트 채우기와 자동 회귀 작업을 사전 학습 단계에서 결합하며, 가상 ID는 텍스트 설명으로 대체됩니다. 최근에는 TALLRec이 제안되었으며, 아이템은 가상 ID와 텍스트 설명 모두로 표현됩니다. 그러나 가상 ID 기반 아이템 표현은 관련 없는 아이템 간의 잘못된 상관관계를 도입할 수 있습니다. 이 문제를 해결하기 위해 Hua 등은 아이템을 설명하기 위해 콘텐츠와 협업 유사성에 따라 결정된 소수의 새로운 토큰을 도입할 것을 제안했습니다. 그러나 공유된 토큰으로 아이템을 색인화하면 여전히 편향을 도입할 수 있습니다. 또한, 후보 아이템은 프롬프트에 명시적으로 제공되어야 하며, 추천은 비효율적인 자동 회귀를 통해 생성됩니다. 요약하자면, NLP와 RS 간의 근본적인 이분법은 여전히 잘 해결되지 않았습니다.
3. 방법론
3.1 문제 정의
이 논문에서는 암시적 피드백을 이용한 추천에 초점을 맞추고 있습니다. 사용자 𝐼명과 아이템 𝐽개로 구성된 시스템을 고려합시다. 사용자 𝑖가 𝐽개의 아이템과 상호작용했는지를 나타내기 위해 이진 평점 벡터 r𝑖 ∈ {0, 1}𝐽를 사용합니다. 추가로, 사용자 𝑖와 아이템 𝑗에 관련된 텍스트 특징, 예를 들어 사용자 전기와 아이템 콘텐츠 등을 나타내기 위해 x𝑢𝑖, x𝑣𝑗를 사용합니다. x𝑢𝑣𝑖𝑗는 사용자 𝑖와 아이템 𝑗 모두와 관련된 텍스트 특징, 예를 들어 사용자 𝑖의 아이템 𝑗에 대한 리뷰 등을 나타냅니다. 이후, 우리는 x{𝑢,𝑣,𝑢𝑣}{𝑖,𝑗,𝑖𝑗 }의 순차적 관점을 취하며, x{𝑢,𝑣,𝑢𝑣}{𝑖,𝑗,𝑖𝑗 },𝑘는 텍스트 시퀀스의 𝑘번째 토큰을 나타내는 크기 𝑁의 원핫 벡터입니다. 추가로, 우리는 사전 학습된 대형 언어 모델(LLM)을 가지고 있으며, 이를 확률론적 관점으로 보고 𝑝𝑙𝑙𝑚 (x𝑘+1 |x1:𝑘 )으로 나타냅니다. 𝑝𝑙𝑙𝑚은 x1:𝑘를 𝐿개의 스택된 셀프 어텐션 모듈 𝑙𝑙𝑚(x1:𝑘 )을 통해 잠재 시퀀스 h(𝐿)1:𝑘 ∈ R𝑘×𝐾ℎ로 변환하고, 이를 통해 다음 토큰 x𝑘+1의 확률 공간으로 매핑합니다. LLM은 대규모 코퍼스에서 사전 학습되고, 예제 프롬프트-답변 쌍에서 미세 조정되었기 때문에, x1:𝑘에 있는 맥락 정보를 바탕으로 논리적 추론을 통해 x𝑘+1을 생성합니다.
우리의 목표는 LLM과 추천 작업을 긴밀하게 결합하여 사용자/아이템의 의미(예: 아이템에 대한 사용자의 관심)를 정확하게 모델링하고, 사전 학습된 LLM의 인코딩된 지식과 추론 능력을 최대한 활용할 수 있도록 사용자/아이템 ID 토큰(및 토큰 임베딩)을 도입하여 새로운 생성형 추천 시스템을 설계하는 것입니다.
3.2 사용자/아이템 토큰의 확장3.2.1 어휘 확장
사전 학습된 LLM을 추천 작업과 긴밀하게 결합하기 위해, 우리는 먼저 사용자/아이템 ID 토큰을 추가하여 LLM의 어휘를 확장하고, 추천 시스템과 자연어 사이의 의미적 간극을 잘 연결할 수 있도록 합니다. 우리는 각 사용자와 아이템을 나타내는 새로운 토큰을 나타내기 위해 "<user_𝒊>"와 "<item_𝒋>"라는 괄호 표기법을 사용하며, 해당 토큰 ID는 𝑁 + 𝑖 및 𝑁 + 𝐼 + 𝑗로 나타내고, 원자 토큰으로 분해되지 않습니다.
3.2.2 토큰 임베딩
LLM이 새로 도입된 사용자/아이템 토큰을 이해할 수 있도록, 이들은 먼저 밀집 임베딩으로 변환되어야 합니다. 이에 따라, 우리는 𝑘번째 어휘 토큰의 사전 학습된 임베딩을 나타내기 위해 z𝑡𝑘 ∈ R𝐾를 사용합니다. 추가로, 새로 도입된 사용자/아이템 토큰의 경우, 사용자/아이템 협업 및 콘텐츠 의미를 충실히 표현하기 위해 어휘 공간과 일치하는 두 종류의 토큰 임베딩을 도입합니다. 구체적으로, 우리는 다음과 같이 동일한 𝐾차원의 잠재 공간에서 사용자/아이템 협업 토큰 임베딩을 샘플링합니다:
z𝑙,𝑢𝑖, z𝑙,𝑣𝑗 ∼ N(0, 𝜆−1𝑙 · I𝐾),
여기서 𝜆𝑙는 z𝑙,𝑢𝑖, z𝑙,𝑣𝑗의 사전 정밀도입니다. 중요한 것은, 추천 지향 콘텐츠 모델링을 위해 콘텐츠 의미를 협업 의미와 일치시키기 위해, 다음 조건부 사전에서 사용자/아이템 콘텐츠 토큰 임베딩을 샘플링하는 것입니다:
z𝑐,𝑢𝑖 ∼ N(z𝑙,𝑢𝑖, 𝜆−1𝑐 · I𝐾), z𝑐,𝑣𝑗 ∼ N(z𝑙,𝑣𝑗, 𝜆−1𝑐 · I𝐾),
여기서 𝜆𝑐는 z𝑐,𝑢𝑖, z𝑐,𝑣𝑗의 조건부 사전 정밀도입니다. 어휘/협업/콘텐츠 토큰 임베딩의 수평으로 스택된 행렬은 각각 Z𝑡, Z𝑙,{𝑢,𝑣}, Z𝑐,{𝑢,𝑣}로 표시됩니다.
3.2.3 CLLM4Rec 기본 모델
이전 섹션에서 소개한 사용자/아이템 토큰과 해당 토큰 임베딩을 통해 확장된 어휘를 가진 CLLM4Rec 기본 모델을 소개할 준비가 되었습니다. CLLM4Rec 기본 모델은 다음과 같이 나타납니다:
h(𝐿){𝑙,𝑐 },1:𝑘 = ˆ𝑙𝑙𝑚{𝑙,𝑐 }(x1:𝑘),
이는 𝐿개의 스택된 셀프 어텐션 모듈을 통해 토큰 시퀀스 x1:𝑘를 은닉 공간 R𝑘×𝐾ℎ로 매핑합니다(모호함이 없을 경우 상위 첨자 (𝐿)은 생략됩니다). 여기서 x𝑘는 어휘, 사용자 또는 아이템 토큰을 나타내는 크기 𝑁 + 𝐼 + 𝐽의 원핫 벡터입니다. 추가로, ˆ𝑙𝑙𝑚{𝑙,𝑐 }의 아래 첨자는 사용자/아이템 토큰을 인코딩하는 데 사용되는 임베딩 행렬을 나타냅니다(여기서 𝑙은 행렬 Z𝑙,{𝑢,𝑣}, 𝑐는 행렬 Z𝑐,{𝑢,𝑣}를 나타냅니다). CLLM4Rec 기본 모델 ˆ𝑙𝑙𝑚{𝑙,𝑐 }의 경우, 사용자/아이템 토큰 임베딩만 학습 가능하며, 어휘 임베딩 Z𝑡와 백본 LLM의 다른 부분은 사전 학습된 지식을 유지하기 위해 고정됩니다.
3.3 상호 규제 사전 학습
이전 섹션에서 소개된 CLLM4Rec 기본 모델을 바탕으로, CLLM4Rec의 상호 규제 사전 학습 전략을 논의합니다. 목표는 사용자-아이템 상호작용과 사용자/아이템 텍스트 특징에서 구축된 코퍼스에 대한 언어 모델링을 기반으로 사용자/아이템 협업/콘텐츠 토큰 임베딩을 학습하는 것이며, LLM의 인코딩된 지식과 논리적 추론 능력을 최대한 활용하는 것입니다. 전체 과정은 그림 2에서 참고할 수 있습니다.
3.3.1 추천 전용 코퍼스
일반적으로, 우리는 상호작용 r𝑖와 사용자/아이템 콘텐츠 특징 x𝑢𝑖, x𝑣𝑗, x𝑢𝑣𝑖𝑗를 다음과 같은 사용자/아이템/어휘 토큰 시퀀스의 문서로 변환할 수 있습니다:
- 원시 코퍼스가 추천 데이터에서 변환됨: (a) 과거 상호작용 r𝑖: <user_𝑖>가 <item_𝑗> <item_𝑘>와 상호작용했습니다... (b) 사용자/아이템 텍스트 특징 x𝑢𝑖, x𝑣𝑗, x𝑢𝑣𝑖𝑗: <user_𝑖>의 전기는: 주요 전기입니다. <item_𝑗>의 내용은: 주요 내용입니다. <user_𝑖>가 <item_𝑗>에 대한 리뷰를 작성합니다: 주요 리뷰입니다.
그러나 원시 코퍼스에서 직접 언어 모델링을 수행하는 것은 분명히 불가능하며, 각 문서는 이질적인 어휘, 사용자, 아이템 토큰으로 구성되어 있고, 의미 있는 어휘 토큰의 수(예: GPT의 경우 약 50,000개, T5의 경우 약 30,000개)가 무작위로 초기화된 사용자/아이템 토큰의 큰 수에 의해 희석될 수 있습니다.
3.3.2 Soft+Hard Prompting
위의 문제를 해결하기 위해, 우리는 이질적인 사용자/아이템/어휘 토큰이 포함된 RS 전용 코퍼스에 대한 언어 모델링을 용이하게 하기 위해 새로운 soft+hard 프롬프트 전략을 제안합니다. 이 전략은 사용자-아이템 상호작용 r𝑖와 사용자/아이템 텍스트 특징 x𝑢𝑖, x𝑣𝑗, x𝑢𝑣𝑖𝑗에서 변환된 문서를 두 부분으로 나눌 수 있다는 중요한 관찰에 기반합니다: 문서의 요점을 제공하는 이질적인 소프트(사용자/아이템)와 하드(어휘) 토큰으로 구성된 부분과, 세부 정보를 충족시키는 동질적인 아이템/어휘 토큰으로 구성된 주요 텍스트 부분입니다. 따라서, 우리는 첫 번째 부분을 soft+hard 프롬프트로 보고, 두 번째 부분에서만 언어 모델링을 수행할 수 있습니다. 이는 모델이 협업 및 콘텐츠 정보에만 집중하도록 하여, 언어 모델링의 효과와 안정성을 크게 향상시킬 수 있습니다.
협업 모델링의 경우, 사용자 𝑖의 과거 상호작용에서 변환된 문서 x𝑟𝑖는 soft+hard 프롬프트 x𝑟,𝑝𝑖와 동질적인 아이템 토큰 시퀀스 x𝑟,𝑚𝑖로 나눌 수 있습니다:
- 과거 상호작용 r𝑖: <user_𝑖>가 | {z } soft+hard 프롬프트 x𝑟,𝑝𝑖 <item_𝑗> <item_𝑘>와 상호작용했습니다... | {z } 아이템 토큰 시퀀스 x𝑟,𝑚𝑖.
이에 따라, CLLM4Rec 기본 모델 ˆ𝑙𝑙𝑚𝑙에 아이템 예측 헤드 𝑓𝑙: R𝐾ℎ → P(𝐽)를 추가하여 협업 LLM을 도입하며, 이를 통해 마지막 레이어의 마지막 단계 은닉 표현 h𝑙,−1을 아이템 확률 공간 P(𝐽)로 매핑하여 다음 아이템 토큰을 예측합니다. 𝑓𝑙의 가중치는 아이템 협업 토큰 임베딩 Z𝑙,𝑣와 연결되며, 𝑓𝑙(h𝑙,−1) = softmax(Z𝑙,𝑣·h𝑙,−1)입니다. 협업 LLM의 생성 과정은 다음과 같이 나타낼 수 있습니다:
x𝑟,𝑚𝑖,𝑘+1 ∼ 𝑝𝑓𝑙ˆ𝑙𝑙𝑚𝑙(x𝑟,𝑚𝑖,𝑘+1 |x𝑟,𝑚𝑖,1:𝑘, x𝑟,𝑝𝑖),
여기서 프롬프트 x𝑟,𝑝𝑖는 이전 아이템 토큰을 기반으로 다음 아이템 토큰을 생성하기 위한 컨텍스트 역할을 합니다. x𝑟,𝑚𝑖,𝑘+1의 생성을 위해 이전 토큰에 주의를 기울여야 하므로, 협업 LLM은 사용자 𝑖의 토큰 임베딩(z𝑙,𝑢𝑖)과 상호작용된 아이템의 토큰 임베딩(z𝑙,𝑣𝑗, z𝑙,𝑣𝑘, ...)을 가까이 두어야 하며, 이를 통해 추천에서 사용자/아이템 협업 의미를 정확하게 포착할 수 있습니다.
유사하게, 사용자/아이템 콘텐츠 x𝑢𝑣𝑖𝑗에서 변환된 문서도 soft+hard 프롬프트 x𝑢𝑣,𝑝𝑖𝑗와 동질적인 어휘 토큰 시퀀스의 주요 텍스트 x𝑢𝑣,𝑚𝑖𝑗로 자연스럽게 나눌 수 있습니다:
- 사용자/아이템 텍스트 특징 x𝑢𝑣𝑖𝑗: <user_𝑖>가 <item_𝑗>에 대한 리뷰를 작성합니다: | {z } soft+hard 프롬프트 x𝑢𝑣,𝑝𝑖 𝑗 주요 리뷰. | {z } 어휘 시퀀스 x𝑢𝑣,𝑚𝑖 𝑗.
이에 따라, CLLM4Rec 기본 모델 ˆ𝑙𝑙𝑚𝑐에 어휘 예측 헤드 𝑓𝑐: R𝐾ℎ → P(𝑁)를 추가하여 콘텐츠 LLM을 도입하며, 이는 최종 레이어의 마지막 단계 은닉 표현 h𝑐,−1을 어휘 확률 공간으로 매핑합니다. 유사하게, 𝑓𝑐의 가중치는 어휘 임베딩 Z𝑡와 연결되며, 𝑓𝑐(h𝑐,−1) = softmax(Z𝑡·h𝑐,−1)입니다. 콘텐츠 LLM의 생성 과정은 다음과 같이 나타낼 수 있습니다:
x𝑢𝑣,𝑚𝑖𝑗,𝑘+1 ∼ 𝑝𝑓𝑐ˆ𝑙𝑙𝑚𝑐(x𝑢𝑣,𝑚𝑖𝑗,𝑘+1 |x𝑢𝑣,𝑚𝑖𝑗,1:𝑘, x𝑢𝑣,𝑝𝑖𝑗),
여기서 프롬프트 x𝑢𝑣,𝑝𝑖𝑗는 이전 어휘 토큰을 기반으로 다음 어휘 토큰 x𝑢𝑣,𝑚𝑖𝑗,𝑘+1을 생성하기 위한 컨텍스트 역할을 합니다. 최대 가능도를 최적화할 때, x𝑢𝑣,𝑚𝑖𝑗의 콘텐츠 정보는 사용자 𝑖와 아이템 𝑗의 콘텐츠 토큰 임베딩에 인코딩될 수 있으며, 사전 학습된 LLM의 지식이 최대한 활용될 수 있습니다. 예를 들어, 그림 3에 표시된 리뷰에서 사전 학습된 LLM은 <item_46>이 어두운 보라색, 빨간색, 분홍색 색상의 립스틱이며, 건조함을 유발할 수 있는 부작용이 있다는 것을 알고 있습니다.
3.3.3 상호 규제
사전 학습된 LLM은 추천 지향적이지 않기 때문에, Eq. (5)를 단순히 최적화하면 추천과 관련 없는 콘텐츠 특징에서 노이즈 정보를 포착하게 됩니다. 또한, 사용자/아이템 상호작용이 드물기 때문에, 협업 LLM은 Eq. (4)를 최적화할 때 관찰된 상호작용에 쉽게 과적합될 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 CLLM4Rec을 위한 상호 규제 사전 학습 전략을 제안하며, 협업 LLM이 사용자/아이템 콘텐츠에서 추천 관련 정보를 포착하도록 안내할 수 있고, 콘텐츠 LLM은 반대로 협업 필터링을 지원하기 위해 추가 정보를 제공할 수 있습니다.
상호 규제는 자연스럽게 Eq. (1), (2)에서 정의된 CLLM4Rec의 정렬된 생성 과정과 함께 제공됩니다. 구체적으로, 사용자 𝑖의 경우, 스택된 아이템 토큰 임베딩을 Z𝑐,𝑣𝑖, Z𝑙,𝑣𝑖로 나타내며, 여기에는 아이템 𝑗와 사용자 𝑖가 상호작용한 다른 아이템이 포함됩니다. x𝑟𝑖와 x𝑢𝑣𝑖𝑗와 관련된 CLLM4Rec의 생성 과정은 다음과 같은 공동 분포로 정의될 수 있습니다:
𝑝(x𝑟,𝑚𝑖, x𝑢𝑣,𝑚𝑖𝑗, z𝑙,𝑢𝑖, Z𝑙,𝑣𝑖, z𝑐,𝑢𝑖, Z𝑐,𝑣𝑖|x𝑟,𝑝𝑖, x𝑢𝑣,𝑝𝑖𝑗) = Π𝑘𝑝𝑓𝑙ˆ𝑙𝑙𝑚𝑙(x𝑟,𝑚𝑖,𝑘|x𝑟,𝑚𝑖,1:𝑘−1, x𝑟,𝑝𝑖) | {z } 협업 LLM을 위한 언어 모델링 · Π𝑘𝑝𝑓𝑐ˆ𝑙𝑙𝑚𝑐(x𝑢𝑣,𝑚𝑖𝑗,𝑘|x𝑢𝑣,𝑚𝑖𝑗,1:𝑘−1, x𝑢𝑣,𝑝𝑖𝑗) | {z } 콘텐츠 LLM을 위한 언어 모델링 · 𝑝(z𝑐,𝑢𝑖|z𝑙,𝑢𝑖) · Π𝑘𝑝(z𝑐,𝑣𝑖𝑘|z𝑙,𝑣𝑖𝑘) | {z } 상호 규제 · 𝑝(z𝑙,𝑢𝑖) · Π𝑘𝑝(z𝑙,𝑣𝑖𝑘) | {z } 사전.
Eq. (6)를 자세히 보면, 공동 분포는 세 부분으로 나뉩니다: (i) 협업 및 콘텐츠 LLM의 언어 모델링으로, 사용자/아이템 토큰 임베딩을 학습하는 것(Eq. (4) 및 (5)); (ii) 두 LLM의 사용자/아이템 토큰 임베딩을 연결하는 상호 규제(i.e., Eqs. (1), (2)에 따르면, 𝑝(z𝑐,𝑢𝑖|z𝑙,𝑢𝑖)와 𝑝(z𝑐,𝑣𝑖𝑘|z𝑙,𝑣𝑖𝑘)은 조건부 가우시안으로, z𝑐,𝑢𝑖, z𝑙,𝑢𝑖, 및 z𝑐,𝑣𝑖𝑘, z𝑙,𝑣𝑖𝑘 사이의 MSE 규제를 도입함); (iii) 사전 z𝑙,𝑢𝑖 및 z𝑙,𝑣𝑖𝑘의 사전은 상호 규제가 존재함으로 인해 무시될 수 있음.
우리는 최대 사후 확률(MAP)을 사용하여 사용자/아이템 토큰 임베딩 z𝑙,𝑢𝑖, Z𝑙,𝑣𝑖, z𝑐,𝑢𝑖, Z𝑐,𝑣𝑖를 추정하며, 목적은 Eq. (6)에 정의된 공동 분포의 로그에 비례합니다. 여기서 우리는 MAP 목표를 최적화하기 위해 교대 단계를 취합니다. 아이템 토큰 예측 헤드 𝑓𝑙와 어휘 토큰 예측 헤드 𝑓𝑐와 관련된 학습 가능한 매개변수를 𝜽로 나타내면(이는 해당 토큰 임베딩과 연결됨), 상호 규제를 가진 협업 LLM(L-step) 및 콘텐츠 LLM(C-step)을 위한 목표는 다음과 같이 도출될 수 있습니다:
- L-step: L-step에서는 Eq. (6)의 사용자/아이템 콘텐츠 임베딩 z𝑐,𝑢𝑖, Z𝑐,𝑣𝑖를 zˆ𝑐,𝑢𝑖, Zˆ𝑐,𝑣𝑖로 고정하고, 협업 LLM의 언어 모델링과 함께 사용자/아이템 협업 임베딩을 제한하여 다음과 같은 복합 목표를 이끌어냅니다: L_MAPl_step(z𝑙,𝑢𝑖, Z𝑙,𝑣𝑖; 𝜽) = ∑𝑘 − ln 𝑝𝑓𝑙ˆ𝑙𝑙𝑚𝑙(x𝑟,𝑚𝑖,𝑘|x𝑟,𝑚𝑖,1:𝑘−1, x𝑟,𝑝𝑖) | {z } 협업 LLM을 위한 언어 모델링 손실 + 𝜆𝑐/2 * (z𝑙,𝑢𝑖 − zˆ𝑐,𝑢𝑖)^2 + ∑𝑘 𝜆𝑐/2 * (z𝑙,𝑣𝑖𝑘 − zˆ𝑐,𝑣𝑖𝑘)^2 | {z } 콘텐츠 LLM과의 상호 규제 손실 + 𝜆𝑙/2 * (z𝑙,𝑢𝑖)^2 + 𝜆𝑙/2 * (z𝑙,𝑣𝑗)^2 | {z } 사전 손실 + C𝑙,
- 여기서 C𝑙는 최적화와 관련이 없는 상수입니다. LM 손실은 사용자 𝑖의 토큰 임베딩과 상호작용된 아이템 간의 협업 유사성을 포착하며, 협업 필터링을 지원하기 위해 MR 손실을 통해 추가 정보를 도입할 수 있습니다.
- C-step: L-step의 1단계 최적화 후, 우리는 사용자/아이템 협업 토큰 임베딩 z𝑙,𝑢𝑖, z𝑙,𝑣𝑗를 Eq. (6)의 zˆ𝑙,𝑢𝑖, zˆ𝑙,𝑣𝑗로 고정하고, 콘텐츠 LLM을 위한 다음 복합 목표를 이끌어냅니다: L_MAPc_step(z𝑐,𝑢𝑖, z𝑐,𝑣𝑗; 𝜽) = ∑𝑘 − ln 𝑝𝑓𝑐ˆ𝑙𝑙𝑚𝑐(x𝑢𝑣,𝑚𝑖𝑗,𝑘|x𝑢𝑣,𝑚𝑖𝑗,1:𝑘−1, x𝑢𝑣,𝑝𝑖𝑗) | {z } 콘텐츠 LLM을 위한 언어 모델링 손실 + 𝜆𝑐/2 * (z𝑐,𝑢𝑖 − zˆ𝑙,𝑢𝑖)^2 + 𝜆𝑐/2 * (z𝑐,𝑣𝑗 − zˆ𝑙,𝑣𝑗)^2 | {z } 협업 LLM과의 상호 규제 손실 + C𝑐,
- 여기서 MR 손실은 콘텐츠 LLM이 사용자/아이템 텍스트 특징에서 추천 지향 정보를 포착하도록 권장합니다. Eqs. (7) 및 (8)에서 𝜆𝑐는 상호 규제의 강도를 조절하며, 이는 실험 연구에서 철저히 논의될 것입니다.
3.3.4 확률적 아이템 재정렬
Eq. (7)을 통한 효과적인 협업 필터링을 방해하는 또 다른 문제는 과거 상호작용 r𝑖를 토큰 시퀀스 x𝑟,𝑚𝑖로 변환할 때 아이템 토큰의 순서입니다. 아이템 순서는 직접적인 추천에서는 중요하지 않을 수 있으며(설령 중요하더라도, 자연어 순서를 나타내는 위치 임베딩이 상호작용 순서의 의미를 포착하지 못할 수 있음), 이를 해결하기 위해, 우리는 협업 LLM을 최적화할 때 Eq. (7)과 같이 soft+hard 프롬프트 x𝑟,𝑝𝑖를 고정한 상태에서 아이템 토큰 x𝑟,𝑚𝑖를 무작위로 순열하여 확률적 아이템 재정렬 전략을 제안합니다. 이를 통해, 아이템의 순서를 무시할 수 있으며, x𝑟,𝑝𝑖의 어휘 토큰에 부정적인 영향을 미치지 않습니다.
3.4 추천 지향 미세 조정
3.4.1 사전 학습 vs. 미세 조정CLLM4Rec의 사전 학습은 사용자-아이템 상호작용 r𝑖와 사용자/아이템 텍스트 특징 x𝑢𝑖, x𝑣𝑗, x𝑢𝑣𝑖𝑗에서 구축된 대규모 코퍼스를 기반으로 언어 모델링을 통해 사용자/아이템 토큰 임베딩을 학습하는 것을 목표로 합니다. 이를 통해 이질적인 사용자/아이템/어휘 토큰이 포함된 프롬프트를 CLLM4Rec이 올바르게 이해할 수 있습니다. 그러나 현재 사전 학습된 CLLM4Rec은 프롬프트를 기반으로 아이템/어휘 토큰 시퀀스를 완성할 수 있을 뿐, 추천을 할 수는 없습니다. 따라서 NLP와 RS 간의 간극이 완전히 해소되지는 않았습니다. 또한, 협업 LLM을 단순히 추천 모델로 취급하면 추천 아이템이 자동 회귀를 통해 순차적으로 생성되기 때문에 막대한 계산 비용이 발생할 수 있습니다. 따라서 우리는 사전 학습된 협업 LLM을 추가로 미세 조정하여 더 효율적인 추천을 제공하는 새로운 추천 지향 미세 조정 전략을 제안합니다.
3.4.2 다항 예측 헤드가 있는 마스킹 프롬프트이를 달성하기 위해, 우리는 먼저 CLLM4Rec의 미세 조정을 위한 추천 지향 프롬프트와 목표를 생성하는 마스킹 프롬프트 전략을 설계합니다. 구체적으로, 각 사용자에 대해 우리는 상호작용된 아이템 r𝑖의 100 × 𝑝𝑚%를 무작위로 마스킹합니다. 남은 아이템은 r𝑚𝑎𝑠𝑘𝑒𝑑𝑖로 표시됩니다. 그런 다음, r𝑚𝑎𝑠𝑘𝑒𝑑𝑖를 사용하여 추천 지향 프롬프트 x𝑟𝑒𝑐,𝑝𝑖를 입력으로 생성합니다. 모든 제외된 아이템(멀티 핫 벡터 rℎ𝑜𝑙𝑑𝑖로 표시)은 목표로 취급됩니다. r𝑚𝑎𝑠𝑘𝑒𝑑𝑖를 기반으로 한 프롬프트 x𝑟𝑒𝑐,𝑝𝑖는 다음과 같이 설계됩니다:
- (c) 미세 조정을 위한 마스킹 프롬프트 및 목표
- (프롬프트) <user_𝑖>가 <item_𝑗'> <item_𝑘'>와 상호작용했습니다. 사용자가 상호작용할 아이템:
- (목표) rℎ𝑜𝑙𝑑𝑖 ∈ {0, 1}𝐽 (마스킹된 아이템)
이는 "has interacted with"라는 관계 구문을 사용하여 사전 학습된 LLM의 추론 능력을 유도하고, "the user will interact with"라는 구문을 사용하여 목표 제외 아이템 rℎ𝑜𝑙𝑑𝑖의 예측을 안내합니다.
우리는 미세 조정 단계의 CLLM4Rec을 RecLLM이라고 명명하며, 이는 사전 학습 단계의 협업 LLM에서 CLLM4Rec 기본 모델 ˆ𝑙𝑙𝑚𝑙을 상속하고, 새로운 아이템 예측 헤드를 추가하여 다항 가능성으로 나타냅니다. 예를 들어, 𝑓𝑟𝑒𝑐, 그 가중치는 아이템 토큰 임베딩 Z𝑙,𝑣와 연결됩니다. RecLLM을 통한 제외된 아이템 rℎ𝑜𝑙𝑑𝑖의 생성은 다음과 같이 나타낼 수 있습니다:
rℎ𝑜𝑙𝑑𝑖 ∼ 𝑚𝑢𝑙𝑡𝑖(𝑓𝑟𝑒𝑐(h𝑟𝑒𝑐𝑙,𝑖,−1), 𝑁ℎ𝑜𝑙𝑑𝑖), 여기서 h𝑟𝑒𝑐𝑙,𝑖 = ˆ𝑙𝑙𝑚𝑙(x𝑟𝑒𝑐,𝑝𝑖),
여기서 𝑚𝑢𝑙𝑡𝑖는 다항 분포를 나타내며, 𝑁ℎ𝑜𝑙𝑑𝑖는 사용자 𝑖에 대한 제외된 아이템의 수입니다. Eq. (9)에 따라 RecLLM을 미세 조정할 때, 사용자 𝑖의 과거 상호작용을 요약한 잠재 변수로 볼 수 있는 h𝑟𝑒𝑐𝑙,𝑖,−1는 상호작용된 모든 아이템의 협업 임베딩과 유사하도록 장려됩니다. 또한, 우리는 Eq. (7)과 유사한 방식으로 콘텐츠 LLM과의 규제를 유지하고, 확률적 아이템 재정렬 전략을 사용하여 프롬프트 x𝑟𝑒𝑐,𝑝𝑖를 생성합니다. 제안된 추천 지향 미세 조정 전략을 통해 CLLM4Rec은 사전 학습된 LLM 백본과 상호 규제 사전 학습을 통해 학습된 사용자/아이템 토큰 임베딩의 인코딩된 지식을 최대한 활용하면서 단일 전방 전파 단계에서 효율적으로 추천을 생성할 수 있습니다. 또한, 목표 rℎ𝑜𝑙𝑑𝑖는 아이템 확률 공간 내로 제한되므로, 환각 아이템이 발생하지 않도록 할 수 있습니다.
3.5 CLLM4Rec을 이용한 예측
CLLM4Rec의 사전 학습과 미세 조정 후, 사용자 𝑖에게 추천을 제공하기 위해, 우리는 사용자의 전체 과거 상호작용, 즉 r𝑖를 섹션 3.4.2에서 설명한 추천 지향 프롬프트 xˆ𝑟𝑒𝑐,𝑝𝑖(마스킹된 아이템 없음)로 변환하고, 이를 RecLLM 모델에 입력할 수 있습니다. 그런 다음, 모든 𝐽개 아이템에 대해 다항 확률 rˆ𝑖는 rˆ𝑖 = 𝑚𝑢𝑙𝑡𝑖(𝑓𝑟𝑒𝑐(hˆ𝑟𝑒𝑐𝑖,−1)), hˆ𝑟𝑒𝑐𝑖 = ˆ𝑙𝑙𝑚𝑙(xˆ𝑟𝑒𝑐,𝑝𝑖)를 통해 하나의 전방 전파를 통해 얻을 수 있습니다. 여기서 상호작용되지 않은 아이템 중 상위-𝑀 점수를 가진 아이템이 추천으로 선택될 수 있습니다.
실험 연구 요약
연구 질문
- CLLM4Rec의 성능: 최신 ID 기반 및 LLM 기반 추천 시스템(RS)과 비교하여 CLLM4Rec의 성능은 어떠한가?
- 사전 학습 단계의 영향: 상호 규제 및 확률적 아이템 재정렬 전략이 CLLM4Rec의 성능에 어떻게 영향을 미치는가?
- 미세 조정 단계의 영향: 마스킹 프롬프트와 다항 아이템 예측 헤드가 추천의 효율성과 효과성에 어떻게 영향을 미치는가?
실험 설정
- 데이터셋: Amazon의 Beauty, Toys, Sports, Yelp 데이터셋 및 LinkedIn의 직업 추천 데이터셋을 사용했습니다. 데이터를 이진화하고 5-core 속성을 유지하도록 필터링했습니다. 사용자 리뷰는 텍스트 특징으로 사용되었습니다.
비교 기준
- ID 기반 모델: Multi-VAE, Md-CVAE
- LM 기반 모델: Bert4Rec, S3Rec
- LLM 기반 모델: LLM-Scratch, LLM-CF, LLM-FtAll, LLM-FixOrd, LLM-PreRec
주요 결과
- 성능 비교: CLLM4Rec은 대부분의 기준 모델을 능가하며 특히 LLM-CF, LLM-FtAll보다 우수한 성능을 보였습니다. 이는 사전 학습된 LLM의 지식을 최대한 활용한 결과로, ID 기반 모델보다 더 깊은 이해를 제공합니다.
- LinkedIn 데이터셋에서의 성능: CLLM4Rec은 기존의 TT 모델보다 훨씬 높은 성능을 보였으나, 실시간 배포에는 높은 추론 지연 시간이 문제로 작용했습니다. 이를 해결하기 위해 CLLM4Rec-Emb 모델을 사용해 성능을 개선할 수 있었습니다.
- 민감도 분석: 상호 규제 강도를 조절하는 𝜆𝑐 값이 성능에 미치는 영향을 분석한 결과, 𝜆𝑐 값이 적절할 때(약 1) 성능이 최고조에 달했습니다.
결론
CLLM4Rec은 ID 기반 패러다임과 LLM 패러다임을 결합하여 사용자/아이템의 의미를 충실히 포착하며, 사전 학습된 LLM의 지식과 논리적 추론 능력을 최대한 활용한 최초의 방법입니다. 이를 통해 효율적이고 효과적인 추천이 가능해졌으며, 다양한 실험에서 다면적 우수성을 입증했습니다.