어텐션(Attention) 메커니즘은 주로 인코더-디코더 구조를 가진 모델에서 사용되며, 디코더의 각 시점에서 인코더의 정보를 가중 평균하여 사용하는 방법입니다. 이때, 주요 요소로 Query(쿼리), Key(키), Value(값)가 사용됩니다.
Query(쿼리), Key(키), Value(값)
Query(쿼리):
쿼리는 어텐션 메커니즘에서 현재 시점의 디코더 상태나 출력에 대한 정보를 나타냅니다.
보통 디코더의 이전 상태나 이전 출력에 선형 변환(예: 가중치 행렬과의 곱)을 통해 계산됩니다.
어텐션 메커니즘에서 현재 디코더 상태가 어디에 주목해야 할 지 결정하는 역할을 합니다.
Key(키):
키는 어텐션을 적용할 대상의 인코더의 정보를 나타냅니다.
주로 인코더의 각 시점의 은닉 상태를 사용하며, 이러한 은닉 상태를 통해 쿼리와의 유사도를 계산합니다.
Value(값):
값은 어텐션 가중치에 따라 조절되는 인코더의 정보입니다.
키와 대응되는 정보로, 주로 인코더의 각 시점의 출력(은닉 상태)을 나타냅니다.
동작 방식
쿼리와 키의 유사도 계산:
쿼리와 키 사이의 유사도를 측정합니다. 이를 위해 주로 내적(dot product), 유클리드 거리, 코사인 유사도 등을 사용합니다.
소프트맥스(softmax) 계산:
계산된 유사도를 확률 분포로 바꾸기 위해 소프트맥스 함수를 적용합니다. 이러한 확률 분포는 어텐션 가중치(attention weights)로 사용됩니다.
값에 대한 가중 평균 계산:
어텐션 가중치를 기반으로 인코더의 값에 가중 평균을 적용하여 디코더에 대한 새로운 정보를 얻습니다. 가중 평균은 각 값에 어텐션 가중치를 곱하여 합산하는 방식으로 이루어집니다.
활용
기계 번역: 어텐션 메커니즘을 이용하여 입력 문장과 출력 문장 간의 정렬 문제를 해결하고, 번역의 정확도를 향상합니다.
텍스트 요약: 중요한 정보에 더 집중하여 텍스트의 핵심을 요약합니다.
이미지 캡셔닝: 이미지의 다양한 부분에 대해 주목할 수 있도록 하여 이미지 캡션 생성에 활용됩니다.
쿼리, 키, 값은 어텐션 메커니즘에서 중요한 요소로, 각각 현재 상태의 정보, 비교 대상의 정보, 가중치 조절이 필요한 정보를 나타내며, 이를 통해 어텐션 메커니즘은 모델이 관련 정보에 집중할 수 있도록 합니다.
'빅데이터 분석기사,ADsP와 ADP' 카테고리의 다른 글
바다나우 어텐션(Bahdanau Attention) (1) | 2024.01.15 |
---|---|
닷-프로덕트 어텐션(Dot-Product Attention) (1) | 2024.01.14 |
소프트맥스(softmax) 함수 - 활성화 함수 (0) | 2024.01.12 |
벡터(Vector)의 개념 (0) | 2024.01.11 |
Encoder-Decoder 아키텍처 - 딥러닝 모델 구조 (0) | 2024.01.10 |
댓글