Deep learning 썸네일형 리스트형 [머신러닝 논문 리뷰] Self-Attention with Relative Position Representations 논문 링크: Self-Attention with Relative Position Representations 앞서 Attention Augmented Convolutional Networks, Music Transformer 논문에 등장했던 Relative Position Encoding 개념이 처음 등장한 논문이다. 처음 Transformer 구조가 등장했을때는 Sinusoids 함수를 이용한 absolute positional encoding 방식을 사용했다. 본 논문은 그것을 대체할 Relative Positional encoding 방법을 소개하고 있다. medium에서 Relative Positional encoding에 대해 좋은 글이 있어서 링크를 올려본다. https://medium.com.. 더보기 [머신러닝 논문 리뷰] Attention Augmented Convolutional Networks 논문 링크: Attention Augmented Convolutional Networks Attention 구조는 기존 RNN와는 다르게 Parallelization이 가능해져서 많은 것들을 개선할 수 있다. 특히 Sequence 에 두 feature가 서로 interact 하기 까지의 연산량을 대폭 줄일수 있다. RNN은 Timestep 마다 implicit하게 이전 step t-1에서 t로 position에 대한 정보를 넘겨주었기 때문에 위치 정보에 대한 별다른 조치가 필요하지 않다. 하지만 Attention 구조에서는 parallelization + 이전 상태에 대한 정보 (memory cell)이 없기 때문에 position의 대한 정보를 별도로 제공해주어야 한다. 따라서 position의 대한 .. 더보기 이전 1 다음