본문 바로가기

attention

[머신러닝 논문 리뷰] Self-Attention with Relative Position Representations 논문 링크: Self-Attention with Relative Position Representations 앞서 Attention Augmented Convolutional Networks, Music Transformer 논문에 등장했던 Relative Position Encoding 개념이 처음 등장한 논문이다. 처음 Transformer 구조가 등장했을때는 Sinusoids 함수를 이용한 absolute positional encoding 방식을 사용했다. 본 논문은 그것을 대체할 Relative Positional encoding 방법을 소개하고 있다. medium에서 Relative Positional encoding에 대해 좋은 글이 있어서 링크를 올려본다. https://medium.com.. 더보기
[머신러닝 논문 리뷰] Music Transformer: Generating Music with Long-Term Structure 논문 링크: https://arxiv.org/abs/1809.04281 이 논문은 이전에 리뷰했던 Attention Augmented Convolutional Networks에 쓰였던 relative position embedding이 다시 등장하기 때문에 알아두면 좋을것 같다. 본 논문에서는 language-modeling approach를 이용해 generative model for music을 training한다. 한마디로 음악의 음높이를 Token화 시킨다음 generative 모델이 이것을 가지고 다음 Sequence를 예측하는 것이다. 음악을 구별할때 pitch와 timing 사이의 상대적 거리가 특히나 중요하기 때문에 본 논문에서는 Relative Position-based Attention.. 더보기
[머신러닝 논문 리뷰] Attention Augmented Convolutional Networks 논문 링크: Attention Augmented Convolutional Networks Attention 구조는 기존 RNN와는 다르게 Parallelization이 가능해져서 많은 것들을 개선할 수 있다. 특히 Sequence 에 두 feature가 서로 interact 하기 까지의 연산량을 대폭 줄일수 있다. RNN은 Timestep 마다 implicit하게 이전 step t-1에서 t로 position에 대한 정보를 넘겨주었기 때문에 위치 정보에 대한 별다른 조치가 필요하지 않다. 하지만 Attention 구조에서는 parallelization + 이전 상태에 대한 정보 (memory cell)이 없기 때문에 position의 대한 정보를 별도로 제공해주어야 한다. 따라서 position의 대한 .. 더보기