10.7. Máy biến áp¶

Chúng tôi đã so sánh CNN, RNN và sự tự chú ý trong Section 10.6.2. Đáng chú ý, sự tự chú ý thích cả tính toán song song và độ dài đường tối đa ngắn nhất. Do đó về mặt tự nhiên, nó là hấp dẫn để thiết kế kiến trúc sâu sắc bằng cách sử dụng sự tự chú ý. Không giống như các mô hình tự chú ý trước đó vẫn dựa vào RNN để biểu diễn đầu vào [Cheng.Dong.Lapata.2016][Lin.Feng.Santos.ea.2017][Paulus.Xiong.Socher.2017], mô hình máy biến áp chỉ dựa trên các cơ chế chú ý mà không có bất kỳ lớp phức tạp hoặc tái phát nào [Vaswani et al., 2017]. Mặc dù ban đầu được đề xuất cho trình tự để học trình tự về dữ liệu văn bản, các máy biến áp đã phổ biến trong một loạt các ứng dụng học sâu hiện đại, chẳng hạn như trong các lĩnh vực ngôn ngữ, tầm nhìn, lời nói và học tập củng cố.

10.7.1. Mô hình¶

Là một ví dụ của kiến trúc bộ mã hóa-giải mã, kiến trúc tổng thể của máy biến áp được trình bày trong Fig. 10.7.1. Như chúng ta có thể thấy, máy biến áp bao gồm một bộ mã hóa và bộ giải mã. Khác với sự chú ý của Bahdanau cho trình tự để học trình tự trong Fig. 10.4.1, các nhúng chuỗi đầu vào (nguồn) và đầu ra (mục tiêu) được thêm vào với mã hóa vị trí trước khi được đưa vào bộ mã hóa và bộ giải mã ngăn xếp các mô-đun dựa trên sự tự chú ý.

Fig. 10.7.1 The transformer architecture.¶

Bây giờ chúng tôi cung cấp một cái nhìn tổng quan về kiến trúc biến áp trong Fig. 10.7.1. Ở mức độ cao, bộ mã hóa biến áp là một chồng của nhiều lớp giống hệt nhau, trong đó mỗi lớp có hai lớp con (hoặc được ký hiệu là \(\mathrm{sublayer}\)). Đầu tiên là một tập hợp tự chú ý nhiều đầu và thứ hai là một mạng lưới chuyển tiếp nguồn cấp dữ liệu theo định vị. Cụ thể, trong bộ mã hóa tự chú ý, truy vấn, phím và giá trị đều từ đầu ra của lớp mã hóa trước đó. Lấy cảm hứng từ thiết kế ResNet trong Section 7.6, một kết nối còn lại được sử dụng xung quanh cả hai lớp con. Trong máy biến áp, đối với bất kỳ đầu vào \(\mathbf{x} \in \mathbb{R}^d\) nào ở bất kỳ vị trí nào của chuỗi, chúng tôi yêu cầu \(\mathrm{sublayer}(\mathbf{x}) \in \mathbb{R}^d\) để kết nối còn lại \(\mathbf{x} + \mathrm{sublayer}(\mathbf{x}) \in \mathbb{R}^d\) là khả thi. Bổ sung này từ kết nối còn lại ngay lập tức được theo sau bởi chuẩn hóa lớp [Ba.Kiros.Hinton.2016]. Kết quả là, bộ mã hóa biến áp xuất ra một biểu diễn vector \(d\) chiều cho mỗi vị trí của chuỗi đầu vào.

Bộ giải mã biến áp cũng là một chồng của nhiều lớp giống hệt nhau với các kết nối còn lại và chuẩn hóa lớp. Bên cạnh hai sublayers được mô tả trong bộ mã hóa, bộ giải mã chèn một sublayer thứ ba, được gọi là sự chú ý của bộ mã hóa-giải mã, giữa hai bộ giải mã này. Trong sự chú ý của bộ mã hóa giải mã, các truy vấn là từ đầu ra của lớp giải mã trước đó và các phím và giá trị là từ đầu ra bộ mã hóa biến áp. Trong bộ giải mã tự chú ý, truy vấn, khóa và giá trị đều từ đầu ra của lớp giải mã trước đó. Tuy nhiên, mỗi vị trí trong bộ giải mã chỉ được phép tham dự tất cả các vị trí trong bộ giải mã cho đến vị trí đó. Chú ý masked này bảo tồn thuộc tính tự động hồi quy, đảm bảo rằng dự đoán chỉ phụ thuộc vào các token đầu ra đã được tạo ra.

Chúng tôi đã mô tả và thực hiện sự chú ý nhiều đầu dựa trên các sản phẩm dot-thu nhỏ trong Section 10.5 và mã hóa vị trí trong Section 10.6.3. Sau đây, chúng tôi sẽ thực hiện phần còn lại của mô hình máy biến áp.

10.7. Máy biến áp¶

10.7.1. Mô hình¶

10.7.2. Các mạng thức ăn chuyển tiếp vị trí¶

10.7.3. Kết nối còn lại và chuẩn hóa lớp¶

10.7.4. Bộ mã hóa¶

10.7.5. Bộ giải mã¶

10.7.6. Đào tạo¶

10.7.7. Tóm tắt¶

10.7.8. Bài tập¶