.. _chap_modern_rnn:

Mạng thần kinh tái phát hiện đại
================================


Chúng tôi đã giới thiệu những điều cơ bản về RNNs, có thể xử lý dữ liệu
trình tự tốt hơn. Để trình diễn, chúng tôi đã triển khai các mô hình
ngôn ngữ dựa trên RNN trên dữ liệu văn bản. Tuy nhiên, những kỹ thuật
như vậy có thể không đủ cho các học viên khi họ phải đối mặt với một
loạt các vấn đề học tập chuỗi ngày nay.

Ví dụ, một vấn đề đáng chú ý trong thực tế là sự bất ổn số của RNNs. Mặc
dù chúng tôi đã áp dụng các thủ thuật triển khai như cắt gradient, vấn
đề này có thể được giảm bớt hơn nữa với các thiết kế phức tạp hơn của
các mô hình trình tự. Cụ thể, RNN có cổng phổ biến hơn nhiều trong thực
tế. Chúng tôi sẽ bắt đầu bằng cách giới thiệu hai trong số các mạng được
sử dụng rộng rãi như vậy, cụ thể là các đơn vị định kỳ *ged* (Grus) và
\* bộ nhớ ngắn hạn dài\* (LSTM). Hơn nữa, chúng tôi sẽ mở rộng kiến trúc
RNN với một layer ẩn một chiều duy nhất đã được thảo luận cho đến nay.
Chúng tôi sẽ mô tả các kiến trúc sâu với nhiều lớp ẩn, và thảo luận về
thiết kế hai chiều với cả tính toán tái phát về phía trước và ngược.
Những mở rộng như vậy thường được áp dụng trong các mạng tái phát hiện
đại. Khi giải thích các biến thể RNN này, chúng tôi tiếp tục xem xét vấn
đề mô hình hóa ngôn ngữ tương tự được giới thiệu trong
:numref:`chap_rnn`.

Trên thực tế, mô hình ngôn ngữ chỉ tiết lộ một phần nhỏ trong số những
gì trình tự học có khả năng. Trong một loạt các vấn đề học tập trình tự,
chẳng hạn như nhận dạng giọng nói tự động, văn bản sang giọng nói và
dịch máy, cả đầu vào và đầu ra đều là các chuỗi có độ dài tùy ý. Để giải
thích làm thế nào để phù hợp với loại dữ liệu này, chúng tôi sẽ lấy dịch
máy làm ví dụ, và giới thiệu kiến trúc bộ mã hóa-giải mã dựa trên RNNs
và tìm kiếm chùm tia để tạo chuỗi.

.. toctree::
    :maxdepth: 2

    gru
    lstm
    deep-rnn
    bi-rnn
    machine-translation-and-dataset
    encoder-decoder
    seq2seq
    beam-search