ishishi11’s blog

深層学習DAY３、４確認テスト

Section１）再帰型ニューラルネットワークの概念

f:id:ishishi11:20210708195515p:plain

中間層(隠れ状態ベクトル)に対して掛けられる重みがある。

隠れ状態ベクトルは時系列データの時間関係を記録し、保持する。

f:id:ishishi11:20210708195942p:plain

dz/dt * dt/dx = 2t *1 = 2(x + y)

f:id:ishishi11:20210708200128p:plain

s1 = w_in*x1 +w＊s0+b

y1 = g(w_out*s1＋c)

f:id:ishishi11:20210708200900p:plain

x＝0の時、y＝0.5

y' = y(1-y)= 0.5*(1-0.5)=0.25

f:id:ishishi11:20210708220258p:plain

出力ゲートで覚える必要がないと判断する。

f:id:ishishi11:20210708220334p:plain

LSTMは４つのゲートを持つ。そのためパラメータ数が多いので、計算負荷が高い。

CECの問題点は記憶機能のみで、学習機能がない。

f:id:ishishi11:20210708220455p:plain

LSTMは忘却、出力、入力ゲート、CECの４つのゲートがある。一方でGRUは更新とリセットゲートの二つを持つ。

f:id:ishishi11:20210708221726p:plain

２

f:id:ishishi11:20210708225259p:plain

Seq2Seq：一問一答しかできない
HRED：過去の発話の内容から、次の発話を生成する

HRED：文脈を意識した返答はするが、「そうだね」などの短いよくある答えを選ぶ傾向がある。

VHRED：VAEの潜在変数の概念を追加し、モデルにバリエーションを持たせた

f:id:ishishi11:20210708225915p:plain

確率分布

f:id:ishishi11:20210708230437p:plain

RNNは時系列データを処理するのに適している。

Word2vecは単語の分散表現を得るために使用する。

Attentionはデータに対して、関連度（内積）を得ることで、学習を進める。

f:id:ishishi11:20210712193350p:plain

い：H×W×C×K×Kとなる。

う：出力マップの計算量はH×W×M×Cとなる

f:id:ishishi11:20210712193856p:plain

ダイレイト畳み込みと呼ばれる。

f:id:ishishi11:20210712193936p:plain

受容野を広げることができる。