深層学習DAY3、4確認テスト

Section1)再帰ニューラルネットワークの概念

f:id:ishishi11:20210708195515p:plain

中間層(隠れ状態ベクトル)に対して掛けられる重みがある。

隠れ状態ベクトルは時系列データの時間関係を記録し、保持する。

 

f:id:ishishi11:20210708195942p:plain

dz/dt * dt/dx = 2t *1 = 2(x + y)

 

f:id:ishishi11:20210708200128p:plain

s1 = w_in*x1 +w*s0+b

y1 = g(w_out*s1+c)

 

 

f:id:ishishi11:20210708200900p:plain

x=0の時、y=0.5

y' = y(1-y)= 0.5*(1-0.5)=0.25

 

 

 

 

f:id:ishishi11:20210708220258p:plain

出力ゲートで覚える必要がないと判断する。

 

f:id:ishishi11:20210708220334p:plain

LSTMは4つのゲートを持つ。そのためパラメータ数が多いので、計算負荷が高い。

CECの問題点は記憶機能のみで、学習機能がない。

 

f:id:ishishi11:20210708220455p:plain

LSTMは忘却、出力、入力ゲート、CECの4つのゲートがある。一方でGRUは更新とリセットゲートの二つを持つ。

 

f:id:ishishi11:20210708221726p:plain

 

f:id:ishishi11:20210708225259p:plain

Seq2Seq:一問一答しかできない
HRED:過去の発話の内容から、次の発話を生成する

HRED:文脈を意識した返答はするが、「そうだね」などの短いよくある答えを選ぶ傾向がある。

VHRED:VAEの潜在変数の概念を追加し、モデルにバリエーションを持たせた

 

f:id:ishishi11:20210708225915p:plain

確率分布

 

f:id:ishishi11:20210708230437p:plain

RNNは時系列データを処理するのに適している。

Word2vecは単語の分散表現を得るために使用する。

Attentionはデータに対して、関連度(内積)を得ることで、学習を進める。

 

f:id:ishishi11:20210712193350p:plain

い:H×W×C×K×Kとなる。

う:出力マップの計算量はH×W×M×Cとなる

 

f:id:ishishi11:20210712193856p:plain

ダイレイト畳み込みと呼ばれる。

 

f:id:ishishi11:20210712193936p:plain

受容野を広げることができる。