【1】勾配降下法(Gradient Descent)
問題:**
関数の局所勾配を指標として反復的に更新を行い、目的関数値の極小点への収束を試みる手法である勾配降下法は、以下のどれを前提として最適解探索を行うか?
選択肢:**
A. 目的関数が常に凸であること
B. 勾配が定義可能な連続関数であること
C. 離散的な状態空間における確率的探索機構
D. パラメトリック空間が有限集合であること
B. 勾配が定義可能な連続関数であること
C. 離散的な状態空間における確率的探索機構
D. パラメトリック空間が有限集合であること
解説:**
勾配が定義可能な連続関数であること
勾配降下法は「傾き」を使って下り道を探すから、なめらかな曲線で傾きが決められる関数でないと使えないのです。
勾配降下法は「傾き」を使って下り道を探すから、なめらかな曲線で傾きが決められる関数でないと使えないのです。
【2】バックプロパゲーション(Backpropagation)
問題:**
多層ニューラルネットワークの学習において、出力層から入力層方向へ誤差勾配を遡及させるバックプロパゲーションは、ネットワーク内のどの要素を最適化する過程で必須となるか?
選択肢:**
A. 各層の出力値そのもの
B. 重みパラメータ
C. 活性化関数の形式
D. 入力データの分布
B. 重みパラメータ
C. 活性化関数の形式
D. 入力データの分布
解説:**
重みパラメータ
バックプロパゲーションは、出力と正解のズレをもとに、ニューラルネットの「重み」(つなぐ線の強さ)を調整していく方法です。
バックプロパゲーションは、出力と正解のズレをもとに、ニューラルネットの「重み」(つなぐ線の強さ)を調整していく方法です。
【3】活性化関数(Activation Function)
問題:**
ニューラルネットワークにおいて線形変換に非線形性を導入する活性化関数は、モデル表現力向上のためどのような性質を持つべきか?
選択肢:**
A. 単調減少関数で0未満を許容しない
B. 非線形であり入力範囲全体で微分可能であることが望ましい
C. 単純な比例関係を保つ線形写像
D. 入力値に対し常に定数値を出力する定関数
B. 非線形であり入力範囲全体で微分可能であることが望ましい
C. 単純な比例関係を保つ線形写像
D. 入力値に対し常に定数値を出力する定関数
解説:**
非線形であり入力範囲全体で微分可能であることが望ましい
活性化関数は「オン・オフ」をなめらかに表せるスイッチで、単純な直線でなく曲がった線が必要なんです。そうすると複雑なパターンを表せるようになります。
活性化関数は「オン・オフ」をなめらかに表せるスイッチで、単純な直線でなく曲がった線が必要なんです。そうすると複雑なパターンを表せるようになります。
【4】コスト関数(損失関数)
問題:**
学習においてモデル出力と目標値の齟齬を定量化するコスト関数は、最終的に何を極小化するための基準として機能するか?
選択肢:**
A. データの次元数
B. モデルパラメータ数
C. 予測誤差の総量
D. 学習率の大きさ
B. モデルパラメータ数
C. 予測誤差の総量
D. 学習率の大きさ
解説:**
予測誤差の総量
コスト関数はモデルの間違いがどれくらいかを数で示すもの。これを小さくするとモデルがより正確になります。
コスト関数はモデルの間違いがどれくらいかを数で示すもの。これを小さくするとモデルがより正確になります。
【5】正則化(Regularization)
問題:**
過剰適合を回避するため、モデルの自由度を適度に制限する正則化手法は、主に何を制御することでモデルの汎用性を高めるか?
選択肢:**
A. テスト用データセットの増加
B. モデルの複雑さ(重みの大きさなど)
C. 活性化関数の非線形度合い
D. 訓練回数の減少
B. モデルの複雑さ(重みの大きさなど)
C. 活性化関数の非線形度合い
D. 訓練回数の減少
解説:**
モデルの複雑さ(重みの大きさなど)
正則化はモデルが複雑すぎて「テストで弱くなる」のを防ぐため、モデルをほどほどの複雑さにする工夫です。
正則化はモデルが複雑すぎて「テストで弱くなる」のを防ぐため、モデルをほどほどの複雑さにする工夫です。
【6】ハイパーパラメータチューニング(Hyperparameter Tuning)
問題:**
モデル内部で自動学習されない学習率・バッチサイズなどのハイパーパラメータは、なぜ探索が必要とされるか?
選択肢:**
A. 自然言語処理以外では無関係
B. 最適な初期化を保証するため
C. モデル性能がこれら設定値に大きく左右されるため
D. 計算時間を増大させるため
B. 最適な初期化を保証するため
C. モデル性能がこれら設定値に大きく左右されるため
D. 計算時間を増大させるため
解説:**
モデル性能がこれら設定値に大きく左右されるため
学習率やバッチサイズなどの設定は、勉強の仕方を決めるもの。これが合わないと、いくらモデルが頑張ってもいい結果がでない。
学習率やバッチサイズなどの設定は、勉強の仕方を決めるもの。これが合わないと、いくらモデルが頑張ってもいい結果がでない。
【7】クロスバリデーション(Cross-Validation)
問題:**
データセットを複数分割し、学習と評価を繰り返すクロスバリデーションは、どのような統計的利点をモデル評価にもたらすか?
選択肢:**
A. 偏った一部データに依存した評価を避ける
B. 学習率を自動設定する
C. 特徴量を自動生成する
D. 活性化関数を最適化する
B. 学習率を自動設定する
C. 特徴量を自動生成する
D. 活性化関数を最適化する
解説:**
偏った一部データに依存した評価を避ける
何度も違う分け方でテストすれば、たまたま運がよかっただけでなく、本当に実力があるかチェックできる。
何度も違う分け方でテストすれば、たまたま運がよかっただけでなく、本当に実力があるかチェックできる。
【8】エンコーディング(Encoding)
問題:**
生のテキストやカテゴリ情報をモデルが処理しやすい数値形式に変換するエンコーディングは、モデルにとってどんな意義を有するか?
選択肢:**
A. 訓練回数を減らす
B. データを数値にして計算可能にする
C. 重み更新を不要にする
D. 活性化関数を定義不要にする
B. データを数値にして計算可能にする
C. 重み更新を不要にする
D. 活性化関数を定義不要にする
解説:**
データを数値にして計算可能にする
コンピュータは数字が得意。言葉や分類を数字に直すと、計算で判断できるようになる。
コンピュータは数字が得意。言葉や分類を数字に直すと、計算で判断できるようになる。
【9】特徴量抽出(Feature Extraction)
問題:**
原データから本質的な特徴を取り出す特徴量抽出は、学習プロセスにおいてどのような利点をもたらすか?
選択肢:**
A. 計算量の増大
B. ノイズの増加
C. モデルが重要な情報に集中しやすくなる
D. 学習率が自動で最適化
B. ノイズの増加
C. モデルが重要な情報に集中しやすくなる
D. 学習率が自動で最適化
解説:**
モデルが重要な情報に集中しやすくなる
余計な情報を取り除き、大事な部分だけ残すから、モデルは迷わずに学習できる。
余計な情報を取り除き、大事な部分だけ残すから、モデルは迷わずに学習できる。
【10】PCA(主成分分析)
問題:**
PCAは高次元データを低次元空間へ射影するが、その際重視される方向は何に基づいて決まるか?
選択肢:**
A. 分散が最大になる方向
B. 平均値が最大の方向
C. すべての軸を均等にする方向
D. ランダムに決まる方向
B. 平均値が最大の方向
C. すべての軸を均等にする方向
D. ランダムに決まる方向
解説:**
分散が最大になる方向
データが一番ばらける方向を見つけ、その方向にそろえることで、情報をぎゅっとまとめる。
データが一番ばらける方向を見つけ、その方向にそろえることで、情報をぎゅっとまとめる。
【11】クラスタリング(Clustering)
問題:**
クラスタリング手法は、ラベルなしデータに対しどのような構造を顕在化させる?
選択肢:**
A. 確率分布の平均値
B. 自然に分かれたグループ構造
C. 時系列のトレンド
D. データの勾配情報
B. 自然に分かれたグループ構造
C. 時系列のトレンド
D. データの勾配情報
解説:**
自然に分かれたグループ構造
似たもの同士が固まるグループを見つけることで、データを理解しやすくする。
似たもの同士が固まるグループを見つけることで、データを理解しやすくする。
【12】CNN(畳み込みニューラルネットワーク)
問題:**
CNNは画像上のローカル特徴を捉えるためにどのような操作を行うか?
選択肢:**
A. 画像全体の平均値のみを参照する
B. 部分領域ごとにフィルタを適用する畳み込み操作
C. すべての画素を一度に全結合層へ渡す
D. ランダムな画素を無視するドロップアウトのみ行う
B. 部分領域ごとにフィルタを適用する畳み込み操作
C. すべての画素を一度に全結合層へ渡す
D. ランダムな画素を無視するドロップアウトのみ行う
解説:**
部分領域ごとにフィルタを適用する畳み込み操作
小さな窓で画像を覗いて、目や鼻みたいな局所的パターンを見つける。
小さな窓で画像を覗いて、目や鼻みたいな局所的パターンを見つける。
【13】RNN(再帰型ニューラルネットワーク)
問題:**
RNNは系列データ処理に有用だが、それは内部状態がどのような働きをするからか?
選択肢:**
A. 出力を常に一定に保つ
B. 過去の情報をメモリのように保持する
C. 勾配計算を不要にする
D. 特徴量選択を自動で行う
B. 過去の情報をメモリのように保持する
C. 勾配計算を不要にする
D. 特徴量選択を自動で行う
解説:**
過去の情報をメモリのように保持する
昨日の出来事を覚えて、今日の判断に使えるイメージ。
昨日の出来事を覚えて、今日の判断に使えるイメージ。
【14】LSTM(Long Short-Term Memory)
問題:**
LSTMが長期的依存関係を扱えるのは、入力、出力、忘却の各ゲートを通じて何を制御するからか?
選択肢:**
A. 勾配消失現象の増幅
B. 内部状態への情報の出し入れ
C. 活性化関数の直線化
D. 特徴量次元の増大
B. 内部状態への情報の出し入れ
C. 活性化関数の直線化
D. 特徴量次元の増大
解説:**
内部状態への情報の出し入れ
覚えたい情報は入れ、いらなくなったら忘れる「ふた付きのメモ帳」を持っているような仕組み。
覚えたい情報は入れ、いらなくなったら忘れる「ふた付きのメモ帳」を持っているような仕組み。
【15】Transformer
問題:**
TransformerはRNNを用いずに系列データを扱う際、どのような機構により単語間の関係性を捉えるか?
選択肢:**
A. Attention機構
B. 勾配降下法のみ
C. 単純な全結合層
D. k-meansクラスタリング
B. 勾配降下法のみ
C. 単純な全結合層
D. k-meansクラスタリング
解説:**
Attention機構
どの言葉がどの言葉と関係あるか、スポットライトを当てるように注目する仕組みを使う。
どの言葉がどの言葉と関係あるか、スポットライトを当てるように注目する仕組みを使う。
【16】Attention Mechanism
問題:**
Attentionは入力要素間の関連度を重み付けすることで、どのような情報選別を可能にするか?
選択肢:**
A. 無関係な要素に等しく重みを与える
B. 重要な要素に高い重みを与え、他を弱める
C. 全要素を無視する
D. 入力をランダムに並び替える
B. 重要な要素に高い重みを与え、他を弱める
C. 全要素を無視する
D. 入力をランダムに並び替える
解説:**
重要な要素に高い重みを与え、他を弱める
たくさん話し声がある中で、大事な人の声だけ大きく聞こえるようにする感じ。
たくさん話し声がある中で、大事な人の声だけ大きく聞こえるようにする感じ。
【17】Dropout
問題:**
Dropoutは学習中、一部のユニットを確率的に無効化するが、その目的は何か?
選択肢:**
A. 学習時間の増大
B. 過学習防止
C. 学習率の固定化
D. 活性化関数の削除
B. 過学習防止
C. 学習率の固定化
D. 活性化関数の削除
解説:**
過学習防止
いつも同じ特定の仲間ばかりで固めず、時々メンバーを変えてチームを強くする。
いつも同じ特定の仲間ばかりで固めず、時々メンバーを変えてチームを強くする。
【18】バッチ正規化(Batch Normalization)
問題:**
バッチ正規化は中間表現を正規化することで、主に何を安定化させるか?
選択肢:**
A. 入力データのラベル
B. 勾配計算と学習速度
C. モデルのパラメータ初期値
D. 活性化関数の種類
B. 勾配計算と学習速度
C. モデルのパラメータ初期値
D. 活性化関数の種類
解説:**
勾配計算と学習速度
出力のばらつきを抑えると、モデルが勉強しやすくなって上達が早くなる。
出力のばらつきを抑えると、モデルが勉強しやすくなって上達が早くなる。
【19】勾配消失問題(Vanishing Gradient Problem)
問題:**
深いニューラルネットで後方から伝達される勾配が極端に小さくなり、初期層が訓練困難になる現象は何と呼ばれるか?
選択肢:**
A. 勾配爆発
B. 勾配消失
C. 正則化
D. 過学習
B. 勾配消失
C. 正則化
D. 過学習
解説:**
勾配消失
後ろから送る直し方の合図が途中で弱くなって、最初のほうの層が全然学べない状態。
後ろから送る直し方の合図が途中で弱くなって、最初のほうの層が全然学べない状態。
【20】勾配爆発問題(Exploding Gradient Problem)
問題:**
勾配が非常に大きくなり、パラメータ更新が極端な値をとって学習が不安定になる現象は何と呼ばれるか?
選択肢:**
A. 勾配消失
B. 勾配爆発
C. Early Stopping
D. 転移学習
B. 勾配爆発
C. Early Stopping
D. 転移学習
解説:**
勾配爆発
修正しようとする力が大きすぎて、モデルが大混乱する状態。
修正しようとする力が大きすぎて、モデルが大混乱する状態。
【21】オートエンコーダ(Autoencoder)
問題:**
オートエンコーダは入力を圧縮し再現することで、入力分布の何を獲得しようとするか?
選択肢:**
A. データの主要な特徴パターン
B. クラスタの数
C. ラベル情報
D. 学習率
B. クラスタの数
C. ラベル情報
D. 学習率
解説:**
データの主要な特徴パターン
元の情報を圧縮して、なくしちゃいけない大事な特徴を見つける。
元の情報を圧縮して、なくしちゃいけない大事な特徴を見つける。
【22】GAN(Generative Adversarial Network)
問題:**
GANは生成器と識別器が拮抗する構造を持つが、その目的は生成器側でどのような成果を得るためか?
選択肢:**
A. より本物らしい偽データを生み出すため
B. 計算量を減らすため
C. データを手動でラベルづけするため
D. 活性化関数を線形化するため
B. 計算量を減らすため
C. データを手動でラベルづけするため
D. 活性化関数を線形化するため
解説:**
より本物らしい偽データを生み出すため
偽物作りの職人と、それを見破る名人が戦うと、職人はどんどんレベルアップして、本物そっくりを作れるようになる。
偽物作りの職人と、それを見破る名人が戦うと、職人はどんどんレベルアップして、本物そっくりを作れるようになる。
【23】畳み込み(Convolution)
問題:**
畳み込みは画像処理においてフィルタを滑らせる操作だが、これは入力画像のどのような特徴を抽出するために有効か?
選択肢:**
A. 全体的な平均輝度
B. 局所的な形や模様
C. ラベル情報
D. 無関係なノイズ
B. 局所的な形や模様
C. ラベル情報
D. 無関係なノイズ
解説:**
局所的な形や模様
画像の小さな部分(例:目、鼻、輪郭)を探し出すことで大きな意味を理解しやすくなる。
画像の小さな部分(例:目、鼻、輪郭)を探し出すことで大きな意味を理解しやすくなる。
【24】プーリング(Pooling)
問題:**
プーリングは畳み込み後の特徴マップに対し、どのような効果をもたらすか?
選択肢:**
A. 特徴の重要部分を圧縮して、計算を軽くしながら情報を保つ
B. 全ての特徴を消去する
C. 学習率を下げる
D. ラベルを自動生成する
B. 全ての特徴を消去する
C. 学習率を下げる
D. ラベルを自動生成する
解説:**
特徴の重要部分を圧縮して、計算を軽くしながら情報を保つ
複雑な絵を少し小さくまとめて、でも大事なポイントは残しておく。
複雑な絵を少し小さくまとめて、でも大事なポイントは残しておく。
【25】ソフトマックス関数(Softmax Function)
問題:**
ソフトマックスは出力ベクトルを確率分布的解釈に変換するが、その結果各成分はどのような制約を受けるか?
選択肢:**
A. 全ての成分は0以上1以下で、合計が1になる
B. 全て負の値である
C. 合計が2になる
D. ランダムで決まる
B. 全て負の値である
C. 合計が2になる
D. ランダムで決まる
解説:**
全ての成分は0以上1以下で、合計が1になる
いくつかの選択肢があって、「これは30%、あれは50%」など確率として意味を持たせるための仕組み。
いくつかの選択肢があって、「これは30%、あれは50%」など確率として意味を持たせるための仕組み。
【26】シグモイド関数(Sigmoid Function)
問題:**
シグモイド関数は実数入力を0~1範囲に写像するが、その形状はなぜS字型と称されるか?
選択肢:**
A. 正と負の方向に直線的に伸びるから
B. 中央付近はなだらかで両端が水平に近づく形だから
C. 入力に応じてランダムに変化するから
D. 一定値を出力する定関数だから
B. 中央付近はなだらかで両端が水平に近づく形だから
C. 入力に応じてランダムに変化するから
D. 一定値を出力する定関数だから
解説:**
中央付近はなだらかで両端が水平に近づく形だから
真ん中でゆっくり変わって、端っこでフラットになる曲線はアルファベットのSっぽい。
真ん中でゆっくり変わって、端っこでフラットになる曲線はアルファベットのSっぽい。
【27】ReLU関数(ReLU)
問題:**
ReLUは入力が正の時は線形、負の時は0出力とするが、この特性により何が軽減されるか?
選択肢:**
A. 勾配消失
B. モデルの柔軟性
C. 学習データ数
D. 入力ノイズ
B. モデルの柔軟性
C. 学習データ数
D. 入力ノイズ
解説:**
勾配消失
0以下ではシャットダウン、0以上はそのまま通す簡単なルールで、勉強する力がなくならないようにする。
0以下ではシャットダウン、0以上はそのまま通す簡単なルールで、勉強する力がなくならないようにする。
【28】学習率(Learning Rate)
問題:**
学習率が大きすぎると最適点探索が不安定化する理由は何か?
選択肢:**
A. 一度に進む歩幅が大きすぎ、目標を通り過ぎてしまうため
B. 学習が止まる
C. データが消失する
D. 特徴量が増える
B. 学習が止まる
C. データが消失する
D. 特徴量が増える
解説:**
一度に進む歩幅が大きすぎ、目標を通り過ぎてしまうため
細かく調整せず、大きく動きすぎてうまく狙った場所に行けない感じ。
細かく調整せず、大きく動きすぎてうまく狙った場所に行けない感じ。
【29】確率的勾配降下法(SGD)
問題:**
SGDが全データを用いるバッチ勾配降下法に比べて計算効率が高まるのはなぜか?
選択肢:**
A. 一部のデータでおおよその方向がわかるから
B. 特徴量を自動生成できるから
C. ハイパーパラメータが不要になるから
D. 活性化関数を減らせるから
B. 特徴量を自動生成できるから
C. ハイパーパラメータが不要になるから
D. 活性化関数を減らせるから
解説:**
一部のデータでおおよその方向がわかるから
全部を使うより、少しのデータでどっちに進めばいいかざっくり判断して、素早く学習できる。
全部を使うより、少しのデータでどっちに進めばいいかざっくり判断して、素早く学習できる。
【30】ベイズ最適化(Bayesian Optimization)
問題:**
ベイズ最適化は、探索対象の関数に対し確率モデルを構築し、そのモデルを用いてどのような次試行点選択を行うか?
選択肢:**
A. 最も不確実な点
B. 有望な箇所(期待改善度が大きい点)
C. 無関係な外部データ
D. 常に同じ点
B. 有望な箇所(期待改善度が大きい点)
C. 無関係な外部データ
D. 常に同じ点
解説:**
有望な箇所(期待改善度が大きい点)
「このあたりを試すと一番得するかも」という場所を頭良く選んで無駄なく探す。
「このあたりを試すと一番得するかも」という場所を頭良く選んで無駄なく探す。