OpenAIのGPT-4o
GPT-4oは言語や画像、音声、動画のすべてを処理できるマルチモーダルモデルです。マルチモーダルというと少し聞きなれない言葉かもしれませんが、要するに、言語や音声、画像などさまざまな情報=モダリティをまとめて処理できるAIであるということです。
今までのChatGPT/GPT-4でも部分的なマルチモーダル機能は実現されていましたが、GPT-4oではさらにこれが強化されています。GPT-4oは単一のニューラルネットワークで、言語、画像、音声、動画を入力でき、また出力もできるようになっています。入力できるトークンの上限は12万8000トークンになっています(GPT-4 Turboと同等、GPT-4は3万2768トークン)。
言語/テキストの入出力性能については、以前からChatGPTを使っていたユーザーであればご存じのとおりです。研究者やコアユーザーたちは先ほど触れたgpt2-chatbotというGPT-4oの事前公開版を使ってその性能を実感していますし、GPT-4o公開後は無料ユーザーにも開放された圧倒的な性能に関する報告がSNSでいくつもあがっています。
大規模言語モデル
東工大が公開している「大規模言語モデルの驚異と脅威」の資料が凄い。「言語モデルとは何か」という説明から、ニューラルネットワーク、Transformer、ファインチューニングと用語を詳しく解説している。
https://x.com/macopeninsutaba/status/1793115063663861850?s=61&t=j6fSqmJEhHaT-47OT8JZnQ
https://speakerdeck.com/chokkan/20230327_riken_llm
https://speakerdeck.com/chokkan/20230327_riken_llm