チュートリアル

チュートリアル講演1

講師：藤井慶輔先生 (名古屋大学大学院情報学研究科／サイバーエージェント)

タイトル：スポーツAI研究の最前線

概要：

近年、コンピュータビジョンを起点とするスポーツデータの自動計測技術と、その上に構築される機械学習手法の進展により、プレーの定量的理解や意思決定支援への期待が高まっている。一方で、計測、認識、分類、予測、評価、提案に至る各段階には、データ取得に伴う権利制約や計測の難しさ、集団行動の複雑さ、判断の文脈依存性などに起因する未解決の課題が依然として多い。本発表では、主に集団スポーツを対象として、コンピュータビジョンによるデータの自動取得、機械学習に基づく反事実予測を用いたプレー評価、さらに強化学習を活用した試合全体・全選手を対象とする評価と行動提案に関する取り組みを紹介する。最後に、これらの技術を広く利用可能にするための取り組みとして、各種データの公開、オープンソース解析プラットフォームOpenSTARLab、開催したコンペティションなどを紹介し、今後の展望を議論する。

チュートリアル講演2

講師：千葉直也先生 (大阪大学)

タイトル：三次元データ処理の動向

概要：

三次元データはコンピュータビジョンの重要な研究対象の一つであり，近年では点群，メッシュ，深度画像だけでなくNeRFや3DGSなどの新しい表現も一般的になっています．深層学習関連技術の発展と基盤モデルの登場，計算資源・データセットの増加，生成モデルの進化などに伴い，クラス分類やセグメンテーション，単眼深度推定などの従来のタスクに加えて，フィードフォワードでの再構成やシーン生成・編集などの新しいタスクも注目を集めています．本講演では深層学習時代の三次元データの処理に関する研究を俯瞰し，データ表現とタスクの両面から近年の動向を紹介します．

チュートリアル講演3

講師：斉藤いつみ先生（東北大学大学院情報科学研究科）

タイトル：大規模視覚言語モデルと文書画像生成

概要：

大規模言語モデルの発展に伴い，言語モデルと視覚エンコーダを組み合わせて画像や動画などの視覚情報と言語を統合的に理解する大規模視覚言語モデルが急速に発展しています．最近では，視覚情報の理解にとどまらず，HTMLやSVG，Pythonコードといったレンダリング可能な中間表現を構造化テキストとして生成することで，Webページやダイアグラム，チャート等の視覚的に整った文書画像を生成する手法も注目されています．本チュートリアルでは，視覚言語モデルの基礎から最新動向を概観するとともに，これらを用いた文書画像生成の技術と応用について整理し，今後の展望について議論します．