SlideShare a Scribd company logo
未来画像予測モデルと時間重み付けを導入した
価値関数に基づく強化学習
2023/8/28(月)
加藤誉基,山内悠嗣(中部大学)
1
電気・電子・情報関係学会東海支部連合大会
G1-4
研究背景
• 教師データが用意できないにタスク対して強化学習が利用されている
• 自らが行動することで得られる経験から学習するため,未知の環境のタスクでも解く可能性
がある
2
https://ai.googleblog.com/2018/06/scalable-deep-reinforcement-learning.html
7台のロボットハンドがピッキング動作を学習している様子
• エージェントが試行錯誤し,報酬を最大化するための行動を学習する機械学習の1つ
• エージェント:環境に対して行動を起こすもの
• 環境:エージェントが相互作用を行う対象
• 状態:環境が保持する環境の様子
• 行動:エージェントがある状態おいて取る事ができる行動
• 報酬:行動に対して遷移した環境から得られるもの
強化学習(例:ライントレースタスク)
3
環境:コース エージェント:車 行動:左右のモータの制御値
右: 0.6
左:-0.1
状態:カメラから観測画像
ライントレースタスクの場合
強化学習の流れ
1. 環境から状態を観測し,行動を決定
4
環境
エージェント
状態
𝑠𝑡
行動
𝑎𝑡
右: 0.6
左:-0.1
状態
𝑠𝑡
行動
環境
エージェント
𝑠𝑡 𝑎𝑡
強化学習の流れ
1. 環境から状態を観測し,行動を決定
2. 環境がエージェントに遷移した状態を与える
5
右: 0.6
左:-0.1
状態
𝑠𝑡
遷移状態
𝑠𝑡+1
環境
エージェント
状態
𝑠𝑡 遷移状態
𝑠𝑡+1
強化学習の流れ
1. 環境から状態を観測し,行動を決定
2. 環境がエージェントに遷移した状態を与える
3. 遷移した状態に応じて報酬を獲得
6
状態
𝑠𝑡 遷移状態
𝑠𝑡+1
行動
環境
エージェント
𝑠𝑡 𝑎𝑡
𝑠𝑡
遷移状態
𝑠𝑡+1
環境
エージェント
状態
右: 0.6
左:-0.1
𝑟𝑡
報酬
1. 環境から状態を観測し,従い行動を決定
2. 環境がエージェントに遷移した状態を与える
3. 遷移した状態に応じて報酬を獲得
4. 1~3を繰り返して,経験を蓄積
強化学習の流れ
7
状態,行動,報酬,遷移状態
経験
行動
環境
エージェント
𝑎𝑡
𝑠𝑡
遷移状態
𝑠𝑡+1
環境
エージェント
状態
右: 0.6
左:-0.1
𝑟𝑡
報酬
状態
𝑠𝑡 遷移状態
𝑠𝑡+1
• 価値を最大化すること
• 価値𝑄 𝑠𝑡, 𝑎𝑡 :時刻𝑡の状態𝑠𝑡,行動𝑎𝑡のときに時刻t+1以降に獲得できる報酬𝑟𝑡の期待値
• 価値が最大→獲得できる報酬の期待値が最大となる可能性大
強化学習の目標
8
価値Q(𝑠𝑡, 𝑎𝑡)=250
-50点 100点
100点
現在の状態と行動
100点
-50点
100点
最適な行動を選択することができる
価値Q(𝑠𝑡, 𝑎𝑡)
現在の状態と行動
• 未知である先の状態を予測し,価値𝑄(𝑠𝑡+𝑁, 𝑎𝑡+𝑁)を求める
• 現在の価値𝑄(𝑠𝑡, 𝑎𝑡)はその時の状態𝑠𝑡と行動𝑎𝑡により推測される
• 未知である𝑁時刻先の状態𝑠𝑡+𝑁と行動𝑎𝑡+𝑁が分かればよりよい現在の価値𝑄 𝑠𝑡, 𝑎𝑡 が推測できる
先行研究のアプローチ
9
価値Q(𝑠𝑡, 𝑎𝑡)
現在の状態と行動
状態𝑠𝑡+𝑁と行動𝑎𝑡+𝑁の価値
未知であるこれらの状態
西片 智広,山内 悠嗣,時系列予測モデルを導入した価値関数に 基づく強化学習,動的画像処理実利用化ワークショップ,2023.
未来画像生成器
• 未来画像生成の例
• 入力:t=1からt=4までの画像とその時の行動
• 出力:t=5からt=13の未来画像
10
時間が経過するほど未来の予測は曖昧さを含み不安定
入力画像
時刻
入力 出力
予測画像
時刻
正解画像
差分画像
長期の予測を導入した場合,生成させる未来画像は時間が経過するほど不安定
• 先の状態を予測する際に時間重み付けを導入し,価値を計算
• 予測した時刻𝑡 + 2以降の価値𝑄( Ƹ
𝑠𝑡+𝑁, 𝑎𝑡+𝑁)に対して直近の未来予測の結果を重視するよう重
み付けすることで,よりよい現在の現在の価値𝑄 𝑠𝑡, 𝑎𝑡 が推測できる
本研究の目的
11
𝑸(ො
𝒔𝒕+𝟐, 𝒂𝒕+𝟐)
𝑎𝑡+2
Ƹ
𝑠𝑡+2
𝑸(ො
𝒔𝒕+𝟔,, 𝒂𝒕+𝟔)
𝑎𝑡+6
Ƹ
𝑠𝑡+6
・・・
重み大 重み中
・・・
𝑸(ො
𝒔𝒕+𝟏𝟎, 𝒂𝒕+𝟏𝟎)
𝑎𝑡+10
Ƹ
𝑠𝑡+10
・・・
・・・
重み小
提案手法の概要
• 強化学習の流れに未来画像生成を導入
12
手法の流れ
• 強化学習の流れに未来画像を追加
1. 環境から状態を取得
• 観測する状態:画像
13
ො
𝒔𝒕+𝟏
ො
𝒔𝒕+𝟐
ො
𝒔𝒕+𝑵
𝒂𝒕
𝒂𝒕+𝟏
𝒂𝒕+𝑵
未来画像生成器
環境
方策ネットワーク
方策ネットワーク
Qネットワーク
𝑎𝑡
𝑠𝑡
エンコーダ
エンコーダ
…
…
更新
手法の流れ
• 強化学習の流れに未来画像を追加
2. エージェントが行動を決定
• 入力:状態𝑠𝑡
• 出力:行動𝑎𝑡
ො
𝒔𝒕+𝟏
ො
𝒔𝒕+𝟐
ො
𝒔𝒕+𝑵
𝒂𝒕
𝒂𝒕+𝟏
𝒂𝒕+𝑵
未来画像生成器
環境
方策ネットワーク
方策ネットワーク
Qネットワーク
𝑎𝑡
𝑠𝑡
エンコーダ
エンコーダ
…
…
更新
右:0.4
左:0.8
𝒂𝒕
14
ො
𝒔𝒕+𝟏
ො
𝒔𝒕+𝟐
ො
𝒔𝒕+𝑵
手法の流れ
• 強化学習の流れに未来画像を追加
3. 未来画像生成器で1時刻先の状態を予測
• 入力:状態𝑠𝑡,行動𝑎𝑡
• 出力:予測した状態 Ƹ
𝑠𝑡+1
15
𝒂𝒕
𝒂𝒕+𝟏
𝒂𝒕+𝑵
未来画像生成器
環境
方策ネットワーク
方策ネットワーク
Qネットワーク
𝑎𝑡
𝑠𝑡
エンコーダ
エンコーダ
…
…
更新
ො
𝒔𝒕+𝟏
右:0.4
左:0.8
𝒂𝒕
ො
𝒔𝒕+𝟏
ො
𝒔𝒕+𝟐
ො
𝒔𝒕+𝑵
手法の流れ
• 強化学習の流れに未来画像を追加
4. エージェントが予測した状態から行動を決定
• 入力:予測した状態 Ƹ
𝑠𝑡+1
• 出力:行動を𝑎𝑡+1
16
右:0.5
左:0.3
𝒂𝒕+𝟏
…
𝒂𝒕
𝒂𝒕+𝟏
𝒂𝒕+𝑵
未来画像生成器
環境
方策ネットワーク
方策ネットワーク
Qネットワーク
𝑎𝑡
Ƹ
𝑠𝑡+1
エンコーダ
エンコーダ
…
更新
ො
𝒔𝒕+𝟏
ො
𝒔𝒕+𝟐
ො
𝒔𝒕+𝑵
手法の流れ
• 強化学習の流れに未来画像を追加
5. 1時刻先の状態の予測,行動の決定を繰り返し,N時刻先の状態を予測
• 入力:予測した状態 Ƹ
𝑠𝑡+𝑁
• 出力:行動𝑎𝑡+𝑁
17
𝒂𝒕
𝒂𝒕+𝟏
𝒂𝒕+𝑵
未来画像生成器
環境
方策ネットワーク
方策ネットワーク
Qネットワーク
𝑎𝑡
エンコーダ
エンコーダ
…
…
更新
右:0.5
左:0.3
𝒂𝒕+𝑵
Ƹ
𝑠𝑡+𝑁
• 強化学習の流れに未来画像を追加
6. 予測したN時刻先の状態価値を計算,方策ネットワークに使用
• 入力:予測した状態 Ƹ
𝑠𝑡+𝑁,行動𝑎𝑡+𝑁
• 出力:𝑄( Ƹ
𝑠𝑡+𝑁, 𝑎𝑡+𝑁)
ො
𝒔𝒕+𝟏
ො
𝒔𝒕+𝟐
ො
𝒔𝒕+𝑵
手法の流れ
18
𝒂𝒕
𝒂𝒕+𝟏
𝒂𝒕+𝑵
未来画像生成器
環境
方策ネットワーク
方策ネットワーク
Qネットワーク
𝑎𝑡
エンコーダ
エンコーダ
…
…
更新
右:0.5
左:0.3
𝒂𝒕+𝑵
Ƹ
𝑠𝑡+𝑁
𝑸(ො
𝒔𝒕+𝑵, 𝒂𝒕+𝑵)
• 未来画像生成器:Convolutional Dynamic Neural Advection(CDNA)
• 画像と条件を入力する事で未来画像生成
• 入力:時刻𝑡の状態𝑠𝑡とその状態にとる行動𝑎𝑡
• 出力:𝑡 + 1時刻先の未来画像 Ƹ
𝑠𝑡+1
• 未来画像生成器:Convolutional Dynamic Neural Advection(CDNA)
• 画像と条件を入力する事で未来画像生成
• 入力:予測した状態 Ƹ
𝑠𝑡+1とその状態にとる行動𝑎𝑡+1
• 出力:𝑡 + 2時刻先の未来画像 Ƹ
𝑠𝑡+2
入力𝒔𝒕
畳み込み
LSTM
条件𝒂𝒕
マスクフィルタ
エンコーダ デコーダ
出力ො
𝒔𝒕+𝟏
移動フィルタ
複合マスク
移動フィルタをかけた後の画像
畳み込み
LSTM
未来画像生成器
19
C. Finn, et al.: Unsupervised learning for physical interaction through video prediction, Advances in neural information processing systems, 2016.
出力ො
𝒔𝒕+𝟐
条件𝒂𝒕+𝟏
予測した画像を再び入力することでN時刻先の未来画像を予測
入力ො
𝒔𝒕+𝟏
• CURL:自己教師あり学習を導入した強化学習の手法の一つ
• 強化学習ではactor-criticをベースにしており,自己教師あり学習で画像の潜在変数を学習
• 観測した画像からランダムクロップにより2枚の画像に拡張し,拡張した画像の潜在変数の類
似度が高くなるようにエンコーダを学習
Contrastive Unsupervised representations
for Reinforcement Learning(CURL)
20
M. Laskin, et al.: Curl: Contrastive unsupervised representations for reinforcement learning, International Conference on Machine Learning, pp.5639-5650, 2020.
エンコーダの特徴表現能力が向上
従来法の問題点と改善策
• 問題点
• 従来法では長期の予測を導入した場合,予測される状態は時間が経過するほど不安定となるた
め,強化学習で得られる報酬が減少
• 解決策
• Qネットワークでは予測される状態の価値に対して直近の未来予測の結果を重視するように重
み付けする
21
予測の信頼性が向上することが見込めるため,早期に高い報酬を得ることが期待
提案手法でのQネットワーク
• 予測した先の状態の価値に時間重み付けを行い,価値を更新
• 従来法での損失関数
• 提案手法での損失関数
22
報酬と次の状態の価値 予測した先の状態の価値に対して
均等に重み付け
現在の価値
報酬と次の状態の価値 予測した先の状態の価値に対して
直近の状態が大きくなるように重み付け
現在の価値
従来法より高い現在の価値𝑸 𝒔𝒕, 𝒂𝒕 を推測できることが期待
ラインレースタスクの問題設定
• ライントレース問題:黒いラインを車が走行
• エージェント:走行する車
• 左右のモータ付きタイヤの制御値([-1.0, 1.0])
• 環境
• 枝分かれしない,ランダムにカーブを含むコース
• 状態
• 先頭に付属するフロントカメラからのライン画像
• 報酬
• コースを進むごとにポイントが加算
• クリア条件
• 一つのコースを完走
• 終了条件
• コースから一定距離外れる
• コースを逆走
• 制限時間内にコースが完走できないとき
23
環境:コース
エージェント:車 状態𝑠𝑡:フロントカメラ
からのライン画像
評価実験の概要
• 比較手法
• CURL:Contrastive Unsupervised representations for Reinforcement Learning(CURL)
• 従来法:CURL + 未来画像(t+10時刻先まで予測)の導入
• 提案手法:CURL + 未来画像(t+10時刻先まで予測)を予測する際に時間重み付けを導入
• 学習用コース
24
生成されたコースの例
評価用難易度別のコース
• easy、normal、hardの3種類のコースを用意
25
normal
hard
easy 楕円に近い
学習用コース
と同じ難易度
急なカーブを
含むように生成
報酬による実験結果
• どの難易度でも提案手法の方が早期に高い報酬を獲得
26
ステップ
報酬
報酬
ステップ
報酬
ステップ
難易度easy 難易度normal 難易度hard
実線:5回の学習の平均
領域:5回の学習の標準偏差
• 実験概要
• hardコースにおいて反時計回りでA〜Dカーブを走行し、成功回数を比較
• 各手法で報酬が高くなる80,000~100,000ステップ間を5回走行した合計の成功回数を計算
手法 A B C D 平均
CURL 0.2 0.2 0.2 0.0 0.10
従来法 1.0 0.8 0.4 0.4 0.65
提案手法 2.6 2.6 2.4 2.0 2.40
hardコースにおけるA~Dのカーブの走行成功の平均回数[回]
走行成功回数による実験結果
27
提案手法の方がカーブの成功に成功した回数が多い
5回の学習の平均
実際に走行している様子
• 各手法で報酬が高くなる80,000~100,000ステップでの様子(難易度hard)
28
提案手法の方が安定した走行
8倍速の動画
まとめ
• 未来画像予測モデルに対して時間重み付けを導入した価値関数に基づく
強化学習の手法を提案
• 先の状態を予測する際に時間重み付けを導入し,価値を計算
• 時刻t+10までを予測した未来画像に対して時間重み付けを導入した場合,どの難易度でも多くの報酬を
獲得
• 難易度hardにおいては安定した走行が可能
• 予測した未来画像の直近の推定結果を重視したため、予測の信頼性が向上
• 今後の展望
• 行動決定時に予測した未来画像を導入する手法について検討
29
30
31
32
学習時間
• 未来画像生成器(CDNA)の学習時間
• 40エポックで約3.5時間
• 強化学習(CURL)の学習時間
• 10,000ステップで約2.0時間
• CURLに未来画像(t+10時刻先まで予測)を導入した場合の学習時間
• 10,000ステップで約5.5時間
33
ライントレース環境で変更できる箇所
• コースそのものの大きさ
• 円の縦横比
• カーブを設けるポイントの数と曲がり具合
• 環境の背景
• ラインの太さ,色,濃度
34
多様な環境の例

More Related Content

PDF
[Track4-3] AI・ディープラーニングを駆使して、「G検定合格者アンケートのフリーコメント欄」を分析してみた
PPTX
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
PPTX
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
PDF
正準相関分析
PPTX
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
PDF
Icra2020 v2
PDF
[DL輪読会]Hindsight Experience Replay
PPTX
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[Track4-3] AI・ディープラーニングを駆使して、「G検定合格者アンケートのフリーコメント欄」を分析してみた
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
正準相関分析
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
Icra2020 v2
[DL輪読会]Hindsight Experience Replay
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP

What's hot (20)

PDF
KPTの基本と、その活用法
PDF
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
PDF
方策勾配型強化学習の基礎と応用
PPTX
【DL輪読会】Transformers are Sample Efficient World Models
PDF
第3回WBAレクチャー:BRAに基づく海馬体の確率的生成モデルの構築
PDF
(DL輪読)Matching Networks for One Shot Learning
PDF
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
PDF
Sift特徴量について
PDF
平滑化処理の繰り返しによる画像セグメンテーションのためのグラフカット
PDF
変分推論と Normalizing Flow
PDF
2 6.ゼロ切断・過剰モデル
PDF
機械学習デザインパターンおよび機械学習システムの品質保証の取り組み
PPTX
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
ODP
Attention-Guided GANについて
PDF
Ph.D. Defense Presentation Slides (Changhee Han) カリスの東大博論審査会(公聴会)発表スライド Patho...
PDF
World model
PDF
Vision and Language(メタサーベイ )
PDF
MoveItの新機能、 OMPL Constrained Planningを試してみた
PDF
[DL輪読会]Learning to Simulate Complex Physics with Graph Networks
PDF
【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentat...
KPTの基本と、その活用法
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
方策勾配型強化学習の基礎と応用
【DL輪読会】Transformers are Sample Efficient World Models
第3回WBAレクチャー:BRAに基づく海馬体の確率的生成モデルの構築
(DL輪読)Matching Networks for One Shot Learning
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
Sift特徴量について
平滑化処理の繰り返しによる画像セグメンテーションのためのグラフカット
変分推論と Normalizing Flow
2 6.ゼロ切断・過剰モデル
機械学習デザインパターンおよび機械学習システムの品質保証の取り組み
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
Attention-Guided GANについて
Ph.D. Defense Presentation Slides (Changhee Han) カリスの東大博論審査会(公聴会)発表スライド Patho...
World model
Vision and Language(メタサーベイ )
MoveItの新機能、 OMPL Constrained Planningを試してみた
[DL輪読会]Learning to Simulate Complex Physics with Graph Networks
【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentat...
Ad

Similar to 未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習 (17)

PPTX
ラビットチャレンジレポート 深層学習Day4
PPTX
【DL輪読会】Reward Design with Language Models
DOCX
レポート深層学習Day4
PDF
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
PPTX
強化学習を可視化する chainerrl-visualizerを動かしてみた
PPTX
論文紹介 No-Reward Meta Learning (RL architecture勉強会)
PDF
強化学習の実適用に向けた課題と工夫
PPTX
Robogen論文よみ勉強会の資料。論文の内容と使われている技術の整理をざっくりと説明
PPT
PMIフォーラム2014 プロジェクト型演習における最適なチーム構成とは?学びの過程はどのようなものか?~早稲田大学情報理工学科の実践~
PDF
2018/8/6 トレLABO2 AI案件のよくある落とし穴と人材育成
PPTX
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
PPTX
Efficient_Communication_in_Multi-Agent_Reinforcement_Learning_via_Variance_Ba...
PPTX
[NeurIPS2019 論文読み会] A Meta Analysis of Overfitting in Machine Learning
PPTX
130801_udct_05_01
PPTX
Gcpug10
PDF
試験スキルのアウトラインから得たMCP試験受験のコツ
PDF
コミュニケーションスキルを重視したソフトウェア技術者教育手法の研究
ラビットチャレンジレポート 深層学習Day4
【DL輪読会】Reward Design with Language Models
レポート深層学習Day4
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
強化学習を可視化する chainerrl-visualizerを動かしてみた
論文紹介 No-Reward Meta Learning (RL architecture勉強会)
強化学習の実適用に向けた課題と工夫
Robogen論文よみ勉強会の資料。論文の内容と使われている技術の整理をざっくりと説明
PMIフォーラム2014 プロジェクト型演習における最適なチーム構成とは?学びの過程はどのようなものか?~早稲田大学情報理工学科の実践~
2018/8/6 トレLABO2 AI案件のよくある落とし穴と人材育成
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
Efficient_Communication_in_Multi-Agent_Reinforcement_Learning_via_Variance_Ba...
[NeurIPS2019 論文読み会] A Meta Analysis of Overfitting in Machine Learning
130801_udct_05_01
Gcpug10
試験スキルのアウトラインから得たMCP試験受験のコツ
コミュニケーションスキルを重視したソフトウェア技術者教育手法の研究
Ad

More from MILab (20)

PDF
テキストタグを併用した画像の品質評価モデルの提案
PDF
選択的破壊的忘却に基づくマシン・アンラーニングの高速化
PDF
Enhancing Anomaly Detection Accuracy with Conditional CutPaste
PDF
Aesthetic Quality Assessment of Images Using Text Tags with CLIP
PDF
視覚強化学習における画像予測モデルを導入した顕著性誘導 Q ネットワーク
PDF
変形ARマーカの高速,高精度な3次元位置・姿勢推定と組み込みボードへの実装
PDF
変形ARマーカの高速,高精度な3次元位置・姿勢推定と組み込みボードへの実装
PDF
変形ARマーカの位置・姿勢推定の高速化
PDF
画像の圧縮復元認識フレームワークの軽量化及び軽量化
PDF
条件付きCutPasteを用いた異常検知の高精度化,電子情報通信学会 東海支部 卒業研究発表会,2025
PDF
画像の圧縮・復元モデルと認識モデルのEnd-to-End学習
PDF
画像の圧縮・復元モデルと認識モデルのEnd-to-End学習
PDF
変形ARマーカの高速かつ高精度な姿勢推定
PDF
自己教師あり学習を導入したWavelet Vision TransformerによるDeepfake検出の高精度化
PDF
動的環境における動作計画のための C-space の予測
PDF
人の姿勢予測に基づいた協働ロボットの動作計画
PDF
時系列予測モデルを導入した価値関数に基づく強化学習
PDF
エッジコンピューティングのための圧縮画像認識
PDF
Vox2C-space:動作計画のための機械学習に基づくC-spaceの生成
PDF
機械学習に基づく経路計画, 電子情報通信学会総合大会, 2022
テキストタグを併用した画像の品質評価モデルの提案
選択的破壊的忘却に基づくマシン・アンラーニングの高速化
Enhancing Anomaly Detection Accuracy with Conditional CutPaste
Aesthetic Quality Assessment of Images Using Text Tags with CLIP
視覚強化学習における画像予測モデルを導入した顕著性誘導 Q ネットワーク
変形ARマーカの高速,高精度な3次元位置・姿勢推定と組み込みボードへの実装
変形ARマーカの高速,高精度な3次元位置・姿勢推定と組み込みボードへの実装
変形ARマーカの位置・姿勢推定の高速化
画像の圧縮復元認識フレームワークの軽量化及び軽量化
条件付きCutPasteを用いた異常検知の高精度化,電子情報通信学会 東海支部 卒業研究発表会,2025
画像の圧縮・復元モデルと認識モデルのEnd-to-End学習
画像の圧縮・復元モデルと認識モデルのEnd-to-End学習
変形ARマーカの高速かつ高精度な姿勢推定
自己教師あり学習を導入したWavelet Vision TransformerによるDeepfake検出の高精度化
動的環境における動作計画のための C-space の予測
人の姿勢予測に基づいた協働ロボットの動作計画
時系列予測モデルを導入した価値関数に基づく強化学習
エッジコンピューティングのための圧縮画像認識
Vox2C-space:動作計画のための機械学習に基づくC-spaceの生成
機械学習に基づく経路計画, 電子情報通信学会総合大会, 2022

未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習