SlideShare a Scribd company logo
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
視覚言語モデルを用いた衣服画像ペアの
比較文章生成に関する研究
北海道大学 大学院情報科学院
情報理工学部門 複合情報工学分野 調和系工学研究室
修士課程2年 阿部 晃平
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
消費者の購買プロセスにおける『商品比較』
複数の商品を比較検討し自身のニーズに適した選択を行うための行為
満足感や納得感を高める重要な役割[1]
時間と労力がかかり,負担となる場合も[2]
商品比較を行う消費者に向けた既存の情報提供手段
比較記事
商品が適した消費者や用途など
主観的要素を含んだ情報を提供
必要な記事が存在しない場合も
比較サイト[3]
任意の商品を比較可能
客観的な商品データのみ
[1] Kotler, P. and Keller, K.L.: Marketing Management, Pearson, 15th edition (2015).
[2] Jacoby, J., Speller, D. E. and Kohn, C. A.: Brand choice behavior as a function of information load, Journal of marketing research, Vol.11, No.1,pp.63–69 (1974).
[3] 価格.com, https://kakaku.com/
2
研究背景
比較サイトの例(価格.com[3])
任意の商品の主観的要素を含んだ
比較情報提供手段は現状存在しない
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
研究目的
目的
商品比較を行う消費者に向けた
任意の商品に関する主観的要素を含む情報提供手段の開発
対象
アプローチ
2枚の衣服画像に基づく比較文章の生成
比較文章
2枚の衣服画像
比較文章
生成手法
2つの衣服は
どちらも
入力 出力
整備された商品データが
存在する場合でも拡張可能
商品 衣服
衣服のカテゴリ トップス・アウター・パンツ・スカート・ワンピース
商品比較の場面 ECサイトにおける同じカテゴリ同士の2つの衣服の比較
ユーザー
購入を検討している衣服のカテゴリが既に決まっており
その中で似た特徴を持つ衣服を比較したい消費者
印象やコーディネートなど
主観的な要素が多い
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
商品比較記事の分析
目的
生成する比較文章の構成と内容の設計
分析対象記事
特定の商品間の違いを知りたい読者に向けて比較情報を提供
収集元:専門雑誌のオンラインサイト,ECサイト上のブログ
分析項目
記述される商品属性,記事構成,文字数
商品カテゴリ 記事数
衣服 30
家電 10
自動車 10
スマートフォン 10
食品 5
分析した商品カテゴリと記事数
対象外:
・ランキング形式の記事
・おすすめ商品を列挙する記事
衣服以外の比較記事も多く見られる
本研究で扱う商品比較の状況は
衣服に限定されない
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
5
すべての商品カテゴリの記事に関する分析結果
本研究では記述される商品の属性を2種類に分類
客観属性:具体的な基準に基づいて測定可能な属性
主観属性:消費者の感覚や価値観に依存する属性
すべての記事で共通する構成
1. 比較対象の提示
役割:商品間の共通点の説明と比較への導入
属性:商品間で共通する客観属性を記述
2. 各商品の説明
役割:他の商品との比較を踏まえた各商品の特徴の説明
属性:商品間で顕著に異なる主観属性を記述
サイズ,価格,
性能など
印象,使用感,
使用シーンなど
主観属性の記述には客観属性が根拠として示される
例:「チェック柄がカジュアルな印象を与えます」(衣服)
「静音モードがついており夜間でも安心して使えます」(家電)
例:「今回は白Tシャツ3着を徹底比較します!」(衣服)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
6
衣服の比較記事に関する分析結果
1記事あたりの文字数と属性数の平均
本研究で設定した衣服の属性
属性カテゴリ 具体例
客観属性
種類 ポロシャツ
デザイン・シルエット・装飾 半袖,ボタンダウンカラー
素材 コットン
色・柄・プリント ライトブルー,無地
主観属性
印象 カジュアル,清潔感
機能 動きやすい,通気性が良い
着用シーン 夏の休日のお出かけ
コーディネート
白やベージュのパンツと
合わせやすい
構成要素 文字数
属性数
客観属性 主観属性
比較対象の提示 80.3 3.9 0.0
各商品の説明 195.8 5.3 5.2
画像から読み取れない
属性は約2割
(価格,ブランドなど)
画像から得られる属性
のみを対象としても
大きな問題は無い
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
分析結果から比較文章の
構成と内容を設計
7
目標とする比較文章の構成と内容
比較文章
2つの衣服はどちらも無地の半袖シャツです。
それぞれの特徴を比較し、どんな人におす
すめか、適した着用シーンを紹介します。
衣服Aはライトブルーのポロシャツで衣
服Bよりカジュアルな印象を与えます。~
衣服Bは前開きのホワイトシャツで衣服A
よりビジネスライクな印象です。~
衣服A 衣服B
比較対象の提示
• 衣服間で共通する客観属性を記述
各衣服の説明
• 衣服間で顕著に異なる主観属性を
客観属性を根拠として記述
• 各文章は200文字以内
無地,半袖,シャツ
カジュアル ⇔ ビジネスライク
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
8
衣服比較文章の生成アプローチの検討
衣服属性推定
教師あり学習を用いて画像から属性を推定[4]
衣服画像キャプション生成
教師あり学習を用いて画像から説明文を生成[5]
ファッション分野における大規模視覚言語モデルの活用
ファッションショーのランウェイ画像からレポートを作成[6]
推定可能な属性は学習データセットに依存
既存技術の活用可能性の調査
比較に特化したデータセットは存在しない
比較文章の生成は扱われていない
[4] Liu, Z., Luo, P., Qiu, S., Wang, X. and Tang, X.: DeepFashion: Powering robust clothes recognition and retrieval with rich annotations, Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition, pp. 1096–1104 (2016).
[5] Yang, X., Zhang, H., Jin, D., Liu, Y., Wu, C.-H., Tan, J., Xie, D., Wang, J. and Wang, X.: Fashion captioning: Towards generating accurate descriptions with
semantic rewards, Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XIII 16,Springer, pp.1–17 (2020).
[6] Ding, Y., Ma, Y., Fan, W., Yao, Y., Chua, T.-S. and Li, Q.: Fashionregen: Llm-empowered fashion report generation, Companion Proceedings of the ACM on Web
Conference 2024, pp.991–994 (2024).
画像と言語を
統合的に処理
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
衣服属性推定
モデル[4]によって
推定した属性を
テンプレートに反映
比較文章の大規模
データセットを作成し
衣服画像キャプション
生成モデル[5]を学習
プロンプトベースの
視覚言語モデルに
少数の理想的な
入出力例を提示
考えられるアプローチ
考えられるアプローチ
採用アプローチ
事前学習済み視覚言語モデルに少数の理想的な入出力例を提示
複数のモジュールを用いた段階的な処理を導入
属性推定+
テンプレート
衣服画像キャプション
生成モデル+
教師あり学習
事前学習済み
視覚言語モデル+
Few-shot学習
必要データ
属性ラベル付き
衣服画像
大量の衣服画像ペアと
比較文章
少量の衣服画像ペアと
比較文章
表現の柔軟性
属性間の関係性の
表現が困難
多様な表現を学習可能 多様な表現を学習済み
結果の解釈性 出力の根拠が明確 部分的に解釈可能 ブラックボックス性
衣服以外への
応用
属性推定モデルと
データが必要
新たに大量のデータが
必要
少量のデータで対応
可能
属性推定+
テンプレート
衣服画像キャプション
生成モデル+
教師あり学習
事前学習済み
視覚言語モデル+
Few-shot学習
9
衣服比較文章の生成アプローチの検討
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
10
衣服画像ペアの比較文章生成手法
客観属性
特定
2つの衣服は
どちらも~
衣服Aはライト
ブルーの~
衣服Bは前開き
の~
比較対象の提示
衣服Aの説明文
衣服Bの説明文
【入力】
2枚の衣服画像
衣服A
衣服B
主観属性
推定
共通点
抽出
差異
抽出
文章
生成
客観属性
特定
主観属性
推定
主観属性集合
共通点集合
差異集合
客観属性集合
• 5つのモジュール
• 各モジュールに対応するプロンプトと
理想的な入出力例を視覚言語モデルに入力 【出力】
比較文章
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
11
①客観属性特定モジュール
客観属性
特定
2つの衣服は
どちらも~
衣服Aはライト
ブルーの~
衣服Bは前開き
の~
比較対象の提示
衣服Aの説明文
衣服Bの説明文
衣服A
衣服B
主観属性
推定
共通点
抽出
差異
抽出
文章
生成
客観属性
特定
主観属性
推定
客観属性集合
主観属性集合
共通点集合
差異集合
客観属性カテゴリ 衣服Aの客観属性
種類 ポロシャツ
デザイン・装飾・
シルエット
半袖,ボタンダウン
素材 コットン
色・柄・プリント ライトブルー,無地
1個
2~10個
各衣服画像から読み取れる客観属性を特定
【入力】
2枚の衣服画像
視覚言語モデルに与えるプロンプトの一部
# 命令
「入力画像」に基づいて、視覚的に確認可能
な衣服の客観属性を具体的かつ正確に特定し
てください。
客観属性とは~
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
②主観属性推定モジュール
客観属性
特定
2つの衣服は
どちらも~
衣服Aはダーク
ブラウンの~
衣服Bは前開き
の~
比較対象の提示
衣服Aの説明文
衣服Bの説明文
衣服A
衣服B
主観属性
推定
共通点
抽出
差異
抽出
文章
生成
客観属性
特定
主観属性
推定
出力:比較文章
主観属性集合
共通点集合
差異集合
主観属性
カテゴリ
衣服Aの主観属性
根拠となる
客観属性
印象 カジュアル
ポロシャツ,
ライトブルー,…
機能 動きやすい
半袖,
ポロシャツ,…
着用
シーン
夏のお出かけ
半袖,
ライトブルー,…
コーディ
ネート
白いパンツと
合わせやすい
無地,
ライトブルー,…
客観属性集合
各カテゴリ
1個以上
各主観属性に
対して1個以上
主観属性と根拠となる客観属性を推定
【入力】
2枚の衣服画像
プロンプトの一部
# 命令
「入力画像」と「客観属性」
に基づいて、衣服の主観属性
を具体的に推定してください。
主観属性とは~
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
【出力】
比較文章
13
③共通点抽出モジュール
客観属性
特定
2つの衣服は
どちらも~
衣服Aはライト
ブルーの~
衣服Bは袖前開
きの~
比較対象の提示
衣服Aの説明文
衣服Bの説明文
衣服A
衣服B
主観属性
推定
共通点
抽出
差異
抽出
文章
生成
客観属性
特定
主観属性
推定
主観属性集合
共通点集合
差異集合
客観属性集合
客観属性カテゴリ 共通する客観属性
種類 シャツ
デザイン・装飾・シルエット 半袖
色・柄・プリント 無地
※ 異なる表記でも同じ意味であれば抽出
衣服間で共通する客観属性を抽出
【入力】
2枚の衣服画像
プロンプトの一部
# 命令
衣服Aと衣服Bの「客観属性」を比較し、カテゴリ
ごとに共通点を抽出してください。
異なる表記でも同じ意味を持つ場合は共通点とし
て抽出してください。
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
【入力】
2枚の衣服画像
14
④差異抽出モジュール
客観属性
特定
2つの衣服は
どちらも~
衣服Aはライト
ブルーの~
衣服Bは前開き
の~
比較対象の提示
衣服Aの説明文
衣服Bの説明文
衣服A
衣服B
主観属性
推定
共通点
抽出
差異
抽出
文章
生成
客観属性
特定
主観属性
推定
主観属性集合
共通点集合
差異集合
客観属性集合
主観属性
カテゴリ
衣服A 衣服B
主観属性 根拠となる客観属性 主観属性 根拠となる客観属性
印象 カジュアル ポロシャツ,… ビジネスライク ホワイト,…
着用シーン 夏のお出かけ ライトブルー,… オフィスカジュアル ボタンダウン,…
5個まで
衣服間で顕著に異なる主観属性を抽出
視覚言語モデルへの指示「消費者が衣服を比較する際に重要と考えられる要素を優先」
プロンプトの一部
# 命令
衣服Aと衣服Bの「主観属性」
を比較し、衣服間で顕著に異
なる差異を抽出してください。
消費者が衣服を比較する際に
重要と考えられる要素を優先
してください。
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
15
⑤文章生成モジュール
客観属性
特定
2つの衣服は
どちらも~
衣服Aはライト
ブルーの~
衣服Bは前開き
の~
比較対象の提示
衣服Aの説明文
衣服Bの説明文
衣服A
衣服B
主観属性
推定
共通点
抽出
差異
抽出
文章
生成
客観属性
特定
主観属性
推定
客観属性集合
主観属性集合
共通点集合
差異集合
比較文章を生成
【入力】
2枚の衣服画像
【出力】
比較文章
プロンプトの一部
# 命令
衣服Aと衣服Bの「入力画像」
「共通する客観属性」「顕著
に異なる主観属性」に基づい
て、2つの衣服を比較する文
章を作成してください。
比較対象の提示
• 共通点集合の属性を
すべて記述
各衣服の説明
• 差異集合の属性を
すべて記述
• 200文字以内
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
目的
提案手法に適した視覚言語モデルの選定
方法
複数の視覚言語モデルで比較文章を生成し,プロンプトの制約順守率
と属性の正確性や具体性を調査
比較対象とした視覚言語モデル
GPT-4o (Open AI)
Gemini 2.0 Flash (Google)
Claude 3.5 Sonnet (Anthropic)
データセット
衣服データセットFACAD170K[5]から衣服ペアを15組選定
画像特徴量のコサイン類似度が0.9以上のペア
目視による確認で比較対象として妥当なペアを選定
結果
Claude 3.5 Sonnet が3モデルの中で最も優位 採用
16
予備実験:視覚言語モデルの選定
• 属性特定個数
• 差異抽出個数
• 比較文章文字数
• JSON形式出力可能
• APIを介して利用可能
• 実験時点で最新モデル
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
17
実験:提案手法の有効性の検証
目的
提案手法の生成文章が情報提供に適した質を備えていることの検証
段階的な処理が生成文章の質を向上させることの検証
方法
被験者50名に対するアンケート調査
調和系工学研究室のメールマガジン登録者に協力を依頼
予備実験とは異なる15組の衣服ペアを選定
2種類の生成手法による比較文章を被験者に提示
多段階生成手法: 5つのモジュールから成る本研究で提案する手法
直接生成手法:画像ペアから直接文章を生成
客観属性
特定 比較対象提示
衣服Aの説明
衣服Bの説明
主観属性
推定
共通点抽出
差異抽出
文章生成
客観属性
特定
主観属性
推定
比較文章
少数例を提示
1名を除いてアパレル
ECサイト利用経験者
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
衣服ペア
トップス,アウター,パンツ,スカート,ワンピースから各3組
比較文章
3段落構成
400文字程度
18
被験者に提示した衣服ペアと比較文章
提示した衣服ペアの例
手法 文字数
多段階 418.1
直接 383.5
2つの衣服はどちらもハイウエストで、ドレープ性のある素材を使用したス
カートです。それぞれの特徴を比較し、どんな人におすすめか、適した着用
シーンを紹介します。
衣服Aはオレンジベースのドット柄が目を引くミディ丈スカートです。衣服B
と比べてカジュアルで親しみやすい印象を与えます。ふんわりとしたAライン
シルエットとレトロな雰囲気のドット柄が、フェミニンな魅力を引き立てます。
フラットサンダルやデニムジャケットと合わせれば、カフェ巡りなどのデイ
リーシーンで活躍する一着に。レトロ可愛いスタイルを好む方におすすめです。
衣服Bはテラコッタカラーのマーメイドスカートです。衣服Aと比べてよりド
レッシーで洗練された印象です。裾に向かって広がるフレアデザインと、アシ
ンメトリーな裾のラインが華やかさを演出。フィットしたトップスと合わせれ
ば、エレガントなスタイリングが完成します。ヒール靴と相性抜群で、パー
ティーやフォーマルなシーンにぴったり。上品な装いを求める方におすすめの
一着です。
提示した文章の平均文字数
多段階生成手法によって生成された文章例(435文字)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
19
被験者に回答を依頼した質問と回答分布
質問番号 評価観点 質問内容
質問1 読みやすさ 日本語として自然で読みやすいと思いますか?
質問2 論理的一貫性 論理的な矛盾や不自然なつながりが無いと思いますか?
質問3 正確性 衣服の特徴を正確に説明していると思いますか?
質問4 有用性 2つの衣服を比較する際に役立つと思いますか?
0% 20% 40% 60% 80% 100%
直接
多段階
直接
多段階
直接
多段階
直接
多段階
質問
4
質問
3
質問
2
質問
1
回答割合
非常に思う
やや思う
どちらともいえない
あまり思わない
全く思わない
多段階生成手法の生成文章は多くの被験者に肯定的に受け入れられた
多くのユーザーに役立つ情報を提供可能
さらに,すべての質問において直接生成手法を有意に上回った
ウィルコクソンの符号付き順位検定,有意水準5%,ボンフェローニ補正
質問1
質問2
質問3
質問4
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
有用性が低いと回答した被験者の主な意見
「カタカナや専門用語が多く分かりにくい」
20
有用性に影響を与える主な要因
有用性が低いと回答した被験者の主な意見
「カタカナや専門用語が多く分かりにくい」
「記述に誤りがある」
手法 客観属性 主観属性
多段階 1.04 0.00
直接 5.85 2.05
手法 客観属性 主観属性
多段階 0.52 1.06
直接 8.19 8.72
生成文章に現れた属性のうち
分かりにくいと指摘された割合 (%)
生成文章に現れた属性のうち
誤りと指摘された割合 (%)
例:メランジ,ティアード,
マーメイドライン
属性特定時に具体例を提示
求められる専門性をモデルが把握
多段階生成手法の優位性の要因
属性の明示的な特定と推定
正確性が向上
多段階生成手法の優位性の要因
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
論理的一貫性においても多段階生成手法の優位性が見られた
衣服Bと比べてすっきりとした印象を与えます。
ゆったりとしたシルエットが、カジュアルながら女性らしい
雰囲気を演出します。
21
論理的一貫性
直接生成手法による生成文章(前後省略)
手法 割合 (%)
多段階 0.0
直接 20.0
15組の衣服ペアのうち
矛盾した記述があると指摘された割合 (%)
客観属性と主観属性の関連付け
矛盾の少ない文章を生成
多段階生成手法の優位性の要因
指摘された記述例
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
22
さらなる有用性向上の可能性
多段階生成手法による比較文章への指摘
「属性の表現が曖昧」
例:衣服Aに「休日のお出かけ」衣服Bに「お出かけ」と記載
「同一のシーンを指すのか,異なるシーンを指すのか不明瞭」
属性特定時にモデルに例示する属性の具体性を上げる
曖昧さが低減し,情報の有用性が高まる可能性
被験者
例:「ディナー」→「レストランでのディナー」
「結婚式」→「親しい友人の結婚式」
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
23
まとめ
目的
商品比較を行う消費者に向けた
任意の商品に関する主観的要素を含む情報提供手段の開発
アプローチ
2枚の衣服画像に基づく比較文章の生成
視覚言語モデルによる段階的な処理
実験
多段階生成手法による比較文章は多くの消費者に役立つ情報を
提供できることを確認
属性の具体化により,有用性がさらに向上する可能性
客観属性特定 主観属性推定
共通点抽出
差異抽出
文章生成
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
24
研究業績
国内学会 口頭発表 査読なし(3件)
阿部 晃平, 横山 想一郎, 山下 倫央, 川村 秀憲 : 属性推定を用いた衣服画像ペアの2者間関係を表現
するキャプションの生成, 第22回情報科学技術フォーラム (FIT 2023), 大阪, 2023.
阿部 晃平, 横山 想一郎, 山下 倫央, 川村 秀憲 : 衣服画像ペアの差異を強調した属性予測に基づく
キャプションの生成, 2024年度 人工知能学会全国大会 (第38回), 浜松, 2024.
阿部 晃平, 横山 想一郎, 山下 倫央, 川村 秀憲 : 視覚言語モデルを用いた段階的属性推定に基づく
衣服画像ペア間の比較文章の生成, 第219回ソフトウェア工学研究発表会, 東京, 2025.(2025年3
月発表予定)
国際学会 口頭発表 査読あり(2件)
Kohei Abe, Soichiro Yokoyama, Tomohisa Yamashita, Hidenori Kawamura : Generation of Captions
Highlighting the Differences between a Clothing Image Pair with Attribute Prediction, The
Thirteenth International Conference on Intelligent Systems and Applications (INTELLI 2024),
Athens, 2024.
Kohei Abe, Soichiro Yokoyama, Tomohisa Yamashita, Hidenori Kawamura : Caption Generation for
Garment Image Pair Comparison using Vision-Language Model with Attribute Relationships, 2025
the 9th International Conference on Innovation in Artificial Intelligence (ICIAI 2025), Singapore,
2025.(2025年3月発表予定)
学術雑誌 非筆頭 査読あり(1件)
Soichiro Yokoyama, Kohei Abe, Tomohisa Yamashita, Hidenori Kawamura : Caption Generation for
Clothing Image Pair Comparison Using Attribute Prediction and Prompt-based Visual Language
Model, International Journal On Advances in Systems and Measurements, Vol.17, No. 3&4, 2024.
受賞(1件)
Best Paper Award (Thirteenth International Conference on Intelligent Systems and Applications)
Ad

More Related Content

Similar to 【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative Captions Based on Garment Image Pairs Using a Vision-Language Model) (20)

Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
harmonylab
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
harmonylab
 
Outfit net fashion outfit recommendation with attention based multiple instan...
Outfit net fashion outfit recommendation with attention based multiple instan...Outfit net fashion outfit recommendation with attention based multiple instan...
Outfit net fashion outfit recommendation with attention based multiple instan...
harmonylab
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
harmonylab
 
ECサイトにおける商品紹介文の作成支援システムの開発と評価に関する研究
ECサイトにおける商品紹介文の作成支援システムの開発と評価に関する研究ECサイトにおける商品紹介文の作成支援システムの開発と評価に関する研究
ECサイトにおける商品紹介文の作成支援システムの開発と評価に関する研究
harmonylab
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
harmonylab
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
harmonylab
 
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated TextAll That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
harmonylab
 
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
harmonylab
 
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic ArithmeticZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
harmonylab
 
単語の分散表現を用いた俳句における取り合わせの評価に関する研究
単語の分散表現を用いた俳句における取り合わせの評価に関する研究単語の分散表現を用いた俳句における取り合わせの評価に関する研究
単語の分散表現を用いた俳句における取り合わせの評価に関する研究
harmonylab
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
harmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
harmonylab
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
harmonylab
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
harmonylab
 
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
harmonylab
 
RAPiD
RAPiDRAPiD
RAPiD
harmonylab
 
Personalized Fashion Recommendation from Personal Social Media Data An Item t...
Personalized Fashion Recommendation from Personal Social Media Data An Item t...Personalized Fashion Recommendation from Personal Social Media Data An Item t...
Personalized Fashion Recommendation from Personal Social Media Data An Item t...
harmonylab
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
harmonylab
 
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
harmonylab
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
harmonylab
 
Outfit net fashion outfit recommendation with attention based multiple instan...
Outfit net fashion outfit recommendation with attention based multiple instan...Outfit net fashion outfit recommendation with attention based multiple instan...
Outfit net fashion outfit recommendation with attention based multiple instan...
harmonylab
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
harmonylab
 
ECサイトにおける商品紹介文の作成支援システムの開発と評価に関する研究
ECサイトにおける商品紹介文の作成支援システムの開発と評価に関する研究ECサイトにおける商品紹介文の作成支援システムの開発と評価に関する研究
ECサイトにおける商品紹介文の作成支援システムの開発と評価に関する研究
harmonylab
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
harmonylab
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
harmonylab
 
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated TextAll That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
harmonylab
 
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
harmonylab
 
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic ArithmeticZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
harmonylab
 
単語の分散表現を用いた俳句における取り合わせの評価に関する研究
単語の分散表現を用いた俳句における取り合わせの評価に関する研究単語の分散表現を用いた俳句における取り合わせの評価に関する研究
単語の分散表現を用いた俳句における取り合わせの評価に関する研究
harmonylab
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
harmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
harmonylab
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
harmonylab
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
harmonylab
 
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
harmonylab
 
Personalized Fashion Recommendation from Personal Social Media Data An Item t...
Personalized Fashion Recommendation from Personal Social Media Data An Item t...Personalized Fashion Recommendation from Personal Social Media Data An Item t...
Personalized Fashion Recommendation from Personal Social Media Data An Item t...
harmonylab
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
harmonylab
 

More from harmonylab (20)

【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
harmonylab
 
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
harmonylab
 
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
harmonylab
 
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
harmonylab
 
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
harmonylab
 
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
harmonylab
 
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
harmonylab
 
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究 【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
harmonylab
 
【DLゼミ】Generative Image Dynamics, CVPR2024
【DLゼミ】Generative Image Dynamics, CVPR2024【DLゼミ】Generative Image Dynamics, CVPR2024
【DLゼミ】Generative Image Dynamics, CVPR2024
harmonylab
 
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
From Pretraining Data to Language Models to Downstream Tasks:Tracking the Tr...From Pretraining Data to Language Models to Downstream Tasks:Tracking the Tr...
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
harmonylab
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
harmonylab
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
harmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
harmonylab
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
harmonylab
 
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
harmonylab
 
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
harmonylab
 
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
harmonylab
 
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
harmonylab
 
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
harmonylab
 
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
harmonylab
 
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
harmonylab
 
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究 【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
harmonylab
 
【DLゼミ】Generative Image Dynamics, CVPR2024
【DLゼミ】Generative Image Dynamics, CVPR2024【DLゼミ】Generative Image Dynamics, CVPR2024
【DLゼミ】Generative Image Dynamics, CVPR2024
harmonylab
 
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
From Pretraining Data to Language Models to Downstream Tasks:Tracking the Tr...From Pretraining Data to Language Models to Downstream Tasks:Tracking the Tr...
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
harmonylab
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
harmonylab
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
harmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
harmonylab
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
harmonylab
 
Ad

【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative Captions Based on Garment Image Pairs Using a Vision-Language Model)

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 視覚言語モデルを用いた衣服画像ペアの 比較文章生成に関する研究 北海道大学 大学院情報科学院 情報理工学部門 複合情報工学分野 調和系工学研究室 修士課程2年 阿部 晃平
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 消費者の購買プロセスにおける『商品比較』 複数の商品を比較検討し自身のニーズに適した選択を行うための行為 満足感や納得感を高める重要な役割[1] 時間と労力がかかり,負担となる場合も[2] 商品比較を行う消費者に向けた既存の情報提供手段 比較記事 商品が適した消費者や用途など 主観的要素を含んだ情報を提供 必要な記事が存在しない場合も 比較サイト[3] 任意の商品を比較可能 客観的な商品データのみ [1] Kotler, P. and Keller, K.L.: Marketing Management, Pearson, 15th edition (2015). [2] Jacoby, J., Speller, D. E. and Kohn, C. A.: Brand choice behavior as a function of information load, Journal of marketing research, Vol.11, No.1,pp.63–69 (1974). [3] 価格.com, https://kakaku.com/ 2 研究背景 比較サイトの例(価格.com[3]) 任意の商品の主観的要素を含んだ 比較情報提供手段は現状存在しない
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 研究目的 目的 商品比較を行う消費者に向けた 任意の商品に関する主観的要素を含む情報提供手段の開発 対象 アプローチ 2枚の衣服画像に基づく比較文章の生成 比較文章 2枚の衣服画像 比較文章 生成手法 2つの衣服は どちらも 入力 出力 整備された商品データが 存在する場合でも拡張可能 商品 衣服 衣服のカテゴリ トップス・アウター・パンツ・スカート・ワンピース 商品比較の場面 ECサイトにおける同じカテゴリ同士の2つの衣服の比較 ユーザー 購入を検討している衣服のカテゴリが既に決まっており その中で似た特徴を持つ衣服を比較したい消費者 印象やコーディネートなど 主観的な要素が多い
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 商品比較記事の分析 目的 生成する比較文章の構成と内容の設計 分析対象記事 特定の商品間の違いを知りたい読者に向けて比較情報を提供 収集元:専門雑誌のオンラインサイト,ECサイト上のブログ 分析項目 記述される商品属性,記事構成,文字数 商品カテゴリ 記事数 衣服 30 家電 10 自動車 10 スマートフォン 10 食品 5 分析した商品カテゴリと記事数 対象外: ・ランキング形式の記事 ・おすすめ商品を列挙する記事 衣服以外の比較記事も多く見られる 本研究で扱う商品比較の状況は 衣服に限定されない
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 5 すべての商品カテゴリの記事に関する分析結果 本研究では記述される商品の属性を2種類に分類 客観属性:具体的な基準に基づいて測定可能な属性 主観属性:消費者の感覚や価値観に依存する属性 すべての記事で共通する構成 1. 比較対象の提示 役割:商品間の共通点の説明と比較への導入 属性:商品間で共通する客観属性を記述 2. 各商品の説明 役割:他の商品との比較を踏まえた各商品の特徴の説明 属性:商品間で顕著に異なる主観属性を記述 サイズ,価格, 性能など 印象,使用感, 使用シーンなど 主観属性の記述には客観属性が根拠として示される 例:「チェック柄がカジュアルな印象を与えます」(衣服) 「静音モードがついており夜間でも安心して使えます」(家電) 例:「今回は白Tシャツ3着を徹底比較します!」(衣服)
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 6 衣服の比較記事に関する分析結果 1記事あたりの文字数と属性数の平均 本研究で設定した衣服の属性 属性カテゴリ 具体例 客観属性 種類 ポロシャツ デザイン・シルエット・装飾 半袖,ボタンダウンカラー 素材 コットン 色・柄・プリント ライトブルー,無地 主観属性 印象 カジュアル,清潔感 機能 動きやすい,通気性が良い 着用シーン 夏の休日のお出かけ コーディネート 白やベージュのパンツと 合わせやすい 構成要素 文字数 属性数 客観属性 主観属性 比較対象の提示 80.3 3.9 0.0 各商品の説明 195.8 5.3 5.2 画像から読み取れない 属性は約2割 (価格,ブランドなど) 画像から得られる属性 のみを対象としても 大きな問題は無い
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 分析結果から比較文章の 構成と内容を設計 7 目標とする比較文章の構成と内容 比較文章 2つの衣服はどちらも無地の半袖シャツです。 それぞれの特徴を比較し、どんな人におす すめか、適した着用シーンを紹介します。 衣服Aはライトブルーのポロシャツで衣 服Bよりカジュアルな印象を与えます。~ 衣服Bは前開きのホワイトシャツで衣服A よりビジネスライクな印象です。~ 衣服A 衣服B 比較対象の提示 • 衣服間で共通する客観属性を記述 各衣服の説明 • 衣服間で顕著に異なる主観属性を 客観属性を根拠として記述 • 各文章は200文字以内 無地,半袖,シャツ カジュアル ⇔ ビジネスライク
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 8 衣服比較文章の生成アプローチの検討 衣服属性推定 教師あり学習を用いて画像から属性を推定[4] 衣服画像キャプション生成 教師あり学習を用いて画像から説明文を生成[5] ファッション分野における大規模視覚言語モデルの活用 ファッションショーのランウェイ画像からレポートを作成[6] 推定可能な属性は学習データセットに依存 既存技術の活用可能性の調査 比較に特化したデータセットは存在しない 比較文章の生成は扱われていない [4] Liu, Z., Luo, P., Qiu, S., Wang, X. and Tang, X.: DeepFashion: Powering robust clothes recognition and retrieval with rich annotations, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 1096–1104 (2016). [5] Yang, X., Zhang, H., Jin, D., Liu, Y., Wu, C.-H., Tan, J., Xie, D., Wang, J. and Wang, X.: Fashion captioning: Towards generating accurate descriptions with semantic rewards, Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XIII 16,Springer, pp.1–17 (2020). [6] Ding, Y., Ma, Y., Fan, W., Yao, Y., Chua, T.-S. and Li, Q.: Fashionregen: Llm-empowered fashion report generation, Companion Proceedings of the ACM on Web Conference 2024, pp.991–994 (2024). 画像と言語を 統合的に処理
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 衣服属性推定 モデル[4]によって 推定した属性を テンプレートに反映 比較文章の大規模 データセットを作成し 衣服画像キャプション 生成モデル[5]を学習 プロンプトベースの 視覚言語モデルに 少数の理想的な 入出力例を提示 考えられるアプローチ 考えられるアプローチ 採用アプローチ 事前学習済み視覚言語モデルに少数の理想的な入出力例を提示 複数のモジュールを用いた段階的な処理を導入 属性推定+ テンプレート 衣服画像キャプション 生成モデル+ 教師あり学習 事前学習済み 視覚言語モデル+ Few-shot学習 必要データ 属性ラベル付き 衣服画像 大量の衣服画像ペアと 比較文章 少量の衣服画像ペアと 比較文章 表現の柔軟性 属性間の関係性の 表現が困難 多様な表現を学習可能 多様な表現を学習済み 結果の解釈性 出力の根拠が明確 部分的に解釈可能 ブラックボックス性 衣服以外への 応用 属性推定モデルと データが必要 新たに大量のデータが 必要 少量のデータで対応 可能 属性推定+ テンプレート 衣服画像キャプション 生成モデル+ 教師あり学習 事前学習済み 視覚言語モデル+ Few-shot学習 9 衣服比較文章の生成アプローチの検討
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 10 衣服画像ペアの比較文章生成手法 客観属性 特定 2つの衣服は どちらも~ 衣服Aはライト ブルーの~ 衣服Bは前開き の~ 比較対象の提示 衣服Aの説明文 衣服Bの説明文 【入力】 2枚の衣服画像 衣服A 衣服B 主観属性 推定 共通点 抽出 差異 抽出 文章 生成 客観属性 特定 主観属性 推定 主観属性集合 共通点集合 差異集合 客観属性集合 • 5つのモジュール • 各モジュールに対応するプロンプトと 理想的な入出力例を視覚言語モデルに入力 【出力】 比較文章
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 11 ①客観属性特定モジュール 客観属性 特定 2つの衣服は どちらも~ 衣服Aはライト ブルーの~ 衣服Bは前開き の~ 比較対象の提示 衣服Aの説明文 衣服Bの説明文 衣服A 衣服B 主観属性 推定 共通点 抽出 差異 抽出 文章 生成 客観属性 特定 主観属性 推定 客観属性集合 主観属性集合 共通点集合 差異集合 客観属性カテゴリ 衣服Aの客観属性 種類 ポロシャツ デザイン・装飾・ シルエット 半袖,ボタンダウン 素材 コットン 色・柄・プリント ライトブルー,無地 1個 2~10個 各衣服画像から読み取れる客観属性を特定 【入力】 2枚の衣服画像 視覚言語モデルに与えるプロンプトの一部 # 命令 「入力画像」に基づいて、視覚的に確認可能 な衣服の客観属性を具体的かつ正確に特定し てください。 客観属性とは~
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 12 ②主観属性推定モジュール 客観属性 特定 2つの衣服は どちらも~ 衣服Aはダーク ブラウンの~ 衣服Bは前開き の~ 比較対象の提示 衣服Aの説明文 衣服Bの説明文 衣服A 衣服B 主観属性 推定 共通点 抽出 差異 抽出 文章 生成 客観属性 特定 主観属性 推定 出力:比較文章 主観属性集合 共通点集合 差異集合 主観属性 カテゴリ 衣服Aの主観属性 根拠となる 客観属性 印象 カジュアル ポロシャツ, ライトブルー,… 機能 動きやすい 半袖, ポロシャツ,… 着用 シーン 夏のお出かけ 半袖, ライトブルー,… コーディ ネート 白いパンツと 合わせやすい 無地, ライトブルー,… 客観属性集合 各カテゴリ 1個以上 各主観属性に 対して1個以上 主観属性と根拠となる客観属性を推定 【入力】 2枚の衣服画像 プロンプトの一部 # 命令 「入力画像」と「客観属性」 に基づいて、衣服の主観属性 を具体的に推定してください。 主観属性とは~
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 【出力】 比較文章 13 ③共通点抽出モジュール 客観属性 特定 2つの衣服は どちらも~ 衣服Aはライト ブルーの~ 衣服Bは袖前開 きの~ 比較対象の提示 衣服Aの説明文 衣服Bの説明文 衣服A 衣服B 主観属性 推定 共通点 抽出 差異 抽出 文章 生成 客観属性 特定 主観属性 推定 主観属性集合 共通点集合 差異集合 客観属性集合 客観属性カテゴリ 共通する客観属性 種類 シャツ デザイン・装飾・シルエット 半袖 色・柄・プリント 無地 ※ 異なる表記でも同じ意味であれば抽出 衣服間で共通する客観属性を抽出 【入力】 2枚の衣服画像 プロンプトの一部 # 命令 衣服Aと衣服Bの「客観属性」を比較し、カテゴリ ごとに共通点を抽出してください。 異なる表記でも同じ意味を持つ場合は共通点とし て抽出してください。
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 【入力】 2枚の衣服画像 14 ④差異抽出モジュール 客観属性 特定 2つの衣服は どちらも~ 衣服Aはライト ブルーの~ 衣服Bは前開き の~ 比較対象の提示 衣服Aの説明文 衣服Bの説明文 衣服A 衣服B 主観属性 推定 共通点 抽出 差異 抽出 文章 生成 客観属性 特定 主観属性 推定 主観属性集合 共通点集合 差異集合 客観属性集合 主観属性 カテゴリ 衣服A 衣服B 主観属性 根拠となる客観属性 主観属性 根拠となる客観属性 印象 カジュアル ポロシャツ,… ビジネスライク ホワイト,… 着用シーン 夏のお出かけ ライトブルー,… オフィスカジュアル ボタンダウン,… 5個まで 衣服間で顕著に異なる主観属性を抽出 視覚言語モデルへの指示「消費者が衣服を比較する際に重要と考えられる要素を優先」 プロンプトの一部 # 命令 衣服Aと衣服Bの「主観属性」 を比較し、衣服間で顕著に異 なる差異を抽出してください。 消費者が衣服を比較する際に 重要と考えられる要素を優先 してください。
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 15 ⑤文章生成モジュール 客観属性 特定 2つの衣服は どちらも~ 衣服Aはライト ブルーの~ 衣服Bは前開き の~ 比較対象の提示 衣服Aの説明文 衣服Bの説明文 衣服A 衣服B 主観属性 推定 共通点 抽出 差異 抽出 文章 生成 客観属性 特定 主観属性 推定 客観属性集合 主観属性集合 共通点集合 差異集合 比較文章を生成 【入力】 2枚の衣服画像 【出力】 比較文章 プロンプトの一部 # 命令 衣服Aと衣服Bの「入力画像」 「共通する客観属性」「顕著 に異なる主観属性」に基づい て、2つの衣服を比較する文 章を作成してください。 比較対象の提示 • 共通点集合の属性を すべて記述 各衣服の説明 • 差異集合の属性を すべて記述 • 200文字以内
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 目的 提案手法に適した視覚言語モデルの選定 方法 複数の視覚言語モデルで比較文章を生成し,プロンプトの制約順守率 と属性の正確性や具体性を調査 比較対象とした視覚言語モデル GPT-4o (Open AI) Gemini 2.0 Flash (Google) Claude 3.5 Sonnet (Anthropic) データセット 衣服データセットFACAD170K[5]から衣服ペアを15組選定 画像特徴量のコサイン類似度が0.9以上のペア 目視による確認で比較対象として妥当なペアを選定 結果 Claude 3.5 Sonnet が3モデルの中で最も優位 採用 16 予備実験:視覚言語モデルの選定 • 属性特定個数 • 差異抽出個数 • 比較文章文字数 • JSON形式出力可能 • APIを介して利用可能 • 実験時点で最新モデル
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 17 実験:提案手法の有効性の検証 目的 提案手法の生成文章が情報提供に適した質を備えていることの検証 段階的な処理が生成文章の質を向上させることの検証 方法 被験者50名に対するアンケート調査 調和系工学研究室のメールマガジン登録者に協力を依頼 予備実験とは異なる15組の衣服ペアを選定 2種類の生成手法による比較文章を被験者に提示 多段階生成手法: 5つのモジュールから成る本研究で提案する手法 直接生成手法:画像ペアから直接文章を生成 客観属性 特定 比較対象提示 衣服Aの説明 衣服Bの説明 主観属性 推定 共通点抽出 差異抽出 文章生成 客観属性 特定 主観属性 推定 比較文章 少数例を提示 1名を除いてアパレル ECサイト利用経験者
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 衣服ペア トップス,アウター,パンツ,スカート,ワンピースから各3組 比較文章 3段落構成 400文字程度 18 被験者に提示した衣服ペアと比較文章 提示した衣服ペアの例 手法 文字数 多段階 418.1 直接 383.5 2つの衣服はどちらもハイウエストで、ドレープ性のある素材を使用したス カートです。それぞれの特徴を比較し、どんな人におすすめか、適した着用 シーンを紹介します。 衣服Aはオレンジベースのドット柄が目を引くミディ丈スカートです。衣服B と比べてカジュアルで親しみやすい印象を与えます。ふんわりとしたAライン シルエットとレトロな雰囲気のドット柄が、フェミニンな魅力を引き立てます。 フラットサンダルやデニムジャケットと合わせれば、カフェ巡りなどのデイ リーシーンで活躍する一着に。レトロ可愛いスタイルを好む方におすすめです。 衣服Bはテラコッタカラーのマーメイドスカートです。衣服Aと比べてよりド レッシーで洗練された印象です。裾に向かって広がるフレアデザインと、アシ ンメトリーな裾のラインが華やかさを演出。フィットしたトップスと合わせれ ば、エレガントなスタイリングが完成します。ヒール靴と相性抜群で、パー ティーやフォーマルなシーンにぴったり。上品な装いを求める方におすすめの 一着です。 提示した文章の平均文字数 多段階生成手法によって生成された文章例(435文字)
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 19 被験者に回答を依頼した質問と回答分布 質問番号 評価観点 質問内容 質問1 読みやすさ 日本語として自然で読みやすいと思いますか? 質問2 論理的一貫性 論理的な矛盾や不自然なつながりが無いと思いますか? 質問3 正確性 衣服の特徴を正確に説明していると思いますか? 質問4 有用性 2つの衣服を比較する際に役立つと思いますか? 0% 20% 40% 60% 80% 100% 直接 多段階 直接 多段階 直接 多段階 直接 多段階 質問 4 質問 3 質問 2 質問 1 回答割合 非常に思う やや思う どちらともいえない あまり思わない 全く思わない 多段階生成手法の生成文章は多くの被験者に肯定的に受け入れられた 多くのユーザーに役立つ情報を提供可能 さらに,すべての質問において直接生成手法を有意に上回った ウィルコクソンの符号付き順位検定,有意水準5%,ボンフェローニ補正 質問1 質問2 質問3 質問4
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 有用性が低いと回答した被験者の主な意見 「カタカナや専門用語が多く分かりにくい」 20 有用性に影響を与える主な要因 有用性が低いと回答した被験者の主な意見 「カタカナや専門用語が多く分かりにくい」 「記述に誤りがある」 手法 客観属性 主観属性 多段階 1.04 0.00 直接 5.85 2.05 手法 客観属性 主観属性 多段階 0.52 1.06 直接 8.19 8.72 生成文章に現れた属性のうち 分かりにくいと指摘された割合 (%) 生成文章に現れた属性のうち 誤りと指摘された割合 (%) 例:メランジ,ティアード, マーメイドライン 属性特定時に具体例を提示 求められる専門性をモデルが把握 多段階生成手法の優位性の要因 属性の明示的な特定と推定 正確性が向上 多段階生成手法の優位性の要因
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 論理的一貫性においても多段階生成手法の優位性が見られた 衣服Bと比べてすっきりとした印象を与えます。 ゆったりとしたシルエットが、カジュアルながら女性らしい 雰囲気を演出します。 21 論理的一貫性 直接生成手法による生成文章(前後省略) 手法 割合 (%) 多段階 0.0 直接 20.0 15組の衣服ペアのうち 矛盾した記述があると指摘された割合 (%) 客観属性と主観属性の関連付け 矛盾の少ない文章を生成 多段階生成手法の優位性の要因 指摘された記述例
  • 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 22 さらなる有用性向上の可能性 多段階生成手法による比較文章への指摘 「属性の表現が曖昧」 例:衣服Aに「休日のお出かけ」衣服Bに「お出かけ」と記載 「同一のシーンを指すのか,異なるシーンを指すのか不明瞭」 属性特定時にモデルに例示する属性の具体性を上げる 曖昧さが低減し,情報の有用性が高まる可能性 被験者 例:「ディナー」→「レストランでのディナー」 「結婚式」→「親しい友人の結婚式」
  • 23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 23 まとめ 目的 商品比較を行う消費者に向けた 任意の商品に関する主観的要素を含む情報提供手段の開発 アプローチ 2枚の衣服画像に基づく比較文章の生成 視覚言語モデルによる段階的な処理 実験 多段階生成手法による比較文章は多くの消費者に役立つ情報を 提供できることを確認 属性の具体化により,有用性がさらに向上する可能性 客観属性特定 主観属性推定 共通点抽出 差異抽出 文章生成
  • 24. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 24 研究業績 国内学会 口頭発表 査読なし(3件) 阿部 晃平, 横山 想一郎, 山下 倫央, 川村 秀憲 : 属性推定を用いた衣服画像ペアの2者間関係を表現 するキャプションの生成, 第22回情報科学技術フォーラム (FIT 2023), 大阪, 2023. 阿部 晃平, 横山 想一郎, 山下 倫央, 川村 秀憲 : 衣服画像ペアの差異を強調した属性予測に基づく キャプションの生成, 2024年度 人工知能学会全国大会 (第38回), 浜松, 2024. 阿部 晃平, 横山 想一郎, 山下 倫央, 川村 秀憲 : 視覚言語モデルを用いた段階的属性推定に基づく 衣服画像ペア間の比較文章の生成, 第219回ソフトウェア工学研究発表会, 東京, 2025.(2025年3 月発表予定) 国際学会 口頭発表 査読あり(2件) Kohei Abe, Soichiro Yokoyama, Tomohisa Yamashita, Hidenori Kawamura : Generation of Captions Highlighting the Differences between a Clothing Image Pair with Attribute Prediction, The Thirteenth International Conference on Intelligent Systems and Applications (INTELLI 2024), Athens, 2024. Kohei Abe, Soichiro Yokoyama, Tomohisa Yamashita, Hidenori Kawamura : Caption Generation for Garment Image Pair Comparison using Vision-Language Model with Attribute Relationships, 2025 the 9th International Conference on Innovation in Artificial Intelligence (ICIAI 2025), Singapore, 2025.(2025年3月発表予定) 学術雑誌 非筆頭 査読あり(1件) Soichiro Yokoyama, Kohei Abe, Tomohisa Yamashita, Hidenori Kawamura : Caption Generation for Clothing Image Pair Comparison Using Attribute Prediction and Prompt-based Visual Language Model, International Journal On Advances in Systems and Measurements, Vol.17, No. 3&4, 2024. 受賞(1件) Best Paper Award (Thirteenth International Conference on Intelligent Systems and Applications)