Recursively Summarizing Books with Human Feedbackharmonylab
公開URL:https://arxiv.org/abs/2109.10862
出典:Jeff Wu, Long Ouyang, Daniel M. Ziegler, Nisan Stiennon, Ryan Lowe, Jan Leike, Paul Christiano : Recursively Summarizing Books with Human Feedback, arXiv:2109.10862 (2021).
概要:MLモデルの学習のために行動の良し悪しを表すtraining signalを人間がループの中で提供する必要があるタスクが多く存在する.人間による評価に時間や専門的な知識を要するタスクの学習のためには,効果的なtraining signalを生成するためのスケーラブルな手法が必要となる.本論文では書籍全体の要約タスク(abstractive)を対象として,再帰的なタスクの分解と人間のフィードバックからの学習を組み合わせたアプローチを紹介する.モデルによる要約の中には人間が書いた要約の品質に匹敵する要約もあるが,平均するとモデルの要約は人間の要約に著しく劣ることが示された.
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...harmonylab
公開URL:https://openaccess.thecvf.com/content/CVPR2022/papers/Chen_Self-Supervised_Learning_of_Adversarial_Example_Towards_Good_Generalizations_for_Deepfake_CVPR_2022_paper.pdf
出典:Chen, Liang, et al. "Self-supervised Learning of Adversarial Example: Towards Good Generalizations for Deepfake Detection." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.
概要:DeepFakeの検出器をより一般化するための学習手法を提案しており、モデルの学習にフェイクの構成を推定するアプローチを組み込むことで、汎化性能の向上を狙っている。学習とは異なるデータセットでテストを行い、従来手法より精度向上したことから、提案手法が汎化性能向上に貢献していることが示されている。
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matchingharmonylab
公開URL:https://arxiv.org/pdf/2404.19174
出典:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. ascimento: XFeat: Accelerated Features for Lightweight Image Matching, Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023)
概要:リソース効率に優れた特徴点マッチングのための軽量なアーキテクチャ「XFeat(Accelerated Features)」を提案します。手法は、局所的な特徴点の検出、抽出、マッチングのための畳み込みニューラルネットワークの基本的な設計を再検討します。特に、リソースが限られたデバイス向けに迅速かつ堅牢なアルゴリズムが必要とされるため、解像度を可能な限り高く保ちながら、ネットワークのチャネル数を制限します。さらに、スパース下でのマッチングを選択できる設計となっており、ナビゲーションやARなどのアプリケーションに適しています。XFeatは、高速かつ同等以上の精度を実現し、一般的なラップトップのCPU上でリアルタイムで動作します。
ArcFace: Additive Angular Margin Loss for Deep Face Recognitionharmonylab
出典: Jiankang Deng, Jia Guo, Niannan Xue, Stefanos Zafeiriou : ArcFace: Additive Angular Margin Loss for Deep Face Recognition, Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (2019)
公開URL:https://arxiv.org/abs/1801.07698
概要 : 顔認識のための畳み込みニューラルネットワーク(DCNN)の課題は識別力を高める適切な損失関数を設計することです。本論文では、顔認識のための識別性の高い特徴量を得るために、Additive Angular Margin Loss (ArcFace)を提案します。一般的な顔認識ベンチマークから1兆ペアの大規模データセットなどを用いて、最先端顔認識技術との比較実験を行いました。結果は、従来手法を凌駕する精度を持つことが明らかになりました。
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
公開URL:https://arxiv.org/abs/2210.03629
出典:Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao : ReAct: Synergizing Reasoning and Acting in Language Models, arXiv: 2210.03629 (2022)
概要:本論文では大規模言語モデルにおいて推論(Reasoning)と行動(Acting)を組合わせるprompt手法であるReActを提案した。知識集約型の推論タスク(QAタスク・事実検証タスク)と意思決定タスク(テキストゲーム、ウェブナビゲーション)でReActの性能を評価した。推論タスクにおいてReActはWikipedia APIとの対話によりChain of ThoughtのHallucinationを軽減し、意思決定タスクにおいては模倣学習や強化学習による手法を上回る性能を示した。
DLゼミ: MobileOne: An Improved One millisecond Mobile Backboneharmonylab
公開URL:https://openaccess.thecvf.com/content/CVPR2023/html/Vasu_MobileOne_An_Improved_One_Millisecond_Mobile_Backbone_CVPR_2023_paper.html
出典:Vasu, Pavan Kumar Anasosalu, et al.: MobileOne: An Improved One Millisecond Mobile Backbone, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (2023)
概要:モバイル端末向けのニューラルネットワークは多くの場合、FLOPsやパラメータ数で最適化されています。しかし、これらの最適化は実際のモバイルデバイスで実行した場合のネットワークの応答時間に相関しない場合があります。我々は昨今のニューラルネットワークの最適化のボトルネックを特定・分析し、その結果をもとにした新たな効率的なバックボーンMobileOneを設計しました。結果はMobileFormerと同等の性能を得ながら、38倍高速であり、最先端の効率性を達成しました。
公開URL:https://openaccess.thecvf.com/content/CVPR2024/papers/Li_Generative
_Image_Dynamics_CVPR_2024_paper.pdf
出典:Zhengqi Li, Richard Tucker, Noah Snavely, Aleksander Holynski: Generative Image Dynamics, Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2024)
概要:自然な物体の動きを学習し、静止画から動画を生成する新しいアプローチを提案しています。実際の映像から抽出した動きのパターンをフーリエ領域でモデル化し、拡散モデルを用いて予測します。単一の画像から、周波数調整された拡散サンプリングプロセスを使用してスペクトル体積を予測し、これを動画全体をカバーする動きのテクスチャに変換します。この手法により、静止画からシームレスにループする動画を作成したり、実際の画像内のオブジェクトとインタラクティブに動きを生成したりすることが可能になります。
Towards Total Recall in Industrial Anomaly Detectionharmonylab
公開URL:https://openaccess.thecvf.com/content/CVPR2022/papers/Roth_Towards_Total_Recall_in_Industrial_Anomaly_Detection_CVPR_2022_paper.pdf
出典:Karsten Roth, Latha Pemula, Joaquin Zepeda, Bernhard Schölkopf, Thomas Brox, Peter Gehler: Towards Total Recall in Industrial Anomaly Detection, Conference on Computer Vision and Pattern Recognition (CVPR), pp. 14318-14328 (2022)
概要:本論文では位置情報を考慮した特徴量の集合和であるメモリバンクとCoresetによる画像パッチ特徴量の削減を行うPatchCoreアルゴリズムを提案する.結果として、異常検出のベンチマークであるMVTecにおいてAUROC99%以上の精度を出力し,2022年時点でのSoTAを記録した.また,PatchCoreによる特徴量削減により,学習のサンプル数を20%に減らした場合でも以前のSoTAに匹敵する精度となった.
Emotionally Intelligent Fashion Design Using CNN and GANharmonylab
全体的な製品の性能が向上したことにより、消費者は機能よりもイメージのような感情に訴えられる部分に注目するようになった。そこで本研究では、靴に着目することで商品イメージを識別するProduct Image Recognition model とイメージ通りの商品を生成するIntelligent Design Generation Model を提案する。Product Image Recognition model では、アンケートによって得られた各商品の画像のイメージ情報をCNNベースのモデルによって学習を行い、商品イメージの識別を実現した。Intelligent Design Generation Model では、GANベースのモデルより、イメージに沿った商品の生成を実現した。見た目による定性的な評価や被検者による実験の結果などから、提案手法の実現可能性と有効性が示せた。
MLP-Mixer: An all-MLP Architecture for Visionharmonylab
出典:Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Andreas Steiner, Daniel Keysers, Jakob Uszkoreit, Mario Lucic, Alexey Dosovitskiy : Mlp-mixer: An all-mlp architecture for vision, Advances in Neural Information Processing Systems 34 (2021)
公開URL:https://arxiv.org/abs/2105.01601
概要:最近の画像処理分野ではCNNやVision Transformerのようなネットワークが人気です。この論文では、多層パーセプトロン(MLP)のみで作成したアーキテクチャ"MLP-Mixer"を提案します。MLP-Mixerは2種類のレイヤーを保持しており、チャネルとトークン(位置)をそれぞれ別のMLPで学習しています。このモデルは画像分類ベンチマークにおいて、事前学習と推論コストが最新モデルに匹敵するスコアを達成しました
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...harmonylab
This study focuses on addressing the challenges associated with decision-making in winter road snow removal operations, aiming to alleviate the burden on snow removal personnel. Specifically, we propose an approach to develop a system that collects and visualizes information on road snow conditions and weather data to support decision-making by personnel. Additionally, by sharing the collected information, we aim to facilitate the sharing of premonitions about changes in decision-making among snow removal personnel, reducing the need for physical inspections.We have validated the effectiveness of the system and confirmed its efficacy.
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Modelsharmonylab
公開URL:https://arxiv.org/pdf/2307.09288.pdf
出典:Touvron Hugo, et al.: Llama 2: Open foundation and fine-tuned chat models, arXiv preprint arXiv:2307.09288 (2023)
概要:70億から700億のパラメータを持つ大規模言語モデル(LLM)の事前学習であるLlama 2を開発し、リリースしました。Llama 2-Chatと呼ばれるファインチューニングされたLLMは、対話のユースケースに最適化されています。提案モデルは、検証したほとんどのベンチマークにおいて、オープンソースのチャットモデルを凌駕しており、有用性と安全性に関する人間による評価に基づいて、クローズドソースのモデルの適切な代替となる可能性があります。コミュニティが我々の研究を基に、LLMの責任ある開発に貢献できるようにすることも目的にあります。