The document summarizes a research paper that compares the performance of MLP-based models to Transformer-based models on various natural language processing and computer vision tasks. The key points are:
1. Gated MLP (gMLP) architectures can achieve performance comparable to Transformers on most tasks, demonstrating that attention mechanisms may not be strictly necessary.
2. However, attention still provides benefits for some NLP tasks, as models combining gMLP and attention outperformed pure gMLP models on certain benchmarks.
3. For computer vision, gMLP achieved results close to Vision Transformers and CNNs on image classification, indicating gMLP can match their data efficiency.
プレゼン・ポスターで自分の研究を「伝える」 (How to do technical oral/poster presentation)Toshihiko Yamasaki
MIRU2020若手プログラム招待講演のスライドを一般公開用にアレンジしたものです。日本語で書かれています。下記の点にご注意ください
・セリフが伴ってないので内容は限定的です
・著作権等に配慮しているので中身は結構無味乾燥です。
This is an arranged version of my invited talk at MIRU 2020 young researchers' forum. This is written in Japanese.
出典:Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko
Facebook AI
公開URL : https://arxiv.org/abs/2005.12872
概要:Detection Transformer(DETRという)という新しいフレームワークによって,non-maximum-supressionやアンカー生成のような人手で設計する必要なく、End-to-Endで画像からぶった検出を行う手法を提案しています。物体検出を直接集合予測問題として解くためのtransformerアーキテクチャとハンガリアン法を用いて二部マッチングを行い正解と予測の組み合わせを探索しています。Attentionを物体検出に応用しただけでなく、競合手法であるFaster R-CNNと同等の精度を達成しています。
The document summarizes a research paper that compares the performance of MLP-based models to Transformer-based models on various natural language processing and computer vision tasks. The key points are:
1. Gated MLP (gMLP) architectures can achieve performance comparable to Transformers on most tasks, demonstrating that attention mechanisms may not be strictly necessary.
2. However, attention still provides benefits for some NLP tasks, as models combining gMLP and attention outperformed pure gMLP models on certain benchmarks.
3. For computer vision, gMLP achieved results close to Vision Transformers and CNNs on image classification, indicating gMLP can match their data efficiency.
プレゼン・ポスターで自分の研究を「伝える」 (How to do technical oral/poster presentation)Toshihiko Yamasaki
MIRU2020若手プログラム招待講演のスライドを一般公開用にアレンジしたものです。日本語で書かれています。下記の点にご注意ください
・セリフが伴ってないので内容は限定的です
・著作権等に配慮しているので中身は結構無味乾燥です。
This is an arranged version of my invited talk at MIRU 2020 young researchers' forum. This is written in Japanese.
出典:Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko
Facebook AI
公開URL : https://arxiv.org/abs/2005.12872
概要:Detection Transformer(DETRという)という新しいフレームワークによって,non-maximum-supressionやアンカー生成のような人手で設計する必要なく、End-to-Endで画像からぶった検出を行う手法を提案しています。物体検出を直接集合予測問題として解くためのtransformerアーキテクチャとハンガリアン法を用いて二部マッチングを行い正解と予測の組み合わせを探索しています。Attentionを物体検出に応用しただけでなく、競合手法であるFaster R-CNNと同等の精度を達成しています。
Deep Learningについて、日本情報システム・ユーザー協会(JUAS)のJUAS ビジネスデータ研究会 AI分科会で発表しました。その際に使用した資料です。専門家向けではなく、一般向けの資料です。
なお本資料は、2015年12月の日本情報システム・ユーザー協会(JUAS)での発表資料の改訂版となります。
This document summarizes a paper titled "DeepI2P: Image-to-Point Cloud Registration via Deep Classification". The paper proposes a method for estimating the camera pose within a point cloud map using a deep learning model. The model first classifies whether points in the point cloud fall within the camera's frustum or image grid. It then performs pose optimization to estimate the camera pose by minimizing the projection error of inlier points onto the image. The method achieves more accurate camera pose estimation compared to existing techniques based on feature matching or depth estimation. It provides a new approach for camera localization using point cloud maps without requiring cross-modal feature learning.
2020/10/10に開催された第4回全日本コンピュータビジョン勉強会「人に関する認識・理解論文読み会」発表資料です。
以下の2本を読みました
Harmonious Attention Network for Person Re-identification. (CVPR2018)
Weekly Supervised Person Re-Identification (CVPR2019)
11. 文字認識の結果例(英語)
1 Introduction
There has been a steady increase in the performance of object category detection as measured bythe
annual PASCAL VOC challenges [3]. The training data provided for these challenges specifies if an
object is truncated » when the provided axis aligned bounding box does not cover the full extent of
the object. The principal cause of truncation is that the object partially lies outside Lhe image area.
Most participants simple disregard the truncated training instances and learn from the non-truncated
ones. This is a waste of training material, but more seriously many truncated instances are missed
in testing, signilicantly reducing the recall and hence decreasing overall recognition performance.