takminの書きっぱなし備忘録 @はてなブログ

主にコンピュータビジョンなど技術について、たまに自分自身のことや思いついたことなど

2024/11/16第62回CV勉強会@関東「ECCV2024読み会」

第62回コンピュータビジョン勉強会@関東は「ECCV2024読み会」をセーフィー株式会社様の会場をお借りして開催いたしました。

以下、資料やリンク等をまとめておきます。

登録サイト

kantocv.connpass.com

Togetter

togetter.com

YouTube

www.youtube.com

コンピュータビジョン勉強会@関東

sites.google.com

資料まとめ

発表者 発表内容 資料
tomoaki_teshima Factorized Diffusion: Perceptual Illusions by Noise Decomposition https://speakerdeck.com/tomoaki0705/factorized-diffusion-perceptual-illusions-by-noise-decomposition
lychee1223_Lab Long-CLIP: Unlocking the Long-Text Capability of CLIP https://speakerdeck.com/lychee1223/kantocv-62th-eccv-2024
shunk031 Layout-Corrector: Alleviating Layout Sticking Phenomenon in Discrete Diffusion Model https://speakerdeck.com/lycorptech_jp/miru2024-layout-corrector
chou VideoMamba: State Space Model for Efficient Video Understanding https://speakerdeck.com/chou500/videomamba-state-space-model-for-efficient-video-understanding-614d37bc-0664-4525-9ad2-397be4c9fdf0
frkake Geospecific View Generation -- Geometry-Context Aware High-Resolution Ground View Inference from Satellite Views https://speakerdeck.com/elith/eccv2024du-mihui-wei-xing-hua-xiang-karanodi-shang-hua-xiang-sheng-cheng
colum2131 Improving 2D Feature Representations by 3D-Aware Fine-Tuning https://speakerdeck.com/koheiiwamasa/fit3d-improving-2d-feature-representations-by-3d-aware-fine-tuning-di-62hui-konpiyutabiziyonmian-qiang-hui-eccvlun-wen-du-mihui
abemii_ MapTracker: Tracking with Strided Memory Fusion for Consistent Vector HD Mapping https://speakerdeck.com/abemii/cvmian-qiang-hui-at-guan-dong-eccv2024-du-mihui-onrainmatupingu-x-toratukingu-maptracker-tracking-with-strided-memory-fusion-for-consistent-vector-hd-mapping-chen-plus-eccv24
s_aiueo32 VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding https://speakerdeck.com/sansan_randd/visfocus-prompt-guided-vision-encoders-for-ocr-free-dense-document-understanding
hsmtta Minimalist Vision with Freeform Pixels https://speakerdeck.com/hsmtta/di-62hui-konpiyutabiziyonmian-qiang-hui-at-guan-dong-eccv2024du-mihui-lun-wen-shao-jie
Antonio Tejero-de-Pablos Robust Nearest Neighbors for Source-Free Domain Adaptation under Class Distribution Shift https://www.slideshare.net/slideshow/eccv2024-paper-reading-robust-nearest-neighbors-for-source-free-domain-adaptation-under-class-distribution-shift-japan-computer-vision-study-group-2024-11-16/273390692
caprest UniCal: Unified Neural Sensor Calibration https://docs.google.com/presentation/d/19fFjuydR1zVj8KLJT-8WpLMuiaTKzjxt057Mm2jKOvM/

いろいろ告知:「コンピュータビジョン - デバイス・アルゴリズムとその応用-」と「AR謎解き”妖怪ハンター候補生”」

色々と忙しくてブログ書けませんでしたが、取り急ぎ2つほど告知させてもらいます。

「コンピュータビジョン -デバイス・アルゴリズムとその応用 -」

www.coronasha.co.jp

こちらの本の第7章「CVをとりまく環境」を執筆させていただきました。

日浦先生からお話しをいただいた際、早々たる執筆者(私以外全員大学教授)の中に私が参加するのはかなり恐縮しましたが、せっかくの機会なのでお引き受けすることにしました。

逆に、これだけの各専門の先生方がいる中で、自分にしか書けないテーマはなんだろうと考えたときに、オープンソースソフトウェアまわりやビジネスについてであれば、本に価値を加えられるのではないかということで、提案しました。

特に私は、深層学習登場以前から、ながーくコンピュータビジョンでビジネスをしてきたので「コンピュータビジョンのビジネス」というのをある程度網羅的にまとめられる人間というのは、それほど多くはないのではないかと自負しております。

執筆してから出版まで時間がかかってしまったので、特に生成AIまわりなどは情報が古くなってますが、コンピュータビジョンのOSSやビジネスの俯瞰にはまだまだ役に立つ内容となっております。

AR謎解き「妖怪ハンター候補生 in 綱島商店街」

昨年11月にテストプレイを実施したARゲーム「妖怪ハンター候補生」を綱島商店街様の「つなしまハロウィン2024」と「つなしまウィンターフェスタ2024」で採用していただけることになりました。

hunter.overlay-world.com

今回は、慶応大学謎解きサークルK-dush2さんの協力の元、謎解き要素を加えました。

謎を解くことで封印された妖怪たちを助けながら、悪い陰陽師をつかまえるのが目標です。

既に10/20の回は終わってしまったのですが、12/14(土)と12/15/(日)にもまたやりますので、ぜひ綱島商店街(東急東横線綱島駅)まで遊びに来てください。

2024/08/03第61回CV勉強会@関東「CVPR2024読み会」(後編)

前回の前編に引き続き第61回コンピュータビジョン勉強会@関東「CVPR2024読み会」(後編)をLINEヤフー様の会場をお借りして開催いたしました。

以下、資料やリンク等をまとめておきます。

登録サイト

kantocv.connpass.com

Togetter

togetter.com

YouTube

www.youtube.com

コンピュータビジョン勉強会@関東

sites.google.com

資料まとめ

発表者 発表内容 資料
tomoaki_teshima Video Interpolation With Diffusion Models https://speakerdeck.com/tomoaki0705/video-interpolation-with-diffusion-models
kento-sasaki Generalized Predictive Model for Autonomous Driving https://speakerdeck.com/kentosasaki/generative-predictive-model-for-autonomous-driving-di-61hui-konpiyutabiziyonmian-qiang-hui-at-guan-dong-hou-bian
abemii PARA-Drive: Parallelized Architecture for Real-time Autonomous Driving https://speakerdeck.com/abemii/cvmian-qiang-hui-at-guan-dong-cvpr2024-du-mihui-ji-hua-zhi-xiang-end-to-end-zi-lu-zou-xing-moderunibi-yao-nayao-su-toha
caprest Localization Is All You Evaluate: Data Leakage in Online Mapping Datasets and How to Fix It https://speakerdeck.com/caprest/cvpr2024du-mihui-localization-is-all-you-evaluate-data-leakage-in-online-mapping-datasets-and-how-to-fix-it
hirok.kawauchi Mip-Splatting: Alias-free 3D Gaussian Splatting https://speakerdeck.com/kwchrk/di-61hui-konpiyutabiziyonmian-qiang-hui-mip-splatting-alias-free-3d-gaussian-splatting
shunk031 Visual Layout Composer: Image-Vector Dual Diffusion Model for Design Layout Generation https://speakerdeck.com/shunk031/kantocv-61th-cvpr-2024
sgk-000 Matching 2D Images in 3D: Metric Relative Pose from Metric Correspondences https://speakerdeck.com/sgk/matching-2d-images-in-3d-metric-relative-pose-from-metric-correspondences
大政孝充 Generative Proxemics: A Prior for 3D Social Interaction from Images https://drive.google.com/file/d/1EIMXon-vCW2zWqhuBnk8-wSTpICvYwty/view?ts=66ada051
s_aiueo32 Image Processing GNN: Breaking Rigidity in Super-Resolution https://speakerdeck.com/sansan_randd/image-processing-gnn-breaking-rigidity-in-super-resolution
losnuevetoros Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods https://speakerdeck.com/yushiku/sincnn-vs-vit

次回は10月くらいに恒例のECCV2024読み会をやります。

2024/07/07第61回CV勉強会@関東「CVPR2024読み会」(前編)

本日第61回コンピュータビジョン勉強会@関東「CVPR2024読み会」(前編)をLINEヤフー様の会場をお借りして開催いたしました。

以下、資料やリンク等をまとめておきます。

登録サイト

kantocv.connpass.com

Togetter

togetter.com

YouTube

www.youtube.com

コンピュータビジョン勉強会@関東

sites.google.com

資料まとめ

発表者 発表内容 資料
takmin State Space Models for Event Cameras https://speakerdeck.com/takmin/state-space-models-for-event-cameras-di-61hui-cvmian-qiang-hui-at-guan-dong-fa-biao-zi-liao
tereka114 Harnessing Large Language Models for Training-free Video Anomaly Detection https://speakerdeck.com/tereka114/harnessing-large-language-models-for-training-free-video-anomaly-detection
onixwr MLP Can Be A Good Transformer Learner https://speakerdeck.com/safie/mlp-can-be-a-good-transformer-learner
alfredplpl ・Polos: Multimodal Metric Learning from Human Feedback for Image Captioning・Streaming Dense Video Captioning・Rich Human Feedback for Text-to-Image Generation・Improved Baselines with Visual Instruction Tuning https://www.docswell.com/s/alfredplpl/KLL7M9-2024-07-07-125154
sei_shinagawa Iterated Learning Improves Compositionality in Large Vision-Language Models https://www.docswell.com/s/sei_shinagawa/ZNREYL-iterated_learning
frkake Correlation-aware Coarse-to-fine MLPs for Deformable Medical Image Registration https://speakerdeck.com/frkake/corrmlp-correlation-aware-coarse-to-fine-mlps-for-deformable-medical-image-registration
ttyszk BioCLIP: A Vision Foundation Model for the Tree of Life https://speakerdeck.com/x_ttyszk/di-61hui-konpiyutabiziyonmian-qiang-hui-bioclip-a-vision-foundation-model-for-the-tree-of-life
Godel ・MemoNav: Working Memory Model for Visual Navigation​
・SchurVINS: Schur Complement-Based Lightweight Visual Inertial Navigation System​
https://speakerdeck.com/godel/navigation-and-slam-at-cvpr2024
ykamikawa LayoutLLM: Layout Instruction Tuning with Large Language Models for Document Understanding https://speakerdeck.com/ykamikawa/layoutllm-layout-instruction-turning-with-large-language-models-for-document-understanding

私の発表資料

"State Space Models for Event Cameras"を読みました

speakerdeck.com