サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
2024年ランキング
takmin.hatenablog.com
今回、主に点群に対してSemantic Segmentationを行うためにTansformerを適用した研究についてサーベイしてみたので、資料を公開します。 元々は、前回開催したコンピュータビジョン勉強会@関東「深層学習+3D論文読み会」で発表するために準備していたのですが、発表者が十分に集まったことと、ハイブリッド開催のため運営が大変になりそうだったので、発表は断念しました。 最初は画像と点群でのTransformerの適用方法の違いが気になって調べだしたので、PointTransformerとPointMixerあたりまでを発表するつもりだったのですが、発表を取りやめて調べる時間もできたので、色々と追加で調べているうちに分量が増えてしまいました。 調べてみて、果たしてTransformerは畳み込みと比べて点群処理に最適か?というのはよくわかりませんでした。ただ、PointBERTの
※(2021/04/19)shade-treeさんとlosnuevetorosさんの資料へのリンクが古かったため修正しました。 関東、名古屋、関西のコンピュータビジョン勉強会合同で開催している全日本コンピュータビジョン勉強会の6回目です。 今回は、Visionでも応用が進んできたTransformer縛りの論文読み会を行いました。 注目なテーマなだけに、たくさんの発表者/聴講者の方にご参加いただきました。ありがとうございます。 以下、リンク等をまとめます。 今回、発表資料の中には質疑応答用のSlackのみで公開されているものもありますのでご了承ください。 登録サイト kantocv.connpass.com Togetter togetter.com Youtube ※勉強会開始は動画開始から30分後 www.youtube.com 発表資料 発表者 論文タイトル 発表資料 Seitaro
今回、CV勉強会に何度か参加&発表していただいたJin Yamanakaさんにお誘いいただき、JTPA (Japan Technology Professional Association)というところで、「コンピュータビジョン今昔物語 -深層学習がCVの世界をどう変えたか-」という大上段なタイトルで講演させていただきました。 www.meetup.com このJTPAのTech Talkでは、機械学習/深層学習の勉強会を開催してきたそうなのですが、私自身「これ」という深層学習の専門があるわけではないので、コンピュータビジョン全体の基礎的な技術の変遷を、深層学習と絡めて広く浅く網羅した話をさせていただきました。 ちなみにここで紹介した深層学習の技術は、「既存の技術を置き換えるために、深層学習は何をクリアしなくてはならないか?」という視点で、紹介するのが適当と思ったものを選んだつもりです。
先々週の前編に引き続き、関東、名古屋、関西のCV勉強会が合同で「全日本コンピュータビジョン勉強会 - CVPR2020読み会(後編)-」をオンラインにて行いました。 今回、私は発表はありませんでしたが、例のごとく資料やリンク等を(自分のために)まとめておきます。 kantocv.connpass.com 2020/07/18 第三回全日本コンピュータビジョン勉強会「CVPR2020読み会」後編 ツイートまとめ - Togetter 前回同様Youtube Liveでも配信しました。 www.youtube.com 発表資料のリンク(発表順。敬称略。) 発表者 論文タイトル 発表資料 yumash TPNet: Trajectory Proposal Network for Motion Prediction https://www.slideshare.net/yumashino/tpne
以前、Keras+Tensorflowで学習したモデルをOpenCVで推論に使用する方法について解説したことがありました。 run Keras model on opencv from Takuya Minagawa www.slideshare.net OpenCVにはDNNモジュールという畳み込みニューラルネットワークを使用するための機能があります。ただこれは主に推論用で、学習のためには別のディープラーニングフレームワークで作成したモデルを別途読み込む必要があります。 OpenCVはTensorflowやCaffe等いくつかのフレームワークをサポートしているのですが、前回は初学者にも使いやすいだろうという理由でKears+Tensorflowのモデルを選択しました。なお、OpenCVはTorchはサポートしてますがPyTorchはサポートしてませんでした。 しかしながら、OpenCVは
はじめに 本記事は3D Sensor Adevent Calenderの第14日目です。 https://qiita.com/advent-calendar/2019/3d-sensor 最初にお詫びを 申し込んでみたけど、よくよく考えたら3D関係なかった。。。/3D Sensor Advent Calendar 2019 #Qiita https://t.co/e7GuoWIEAC— Minagawa Takuya (高度でないAI人材) (@takmin) 2019年11月22日 Realsense D435iをベースに作業を行っていたため、勘違いしてました。。。 というわけで、3Dとはほとんど関係ない、IMUとカメラのキャリブレーションについてのお話です。 ご存知の通り、RealsenseやKinectなどの3Dセンサーだけでなく、スマートフォンなどにはInertial Measur
先日勉強会でVisual SLAMについて発表しましたが、そこではカメラを用いたVisual SLAMについてのみ紹介しただけでした。 takmin.hatenablog.com 今回はカメラを用いたものだけでなく、RGB-DセンサーやIMUを用いたVisual SLAMの研究についてもまとめました。 ただ、Visual SLAMの研究はとても膨大なので、紹介する研究の数はかなり絞り込んでいます。そのため、「サーベイ」ではなく「概観」という表現にしています。 20190307 visualslam summary from Takuya Minagawa www.slideshare.net というわけで、今回の調査はなかなかしんどかったです。 slam系論文、デップラで認識しました系とくらべて全然読み飛ばせない。大意を掴むだけでも結構時間がかかってしまう。 — Minagawa Taku
この記事はフリーランスAdvent Calender 2018の7日目の記事です。 フリーランス Advent Calendar 2018 - Adventar はじめての方に、自己紹介をしますと、2009年にフリーランスを始めて今年法人成りしたtakminと申します。 お仕事はコンピュータビジョンという人工知能の分野で研究や開発の委託を請けたり、コンサルティングなどを行っています。 フリーランスになった経緯と法人化の経緯については以下のエントリに書きました。 takmin.hatenablog.com takmin.hatenablog.com 僕のフリーランスとしてのスタイルは、客先常駐はせず、受注前に顧客と作業内容やアウトプット等を合意した上で、作業はこちらの好きな時間、好きな場所で作業させてもらってます。 そのため時間に融通がききやすく、平日に遊びに行ったり、子供が幼稚園入るまでは
車載LiDARで取得した点群と、同じく車載カメラで取得したRGB画像両方を使用して物体検出を行う手法について調査しましたので、資料を公開します。 間違いや漏れの指摘などありましたらぜひご連絡ください。 最近はなんでもかんでもDeep Learningなので、サーベイが昔より楽になりました(笑) object detection with lidar-camera fusion: survey (updated) www.slideshare.net ---- 2018/12/06追記 RoarNetなど4本ほど研究を追加ました
第46回コンピュータビジョン勉強会@関東は、「CVPR2018読み会(前編)」というテーマで、株式会社DeNA様の会場をお借りして行いました。 CVPRはコンピュータビジョン分野のトップカンファレンスで、今回非常に多くの方に発表者として立候補していただけたため、前編と後編の二回にわけて行うことになりました。 今回は前編です。 コンピュータビジョン勉強会@関東 http://sites.google.com/site/cvsaisentan/ 開催プログラム https://kantocv.connpass.com/event/88613/ Tweetまとめ https://togetter.com/li/1242697 以下で録画を確認できます。 https://www.youtube.com/watch?v=rAQh3uhHVvI https://www.youtube.com/watc
2009年の5月1日から9年間個人事業主として活動してきましたが、2018年5月11日に法人化したので、知り合いへの報告と、同じように法人化を検討している自営業の方の参考になるかもしれないので、経緯をまとめておきます。 もともと個人事業主になった経緯は、前職のベンチャーをやめた時まだ社会人博士課程在学中で、二足の草鞋状態で雇ってくれるところもないだろうということで、とりあえず独立しました。 もう一つ、それまでリストラ2回とブラック会社勤務を経験し、年齢的にも転職が厳しくなると言われている三十路中盤だったため、今後サラリーマンを続けていくことに不安を感じていました。そこで、とりあえず自分の名前で仕事取ってこれるようになれば、リストラもブラック会社怖くないだろうというのも理由です。 独立直後は赤字案件に捕まって生活が追い込まれたりもしましたが、なんとか博士号も取得し、お客さんにも恵まれてこれま
アノテーションツールは画像を使った機械学習のタスクで、画像に教師ラベルを付与するためのGUIツールです。 昔、物体検出用のアノテーションツールとしてこんなの作りましたが、今はもっと良いものが色々とあるみたいなので、調べてみて良さそうだったものをいくつかピックアップしました。 ちなみに調べただけで、imglab以外はまだ使ってません。 アノテーションツールのリストはここが参考になります。 https://en.wikipedia.org/wiki/List_of_manual_image_annotation_tools オンラインツール LabelBox LabelBoxはオンラインで使用可能なアノテーションツールで、年5000ラベルまで無料で使えます。画像データをLobelBox上のサーバーへアップするか、もしくはAWS上の自社データに対して使用することが可能です。物体検出用のBound
第44回コンピュータビジョン勉強会@関東は、「強化学習論文読み会」というテーマで、株式会社Preferred Networks様の会場をお借りして行いました。 また、今回は午前中にPFNの前田新一先生による特別講演も行われ、初参加者も多く大盛況の回となりました。 例によって発表資料をまとめます。 コンピュータビジョン勉強会@関東 http://sites.google.com/site/cvsaisentan/ 開催プログラム https://kantocv.connpass.com/event/76984/ Tweetまとめ https://togetter.com/li/1196249 以下、発表順。 発表者: 前田新一先生 タイトル: 強化学習の光と闇 発表者:@takmin(私) 発表論文: Curiosity-driven Exploration by Self-supervis
三次元再構成なんかの論文では、よくカメラの位置を四角錘で可視化した図が乗ってたりしますが、その図もOpenCVのVizモジュールを使えば簡単に実現できます。 ここにチュートリアルもありますが、一応解説を日本語で書いておきます。 尚、Vizモジュールを使うためにはVTKをあらかじめインストールした上で、CMake上でVTKのパスを指定してOpenCVをビルドする必要があります。 #include using namespace std; using namespace cv; void main(){ // 3Dを表示するWindow生成 string winname = "Viz Camera Pose"; viz::Viz3d myWindow(winname); // 画面に座標軸を表示 myWindow.showWidget("Coordinate Widget", viz::WCo
久しぶりの非技術系記事 我が家では三歳になる息子によく英語の子供向けYoutubeチャンネルを見せています(ChromecastでTVに映して)。 元々は子供がまだ数ヶ月の頃、泣きやます手段としてアンパンマンのオープニングとか、ふかふかカフカとか、ムーニーちゃんの歌とかを見せていたのですが、他に何か良い子供向けの動画はないかと探していたときに、たまたま見つけたのが始まりです。 これが見事にハマり、以来ちょっと家事をしたい等、子供に大人しくしてほしい時に色々と動画を見せるようにしていたら、いつのまにやらアルファベットやら英単語やら表現やらをバンバン勝手に覚えてくれて、発音は親なんか及ばないくらいに上手になりました。 というわけで、我が家で大活躍しているおススメYoutubeチャンネルをまとめました。 尚、Youtube上の子供向けの動画は日本語があまり見つからない半面、英語はものすごく充実し
前回、カメラで取得した画像とLiDARで取得した点群との位置合わせについて書きましたが、今回はStructure-from-Motionで取得した点群とLiDARで取得した点群との位置合わせを行う論文をいくつか漁ってみました。 ご参考までに。 LiDAR点群とSfM点群との位置合わせ from Takuya Minagawa
今回のコンピュータビジョン勉強会は「AR/VRを支える技術」というテーマで、6/10に株式会社Preferred Networksの会場をお借りして行いました。 コンピュータビジョン勉強会@関東 http://sites.google.com/site/cvsaisentan/ 開催プログラム概要 https://kantocv.connpass.com/event/56917/ Togetter https://togetter.com/li/1118878 いつもは発表者を自由に募るのですが、今回はそれに加えて、この分野の若手気鋭の研究者3名を招いて、招待講演をしていただきました。 東京大学 樋口啓太先生 http://keihigu.github.io/ 慶應大学 伊藤勇太先生 http://campar.in.tum.de/Main/YutaItoh 慶應大学 杉浦裕太先生 htt
最近、Semantic Segmentationについて調べる機会がありました。 せっかくなので、公開します。 例に挙げた研究は、まだarXivのみに発表されたようなのは(Pix2Pixを除いて)あまりカバーされてません。(この後もう少し調べる予定) Semantic segmentation from Takuya Minagawa また、資料をアップロードしようしたまさに今日、PFNさんがDeep Learningを使った最新のセグメンテーション方法についての素晴らしいセミナーがあったので、この資料と合わせて見ると参考になると思います。この資料でカバーしていないUnet、SegNet、RefineNetなどについても解説されています。
はじめに この記事はOpenCV Advent Calender 2016の第22日目の記事です。 OpenCVのextraモジュールの中にTracking APIというものがあり、それを使用すると動画中の物体を追跡するための様々なアルゴリズムを使用することが出来ます。 Tracking APIに使い方については、以下の記事を参考にしてください。 OpenCV Tracking API について こんなに簡単!? トラッキング ここではその中のKernelized Correlation Filter (KCF)というアルゴリズムについて、コードリーディングしてみたので、それについて解説します。 今回、コードリーディングをしようと思った理由は2つです。 Trackingの使い方の記事は見かけるけど、KCFのアルゴリズムについて解説した記事は見当たらない。論文自体が結構面白いのでぜひ紹介した
OpenCVの物体検出器を学習する際の注意点。 物体検出器の原理や学習方法については、ここを読んで下さい。 で、たとえば opencv_createsamples -info positive.txt -num 1000 -vec hoge.vec -w 30 -h 30 みたいな感じで1000枚の正例画像からvecファイルを作ったとします。 次に opencv_traincascade -data hoge -vec hoge.vec -bg negative.txt -numPos 1000 -numNeg 3000 -numStages 5 -w 30 -h 30 -minHitRate 0.995 -maxFalseAlarmRate 0.4 という感じで学習をさせると、以下のようなエラーが出ます。 OpenCV Error: Bad argument (Can not get n
以前、こちらのブログでもお知らせしたが、5月25日に「はじめてのコンピュータビジョン 〜画像認識の仕組みとビジネス事例〜」というセミナーを開催いたしました。 遅くなりましたが、こちらで使用した資料から一部割愛したバージョンを公開いたします。 こちらの資料は「非技術者でもわかる(?)コンピュータビジョン紹介資料」を大幅に改定し、同資料と同様「コンピュータビジョンで何ができるのか?」を主眼にしつつ、代表的な仕組みの話や、流行りのビジネス事例(拡張現実感や自動運転等)に関する資料を大幅に追加しました。もちろんディープラーニングについても大幅に加筆してます。 というわけで、お役に立てれば幸いです。 また間違っているところなどあればご指摘ください。 20160525はじめてのコンピュータビジョン from Takuya Minagawa
OpenCV内で実装されているGrabCutとMean Shift Segmentationについて、コードと論文を読みつつアルゴリズムを文書に日本語でまとめたので公開します。 GrabCutとMean Shiftはそれぞれcv::grabCut()とcv::pyrMeanShiftFiltering()として実装されています。 GrabCut http://visitlab.jp/pdf/GrabCut.pdf Mean Shift Segmentation http://visitlab.jp/pdf/MeanShiftSegmentation.pdf どなたかのお役に立てればうれしいです。
PCLVisualizerは点群を表示するためのGUIクラスで、マウスドラッグによって任意の視点から点群を見ることができます。 さて、ここで今の視点が世界座標系上のどの位置からなのか、またGUI上をクリックしたとき、この「画像平面上の」点は世界座標系上のどこなのかを取得する方法を調べました。(クリックした点のエピポーラ線を求めたかったので) (追記:単に点群の中の点を選択したいだけなら、PCLVisualizerのregisterPointPickingCallback()メンバ関数を利用して、PointPickingEventを引数に持つ関数を自分で書いてあげれば、Shift Key + マウスクリックで選択した点のIDや座標を取得できます。 この記事でやろうとしているのは、クリックしたGUI画面の2次元座標を世界座標系の三次元座標へ変換することです。) PCLVisualizerの説明
この記事は、OpenCVアドベントカレンダー18日目の記事です。 http://qiita.com/advent-calendar/2015/opencv OpenCVで物体検出器を作成するにあたり、手っ取り早いのはopecv_traincascadeという実行ファイルを使用して検出器をトレーニングすることです。 OpenCV2.xからHaar-like特徴以外にもLBPやHOGといった特徴量も選択することができました。 http://d.hatena.ne.jp/takmin/20141008/1412776956 HOGは人物検出などで有効な特徴量のため[1]重宝していたのですが、OpenCV3.0になりいざ検出しようとすると、HOGはだめだよーというAssertionエラーが。。。 トレーニングはできるのになぜ???とググってみたら、以下のような情報が http://code.ope
以前、お仕事でクレジットカードをカメラで撮影し、そこからカード番号を読み取るプログラムをOpenCVを使って開発しました。 ただ、そのお仕事はお客様の都合で採用には至らず、作りっぱなしのまま放置してました。 が、せっかく作ったのに誰にも使われないままというのももったいないので、ソースごと公開してしまいます。 (ちなみに、この案件の時期と博士取得の公聴会時期が重なって、非常にしんどい思いをしたのも良い思い出) https://github.com/takmin/CreditNumberRecognizer クレジットカードは普通の文字認識と違って、カード自体に色々な模様がついてしまっていて、しかも数字部分が浮かし彫りだったりするため、二値化してOCRにかけるようなわけにもいきません。 なので、開発にあたっては、背景テクスチャがある中で1文字1文字切り出す部分と切り出した文字を認識する部分を自
思いっきり車輪の再発明っぽいツールを2つほど作りました。 Data Augmentationツール Deep Convolutional Neural Networkとかで画像を学習させる際、学習画像をずらしたりぼかしたり、色々と変形を加えて学習画像を増やすことで、認識をロバストにするというテクニックが良く使われています。(Caffeなんかにも実装されている。) でまあ、そういうテクニックってDeep Learning以外のケースでも学習データ増やすのに有効だろうってことで、コマンドラインから使えるツールをC++で自作しました。 https://github.com/takmin/DataAugmentation 学習画像に対して、アスペクト比の変更、回転(ロール・ピッチ・ヨー)、ぼかし、ノイズ付加、ずらしなどの処理をランダムに加えます。 詳しくはreadmeJ.txtを読んで下さい。 一
昔、OpenCVの物体検出器の使い方について、技術評論社の「OpenCVで学ぶ画像認識」という連載中で解説しましたが、当時はまだOpenCVが1.0とか1.1だったため大分情報が古くなってます。 で、その後コンピュータビジョン勉強会でOpenCV2.0用にアップデートした発表を行いました。その時の資料は「3/5にOpenCV祭りを開催しました」というエントリに上がってます。 この資料も時間が経って少し古くなったので、今回機会があったので更に内容をアップデートしました。 いつの間にかtraincascadeの仕様が微妙に変わったりしたので、その分も追記してあります(このエントリの内容)。 また、検出器作る際のTipsも最後に追加してあります。 というわけで、Slideshareに上げておきますので参考にしてください。
昨日、第24回 CV勉強会@関東を「CVPR2014読み会」というテーマで開催しました。 CVPRというのは、コンピュータビジョンのトップカンファレンスの1つで、当勉強会でも定期的に読み会を行っています。 http://www.pamitc.org/cvpr14/ コンピュータビジョン勉強会@関東 http://sites.google.com/site/cvsaisentan 参加申込みサイト http://connpass.com/event/6856/ Togetter http://togetter.com/li/698100 CVPR2014の論文は以下から入手可能です。 http://www.cvpapers.com/cvpr2014.html 今回は幸いにして発表者が多かったため前後編に分けての開催となりました。昨日はその前編で、私も発表してきたので資料をアップしておきます。
次のページ
このページを最初にブックマークしてみませんか?
『takminの書きっぱなし備忘録 @はてなブログ』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く