multi-modality

Here are 79 public repositories matching this topic...

haotian-liu / LLaVA

[NeurIPS'23 Oral] Visual Instruction Tuning (LLaVA) built towards GPT-4V level capabilities and beyond.

chatbot llama multimodal multi-modality gpt-4 foundation-models visual-language-learning chatgpt instruction-tuning vision-language-model llava llama2 llama-2

Updated Aug 12, 2024
Python

BradyFU / Awesome-Multimodal-Large-Language-Models

Star

✨✨Latest Advances on Multimodal Large Language Models

multi-modality instruction-following in-context-learning large-language-models chain-of-thought instruction-tuning visual-instruction-tuning large-vision-language-model multimodal-instruction-tuning large-vision-language-models multimodal-large-language-models multimodal-in-context-learning multimodal-chain-of-thought

Updated Nov 29, 2024

jina-ai / clip-as-service

Star

🏄 Scalable embedding, reasoning, ranking for images and sentences with CLIP

deep-learning pytorch openai bert sentence2vec onnx cross-modality multi-modality image2vec sentence-encoding bert-as-service cross-modal-retrieval neural-search clip-model clip-as-service

Updated Jan 23, 2024
Python

lucidrains / deep-daze

Star

Simple command line tool for text to image generation using OpenAI's CLIP and Siren (Implicit neural representation network). Technique was originally created by https://twitter.com/advadnoun

deep-learning transformers artificial-intelligence siren text-to-image multi-modality implicit-neural-representation

Updated Mar 13, 2022
Python

Luodian / Otter

Star

🦦 Otter, a multi-modal model based on OpenFlamingo (open-sourced version of DeepMind's Flamingo), trained on MIMIC-IT and showcasing improved instruction-following and in-context learning ability.

machine-learning deep-learning multi-modality artificial-inteligence embodied-ai gpt-4 foundation-models large-scale-models visual-language-learning chatgpt instruction-tuning

Updated Mar 5, 2024
Python

InternLM / InternLM-XComposer

Star

InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output

foundation gpt language-model multimodal multi-modality vision-transformer gpt-4 visual-language-learning llm chatgpt instruction-tuning large-language-model supervised-finetuning mllm vision-language-model large-vision-language-model

Updated Oct 10, 2024
Python

kyegomez / swarms

Sponsor

Star

The Enterprise-Grade Production-Ready Multi-Agent Orchestration Framework Join our Community: https://discord.com/servers/agora-999382051935506503

Updated Nov 30, 2024
Python

DLR-RM / 3DObjectTracking

Star

Algorithms and Publications on 3D Object Tracking

tracking real-time computer-vision paper object-tracking rgbd pose-estimation ijcv multi-modality articulated tpami multi-body accv2020 cvpr2022 iros2023

Updated May 16, 2024
C++

OpenGVLab / Multi-Modality-Arena

Star

Chatbot Arena meets multi-modality! Multi-Modality Arena allows you to benchmark vision-language models side-by-side while providing images as inputs. Supports MiniGPT-4, LLaMA-Adapter V2, LLaVA, BLIP-2, and many more!

chat chatbot vqa gradio multi-modality large-language-models llms chatgpt vision-language-model

Updated Apr 21, 2024
Python

OpenBMB / VisRAG

Star

Parsing-free RAG supported by VLMs

retrieval multi-modal document-retrieval rag multi-modality document-understanding vision-language-model retrieval-augmented-generation

Updated Nov 27, 2024
Python

kyegomez / Gemini

Sponsor

Star

The open source implementation of Gemini, the model that will "eclipse ChatGPT" by Google

machine-learning ai ml artificial-intelligence gemini multi-modality gpt4 multimodla

Updated Nov 25, 2024
Python

ziqihuangg / Collaborative-Diffusion

Star

[CVPR 2023] Collaborative Diffusion

image-editing image-generation face-generation multi-modality face-editing diffusion-models aigc stable-diffusion latent-diffusion-models gen-ai

Updated Nov 28, 2023
Python

xiaoachen98 / Open-LLaVA-NeXT

Star

An open-source implementation for training LLaVA-NeXT.

chatbot llama multimodal multi-modality gpt-4 visual-language-learning chatgpt vision-language-model llava large-multimodal-models llama3 gpt4o llava-next

Updated Oct 23, 2024
Python

researchmm / MM-Diffusion

Star

[CVPR'23] MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

video-generation multi-modality diffusion-models content-creation audio-generation

Updated Jun 5, 2024
Python

kyegomez / Sophia

Sponsor

Star

Effortless plugin and play Optimizer to cut model training costs by 50%. New optimizer that is 2x faster than Adam on LLMs.

deep-learning neural-network optimizer artificial-intelligence multi-modality chatgpt

Updated Jun 4, 2024
Python

ZwwWayne / mmMOT

Star

[ICCV2019] Robust Multi-Modality Multi-Object Tracking

mot multi-modality iccv2019

Updated Dec 7, 2019
Python

DerrickWang005 / CRIS.pytorch

Star

An official PyTorch implementation of the CRIS paper

multi-modality referring-image-segmentation contrastive-learning

Updated Jun 9, 2024
Python

RLHF-V / RLHF-V

Star

[CVPR'24] RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback

chatbot llama multimodal multi-modality gpt-4 visual-language-learning rlhf-v

Updated Sep 11, 2024
Python

dvlab-research / UVTR

Star

Unifying Voxel-based Representation with Transformer for 3D Object Detection (NeurIPS 2022)

pytorch 3d-detection multi-modality

Updated Oct 19, 2022
Python

jackyjsy / CVPR21Chal-SLR

Star

This repo contains the official code of our work SAM-SLR which won the CVPR 2021 Challenge on Large Scale Signer Independent Isolated Sign Language Recognition.

sign-language-recognition-system sign-language-recognition multi-modality cvpr2021 skeleton-features

Updated Nov 16, 2022
Python

Improve this page

Add a description, image, and links to the multi-modality topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the multi-modality topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

multi-modality

Here are 79 public repositories matching this topic...

haotian-liu / LLaVA

BradyFU / Awesome-Multimodal-Large-Language-Models

jina-ai / clip-as-service

lucidrains / deep-daze

Luodian / Otter

InternLM / InternLM-XComposer

kyegomez / swarms

DLR-RM / 3DObjectTracking

OpenGVLab / Multi-Modality-Arena

OpenBMB / VisRAG

kyegomez / Gemini

ziqihuangg / Collaborative-Diffusion

xiaoachen98 / Open-LLaVA-NeXT

researchmm / MM-Diffusion

kyegomez / Sophia

ZwwWayne / mmMOT

DerrickWang005 / CRIS.pytorch

RLHF-V / RLHF-V

dvlab-research / UVTR

jackyjsy / CVPR21Chal-SLR

Improve this page

Add this topic to your repo