multimodal-models

Here are 25 public repositories matching this topic...

AIDC-AI / Awesome-Unified-Multimodal-Models

Awesome Unified Multimodal Models

multimodal-models text-to-image-generation vision-language-model multimodal-large-language-models unified-multimodal-models

Updated Mar 24, 2026

uncbiag / Awesome-Foundation-Models

Star

A curated list of foundation models for vision and language tasks

transformer-models vision-transformer multimodal-models foundation-models large-language-models

Updated Apr 20, 2026

zli12321 / Vision-Language-Models-Overview

Star

A most Frontend Collection and survey of vision-language model papers, and models GitHub repository. Continuous updates.

reinforcement-learning clip claude world-models multimodal-models sota-model llava blip2 gpt-4v gemini-pro deepseek vision-language-models qwen-vl llama-vision-model multimodal-benchmarks vision-language-model-applications finevision-pretrain-dataset

Updated May 16, 2026
HTML

YingqingHe / Awesome-LLMs-meet-Multimodal-Generation

Star

🔥🔥🔥 A curated list of papers on LLMs-based multimodal generation (image, video, 3D and audio).

text-to-speech multimodality text-to-image text-to-audio text-to-video text-to-music multimodal-models aigc large-language-models llm text-to-3d multimodal-generation mllm text-to-sound large-vision-language-models multimodal-large-language-models lvlm

Updated Apr 4, 2025
HTML

uni-medical / Project-Imaging-X

Star

Project Imaging-X: A Survey of 1000+ Open-Access Medical Imaging Datasets for Foundation Model Development

survey open-science ultrasound radiology ophthalmology pathology medical-image-analysis endoscopy fundus dermoscopy multimodal-models foundation-models

Updated Apr 3, 2026
Python

OpenSenseNova / SenseNova-SI

Star

[CVPR 2026] Scaling Spatial Intelligence with Multimodal Foundation Models

multimodal-models mllm spatial-intelligence mllm-for-3d

Updated May 14, 2026
Python

EvolvingLMMs-Lab / EASI

Star

Holistic Evaluation of Multimodal LLMs on Spatial Intelligence

multimodal-models mllm spatial-intelligence mllm-evaluation

Updated May 11, 2026
Python

thaoshibe / awesome-personalized-lmms

Star

A curated list of Awesome Personalized Large Multimodal Models resources

awesome personalization awesome-list personalized multimodal-models large-language-models personalized-generation large-multimodal-models

Updated May 12, 2026

arman-aminian / video-search

Star

Video Search with CLIP

nlp image-search clip zero-shot video-search multimodal multilingual-models multimodal-models

Updated Aug 13, 2023
Jupyter Notebook

CASE-Lab-UMD / Capacity-Aware-MoE

Star

The official implementation of the paper "Capacity-Aware Inference: Mitigating the Straggler Effect in Mixture of Experts" (ICLR 2026).

language-models load-balancing mixture-of-experts inference-acceleration multimodal-models test-time-optimization

Updated May 12, 2026
Python

Shwai-He / VLM-Compression

Star

The official implementation of the paper "Rethinking Pruning for Vision-Language Models: Strategies for Effective Sparsity".

sparsity model-compression multimodal-models lora-fine-tuning

Updated Jul 2, 2024
Python

OpenSenseNova / ConsistCompose

Star

[CVPR2026] ConsistCompose: Unified Multimodal Layout Control for Image Composition

multimodal-models mllm layout-controllable-generation

Updated May 14, 2026
Python

AmitPeleg / CLIC

Star

Implementation of the paper "Advancing Compositional Awareness in CLIP with Efficient Fine-Tuning", arXiv, 2025

retrieval clip compositionality multimodal-models

Updated Oct 22, 2025
Python

pokarats / LAP-final-project

Star

Multimodal Bi-Transformers (MMBT) in Biomedical Text/Image Classification

text-classification transformer image-classification transfer-learning attention-mechanism bert biomedical-image-processing attention-visualization multimodal-representation huggingface-transformers sparse-data-learning multimodal-models mmbt-model

Updated Apr 13, 2021
Jupyter Notebook

NanoOWL Detection System enables real-time open-vocabulary object detection in ROS 2 using a TensorRT-optimized OWL-ViT model. Describe objects in natural language and detect them instantly on panoramic images. Optimized for NVIDIA GPUs with .engine acceleration.

computer-vision natural-language transformers object-detection multimodal-models

Updated May 13, 2025
C++

rayford295 / RAPID

Star

RAPID: A Reproducible Multi-Agent Pipeline for Interpretable Disaster Damage Assessment from Satellite and Street-View Imagery

remote-sensing geoai multimodal-models street-view-imagery disaster-assessment

Updated May 17, 2026
Jupyter Notebook

nitya / model-mondays

Star

Model Mondays is a weekly livestreamed series on Microsoft Reactor that helps you make informed model choice decisions with timely updates and model deep-dives. Watch live for the content. Join Discord for the discussions.