Back to Reviews

ICCV 2023: Selected Posters

Date October 20, 2023

Vision-Language Models

Delving into CLIP latent space for Video Anomaly Detection and Recognition

CLIP for Video Anomaly

SMAUG: Sparse Masked Autoencoder for Efficient Video-Language Pre-training

SMAUG

Distilling Large Vision-Language Model with Out-of-Distribution Generalizability

Vision-Language Distillation

Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval

Prompt Switch

Black Box Few-Shot Adaptation for Vision-Language Models

Few-Shot Adaptation

TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight Inheritance

TinyCLIP

BlendShift: Adaptive Neighbour Correction and Replacement for Efficient Neighbour Contrastive Learning

BlendShift

Vision Models

SeiT: Storage-Efficient Vision Training with Tokens Using 1% of Pixel Storage

SeiT

Rethinking Vision Transformer from the View of Path Ensemble

Path Ensemble ViT

XiNet: Efficient Neural Networks for tinyML

XiNet

Convolutional Networks with Oriented 1D Kernels

1D Kernels

FLatten Transformer: Vision Transformer using Focused Linear Attention

FLatten Transformer

Rethinking Mobile Block for Efficient Attention-based Models

Mobile Block

BiViT: Extremely Compressed Binary Vision Transformers

BiViT

Egocentric

COPliOT: Human-Environment Collision Prediction and Localization from Multi-view Egocentric Videos

COPliOT

EGO-ONLY: EGOCENTRIC ACTION DETECTION WITHOUT EXOCENTRIC TRANSFERRING

EGO-ONLY

Video

MiniROAD: Minimal RNN Framework for Online Action Detection

MiniROAD

Spatio-temporal Prompting Network for Robust Video Feature Extraction

Spatio-temporal Prompting

Label-Efficient Online Continual Object Detection in Streaming Video

Continual Object Detection

Efficient Video Prediction via Sparsely Conditioned Flow Matching

Video Prediction

Anonymization

PRIFACE: A Novel Pipeline for Enhancing and Evaluating Face Anonymization

PRIFACE