MIPAL-SNU
MIPAL-SNU
  • Видео 67
  • Просмотров 27 409

Видео

Personalized Residuals for Concept-Driven Text-to-Image Generation
Просмотров 589 часов назад
Personalized Residuals for Concept-Driven Text-to-Image Generation
Evaluating and Improving Compositional Text-to-Visual Generation
Просмотров 63Месяц назад
Evaluating and Improving Compositional Text-to-Visual Generation
20241107 Progress measures for grokking via mechanistic interpretability (2/2)
Просмотров 45Месяц назад
20241107 Progress measures for grokking via mechanistic interpretability (2/2)
Is ImageNet worth 1 video? Learning strong image encoders from 1 long unlabelled video
Просмотров 135Месяц назад
ICLR 2024 oral paper
Generative Image Dynamics (CVPR2024 best paper award)
Просмотров 2612 месяца назад
Generative Image Dynamics (CVPR2024 best paper award)
Analytic-Splatting: Anti-Aliased 3D Gaussian Splatting via Analytic Integration
Просмотров 1432 месяца назад
Gaussian을 Implicit하게 적분하여 Rendering을 개선하려는 시도를 한 Analytic-Splatting 논문입니다. arxiv.org/abs/2403.11056 [ECCV Oral Paper]
Massive Activations in Large Language Models
Просмотров 1102 месяца назад
Review of 'Massive Activations in Large Language Models' (Mingjie Sun, Xinlei Chen, J. Zico Kolter, Zhuang Liu)
MACE:Mass Concept Erasure in Diffusion Models
Просмотров 1843 месяца назад
MACE:Mass Concept Erasure in Diffusion Models
Next-time MLP? KAN: Kolmogorov-Arnold Networks
Просмотров 1394 месяца назад
Next-time MLP? KAN: Kolmogorov-Arnold Networks
Fourier-basis functions to bridge augmentation gap: Rethinking frequency augmentation (CVPR2024)
Просмотров 2234 месяца назад
Fourier-basis functions to bridge augmentation gap: Rethinking frequency augmentation (CVPR2024)
Direct Inversion: Boosting Diffusion-based Editing with 3 Lines of Code (ICLR2024)
Просмотров 2854 месяца назад
Direct Inversion: Boosting Diffusion-based Editing with 3 Lines of Code (ICLR2024)
SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix
Просмотров 1455 месяцев назад
SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix
Inversion Free Image Editing with Natural Language
Просмотров 1846 месяцев назад
Xu, Sihan, et al. "Inversion-Free Image Editing with Natural Language." arXiv preprint arXiv:2312.04965 (2023).
[ICCV 2023]Preventing Zero-shot Transfer Degradation in Continual Learning of Vision-Language Models
Просмотров 1076 месяцев назад
[ICCV 2023]Preventing Zero-shot Transfer Degradation in Continual Learning of Vision-Language Models
Multimodal Prompting with Missing Modalities for Visual Recognition
Просмотров 1206 месяцев назад
Multimodal Prompting with Missing Modalities for Visual Recognition
Quick-Tune: Quickly Learning Which Pretrained Model to Finetune and How
Просмотров 2186 месяцев назад
Quick-Tune: Quickly Learning Which Pretrained Model to Finetune and How
SODA: Bottleneck Diffusion Models for Representation Learning
Просмотров 2566 месяцев назад
SODA: Bottleneck Diffusion Models for Representation Learning
EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models
Просмотров 1167 месяцев назад
EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models
Vision Transformers Need Registers
Просмотров 2327 месяцев назад
Vision Transformers Need Registers
DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION
Просмотров 5438 месяцев назад
DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION
Is synthetic data from generative models ready for image recognition? (ICLR 2023, spotlight)
Просмотров 1268 месяцев назад
Is synthetic data from generative models ready for image recognition? (ICLR 2023, spotlight)
Neural Field Classifiers via Target Encoding and Classification Loss (ICLR 2024)
Просмотров 1749 месяцев назад
Neural Field Classifiers via Target Encoding and Classification Loss (ICLR 2024)
MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation
Просмотров 1989 месяцев назад
MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation
How hard are computer vision datasets? Calibrating dataset difficulty to viewing time
Просмотров 1199 месяцев назад
How hard are computer vision datasets? Calibrating dataset difficulty to viewing time
TokenFlow: Consistent Diffusion Features for Consistent Video Editing
Просмотров 12310 месяцев назад
TokenFlow: Consistent Diffusion Features for Consistent Video Editing
On the Robustness of Open-World Test-Time Training: Self-Training with Dynamic Prototype Expansion
Просмотров 12611 месяцев назад
On the Robustness of Open-World Test-Time Training: Self-Training with Dynamic Prototype Expansion
Mamba: Linear-Time Sequence Modeling with Selective State Spaces
Просмотров 1,1 тыс.11 месяцев назад
Mamba: Linear-Time Sequence Modeling with Selective State Spaces
I-JEPA: Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture
Просмотров 57211 месяцев назад
I-JEPA: Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture
Large Language Models Post Training Quantization(smoothQuant, RPTQ)
Просмотров 47411 месяцев назад
Large Language Models Post Training Quantization(smoothQuant, RPTQ)

Комментарии

  • @AlgoNudger
    @AlgoNudger 2 месяца назад

    Thanks.

  • @elioakun
    @elioakun 2 месяца назад

    can you share the ppt?

  • @ziqiao_martin_ma
    @ziqiao_martin_ma 2 месяца назад

    Thank you for presenting our work :)

  • @mcanales9095
    @mcanales9095 4 месяца назад

    So, is it worth using KAN?, I don't understand Korean :0

    • @Junhoo-Lee
      @Junhoo-Lee 4 месяца назад

      Absolutely No, in my opinion...

  • @airalight
    @airalight 4 месяца назад

    발표자가 너무 잘 생겼어요~

  • @dayol2026
    @dayol2026 5 месяцев назад

    잘 듣고 갑니다~!

  • @AlgoNudger
    @AlgoNudger 6 месяцев назад

    Thanks.

  • @saisritejakuppa9856
    @saisritejakuppa9856 7 месяцев назад

    I seriously wish there are official english subs to this video.

  • @초코동동
    @초코동동 7 месяцев назад

    영상에 나온 질문과 유사한 질문인데요. NeRF 가 여러 View Point 에서 나온 이미지쌍들로 새로운 View Synthesis 를 위해 MLP 를 학습하는 구조라면 Random Camera P 에 대한 rendering 결과를 DiffusionModel 을 통과했을 때 잘 생성해야 할것 같은데 그게 Front View/Side View/Overhead View 같은 몇 가지 View Point 로 한정된다고 하면, 다양한 각도의 rendering 이미지에 대해서 denoising 된 \hat{x} 를 잘 생성해 낼 수 있나요? 잘 생성되는데 다만 조금 제한을 주기 위한 용도로 prompt 에 view 방향에 대한 가이드만 주는 것이라고 이해하면 될까요?

    • @신원식학생협동과정인
      @신원식학생협동과정인 7 месяцев назад

      안녕하세요, 답변이 늦었습니다. 우선 말씀해주신 것처럼, NeRF 모델에서 Rendering을 진행할 때에는 Random Camera P를 샘플링하여 Random한 방향에서 바라본 이미지를 rendering하게 됩니다. 이후 Rendered Image를 Diffusion Model에 넣을 때, 샘플링 된 Camera P의 방향에 따라 Text Condition에 Overhead View/Front View/Side View/Back View of ~ 와 같은 수식어를 넣어주어 Diffusion Model이 좀 더 Reconstruction을 잘 할 수 있도록 하여 학습이 더 잘 되도록 하고 있습니다. Rendered Image에 Noise를 추가하더라도 전반적인 Structure는 남아있을 것이라 예상되어 위와 같은 수식어 없이도 Reconstruction이 어느정도는 잘 될 것으로 생각되는데요, 다만 학습 초기 단계와 같은 경우 Rendered Image의 Quality가 좋지 않을 것 같아 위와 같은 수식어가 Diffusion Model이 Image Reconstruction을 수행할 때 보다 올바른 방향으로 이미지를 생성할 수 있도록 가이드할 수 있어 모델 학습에 도움이 될 것이라 생각됩니다. 제한을 주기보다는 학습을 더욱 효과적으로 하기 위한 방법이라고 생각해 주시면 될 것 같습니다.

    • @초코동동
      @초코동동 7 месяцев назад

      @@신원식학생협동과정인 아 자세한 답변 감사드립니다.

  • @davidshavin1998
    @davidshavin1998 8 месяцев назад

    If the video is not in English don't give it a title in English

  • @MmX-x1x
    @MmX-x1x 8 месяцев назад

    혹시 Co DTER에서 auxiliary head의 구조는 어떻게 되나요?

  • @Arwin_Unbeatable
    @Arwin_Unbeatable 10 месяцев назад

    please do it english, it would be easier for non korean speakers like me to understand

  • @simonson6498
    @simonson6498 11 месяцев назад

    20:16 _no_weight_decay=True 는 self.A_log 의 그래디언트 러닝에 영향을 주지만 업데이트에서 배제하진 않는 것 같습니다. 업데이트 되는 것 같아 보이네요...

  • @simonson6498
    @simonson6498 11 месяцев назад

    분명 많은 것들을 이해하고 다루려고 하시는 것 같아 감사하게 들었습니다만... 좋은 설명을 하기 위해서 좀 더 노력해보시는것도 좋을 것 같습니다. 많은 게 함축되어있는 것 같네요. 감사하게 들었습니다.

  • @jackybanh8105
    @jackybanh8105 Год назад

    could i have a link to the slides please?

  • @ylab3891
    @ylab3891 Год назад

    오 감사합니다.

  • @chaerinkong5303
    @chaerinkong5303 Год назад

    발표 잘들었습니다!

  • @MyungHoJu
    @MyungHoJu Год назад

    많은 논문에 대해 정리가 잘되어 있네요. 감사합니다.

  • @YATENDRA3192
    @YATENDRA3192 Год назад

    Great work 🎉 this is a much needed direction on making real world use cases out of image generation. Any demo page where we can check it out?

  • @thesahil301290
    @thesahil301290 Год назад

    Why not in English?

  • @mipal-snu8300
    @mipal-snu8300 Год назад

    중간에 나오는 sigma_cls와 sigma_det의 차이가 무엇인지에 대한 질문의 추가 설명입니다. sigma_cls의 경우 class dimension을 따라 softmax를 하고, sigma_det는 region dimension을 따라 softmax를 해서, sigma_cls는 각 클래스에 대한 확률을, sigma_det는 각 region의 contribution을 나타내도록 구성했다고 합니다.

  • @신선규-p1z
    @신선규-p1z Год назад

    2:02

  • @신선규-p1z
    @신선규-p1z Год назад

    0:02

  • @이승관-u4h
    @이승관-u4h 2 года назад

    잘 보고 갑니다.

  • @ljhhhjlk
    @ljhhhjlk 2 года назад

    시간 관계상 뒤쪽은 제가 설명을 간소화 했습니다. 양해 바랍니다. 혹시 틀린 내용들이 있다면 댓글로 알려주시면 감사하겠습니다.