• TUNIT Rethinking the Truly Unsupervised Image-to-Image Translation

    posted by kozistr tl;dr 최근에 Clova AI 에서 unsupervised image 2 image translation 관련 논문이 나와서 한번 빠르게 봤습니다. 일단 제목부터가 재밌는데 TUNIT, Truly Unsupervised Image to Image Translation 의 약자입니다. 요즘 unsup, semi-sup 이라 하면서, 사실은 supervised 인 approach 들이 있어서 그런지, 이거는 찐이다 라는 걸 제목부터 보여주고 싶었나...


  • UIS-RNN-SML SUPERVISED ONLINE DIARIZATION WITH SAMPLE MEAN LOSS FOR MULTI-DOMAIN DATA

    posted by kozistr tl;dr 평소에 speaker diarization task 에 정말 관심이 많고, 이전에 이쪽 분야 (speech domain 쪽 전반적으로) 업무를 하다가, 최근에 다시 이쪽 분야 trend 는 어떤지 궁금해서 예전에 UIS-RNN 기반으로 speaker diarization pipeline 구현하던 게 생각나서 찾아보다 발견해서 읽게 됐습니당. paper : arXiv code : github Related Work...


  • ResNeSt Split-Attention Networks

    posted by kozistr tl;dr Amazon 에서 지난달에 재밌는 논문이 나왔는데요, 새로운 image classification architecture 를 제안했는데, EfficientNet 보다 더 좋은 성능을 보이는 human-made architecture 를 선보였습니다. 멋지죠? 핵심은 Split-Attention 을 사용하는것 인데요, 자세한 건 본문에 결론은 ImageNet 에서 새로운 SOTA 를 찍었습니다. paper : arXiv code : github Related Work...


  • Cotatron Transcription-Guided Speech Encoder for Any-to-Many Voice Conversion without Parallel Data

    posted by kozistr tl;dr 최근 mindslabd에서 VC (Voice Conversion)관련 논문이 나와서 오랜만에 요 쪽 domain 도 볼 겸 해서 논문을 읽게 됐습니다. 간단하게 요약하면, 유명한 google 의 TTS model 인 tacotron2 기반으로 given transcription 와 mel alignment 를 활용해서 speaker-independent linguistic representation 을 뽑는 concept(?) 입니다. 결론은 VCTK dataset 에서...


  • YOLOv4 Optimal Speed and Accuracy of Object Detection

    posted by kozistr tl;dr 이번에 리뷰할 논문은 오랜만에 나온 YOLO 4번째 버전인 YOLOv4 논문입니다. 이번 버전은 이야기가 있는(?) 버전인데, YOLO 원 저자인 Joe Redmon 님 께서 올해 2월쯤에 twit으로 CV 연구를 그만하겠다고 선언하셨는데 (정말 YOLO 하러 가셨을까), 과연 이번 버전엔 저자에 포함될지, darknet page에는 YOLOv4 가 올라갈지 이야기가 있었는데, 이번...