Stable Diffusion은 모델에 텍스트 입력 또는 이미지 업로드를 하면, 새로운 이미지를 생성하는 생성형 인공지능 모델이다. Stability AI에서 오픈소스 라이선스로 배포하였다.
Stable Diffusion은 방대한 양의 데이터(LAION-5B) 를 학습하였는데, DALL-E나 Midjourney와 같이 클라우드 서비스를 통해서만 사용 가능한 text-to-image 모델들과 다르게, 사용자가 직접 8GB 이하의 VRAM 컴퓨터에서도 구동할 수 있다. 이렇듯 접근이 용이하고 사용하기 쉽기 때문에 각광받고 있다.
Stable Diffusion으로 업로드한 이미지를 오른쪽과 같이 변형할 수도 있다. 텍스트를 이미지로, 이미지를 또 다른 이미지로 만들 수 있는 것이다. 그리고 모델이 버전업 될 때마다 생성 결과물의 품질도 매우 좋아지고 있다. SOTA(State-ot-Arts)를 달성하는 모델의 출시 주기가 점점 짧아지고 있는 듯하다.
작년 2023 인공지능 박람회에서 인간의 실제 음성과 음성 합성으로 만든 목소리를 각각 듣고 맞추면 상품을 주는 부스가 있었다. 한 번 참여해 보았는데 맞추기 쉽지는 않았으나, 기계가 만든 음은 소리의 주기가 일률적으로 느껴져 인간의 음성과 미세하게 다른 것을 알아챌 수 있었다. 이로부터 불과 일년도 안 돼서 새로운 기술은 어마하게 쏟아져 나왔고, 인공지능은 이전보다 훨씬 자연스럽게 사람의 목소리를 구현해내고 있다. 모델의 발전이 박차를 가하고 있는 만큼, 인간과 인공지능의 생성물을 구분하기는 점점 더 어려워질 것이다. 새로운 기술의 발전이 악용되지 않고 인간의 편의를 위한 도구로 쓰이려면 많은 논의가 이루어져야 할 것이다.
'AI' 카테고리의 다른 글
랭체인(LangChain) 모듈 (0) | 2024.02.13 |
---|---|
랭체인(LangChain)? (0) | 2024.02.13 |
NumPy 배열의 차원 확인하기 (1) | 2023.10.02 |
결정 계수(R-squared, R2)와 정확도(Accuracy) (0) | 2023.08.28 |
다중 레이어 퍼셉트론(Multi-Layer Perceptron, MLP)의 파라미터 (0) | 2023.08.28 |