728x90
배치 사이즈는 신경망 모델을 한 번에 처리하는 데이터 샘플의 수를 나타낸다. 가령 배치 사이즈가 64라면 64만큼 처리한 후 다시 64만큼 처리하는 것이다.
배치 크기가 클수록 한 번에 더 많은 데이터를 처리할 수 있지만, 메모리 요구사항과 연산량이 증가한다. 반면 배치 사이즈가 작을수록 메모리 사용과 연산량이 줄어들지만, 학습 속도가 상대적으로 느려진다.
배치 사이즈는 컴퓨터 자원과 모델의 효율성을 고려하여 선택되는 값이다. 대부분의 하드웨어가 2의 거듭제곱 크기의 배치에 최적화되어 있어, 메모리 효율성을 높일 수 있다. 따라서 2, 4, 8, 16, 32, 64, 128, 256과 같은 값으로 설정하는 것이 일반적이다.
배치 사이즈가 크면 좋은 점?
- 가속기(accelerator)의 효율성을 높인다. GPU나 TPU같은 가속기를 사용하는 경우 병렬 처리를 위해 큰 배치 크기로 설정하는 것이 좋다.
- 경사 하강법의 안정성에 도움을 준다. 배치 사이즈가 작을수록 경사 하강법의 노이즈가 크고 일반화 성능에 영향을 줄 수 있다. 일반적으로 큰 배치 크기는 경사 하강법의 안정성을 향상시키고 모델이 더 안정적으로 학습되도록 도와준다.

728x90
'자연어 처리(NLP) 공부' 카테고리의 다른 글
| 불용어(Stop words)는 항상 제거해야 하는가? (0) | 2023.07.06 |
|---|---|
| 토크나이저(Tokenizer) 종류 (0) | 2023.07.06 |
| 기계 번역의 학습과 추론을 위한 mask 함수 (0) | 2023.06.21 |
| 시퀀스-투-시퀀스(Sequence-to-Sequence, seq2seq) (0) | 2023.06.20 |
| 버퍼(buffer)? (0) | 2023.06.20 |