익명 사용자
로그인하지 않음
토론
기여
계정 만들기
로그인
IT 위키
검색
레이 (분산 컴퓨팅)
편집하기 (부분)
IT 위키
이름공간
문서
토론
더 보기
더 보기
문서 행위
읽기
편집
원본 편집
역사
경고:
로그인하지 않았습니다. 편집을 하면 IP 주소가 공개되게 됩니다.
로그인
하거나
계정을 생성하면
편집자가 사용자 이름으로 기록되고, 다른 장점도 있습니다.
스팸 방지 검사입니다. 이것을 입력하지
마세요
!
==장애 허용== Ray는 애플리케이션 계층과 시스템 계층으로 구성되어 있으며, 두 계층 모두 장애 복구 기능을 갖추고 있다. ===시스템 계층 구성 요소=== *'''Global Control Store (GCS)''': Ray의 전체 상태를 저장하는 중앙 구성 요소 *'''분산 스케줄러''': 작업 분배 및 자원 할당을 담당 *'''분산 오브젝트 저장소''': 객체 데이터를 클러스터 내에서 분산 관리<ref>GCS를 제외한 구성 요소는 수평 확장 및 장애 허용이 가능하다.</ref> ===Global Control Store (GCS)=== * GCS는 시스템 상태를 중앙에서 유지하여 나머지 구성 요소들이 무상태(stateless)로 설계되도록 한다. *구성 요소가 장애로 인해 재시작되면, GCS에서 상태를 읽어와 복구한다. *이를 통해 객체 저장소와 스케줄러를 독립적으로 확장할 수 있다. *기본적으로 GCS는 헤드 노드에 존재하며, 단일 장애 지점(SPOF)이 된다. ===Remote Function의 장애 허용=== *Remote function은 상태가 없기 때문에 복구가 간단하다. * 시스템 오류로 실패한 작업은 지정된 최대 횟수만큼 자동 재시도된다. *응용 오류(Exception 발생)는 자동 재시도되지 않고, 예외 객체로 반환된다. *최대 재시도 횟수는 `@ray.remote(max_retries=n)`으로 설정 가능하다. === Remote Actor의 장애 허용=== *액터는 상태를 갖기 때문에 복구가 더 복잡하다. * 초기화, 메시지 처리 중, 요청 간 등 어떤 단계에서도 실패할 수 있다. ====메시지 처리 중 실패==== *자동 재시도되지 않음 *다음 메시지를 처리할 때까지 대기하며, 최대 max_restarts 횟수까지 액터를 재시작한다. ==== 요청 간 실패==== *다음 메시지 호출 시 자동으로 액터를 복구한다. * 상태 복구 로직이 적절히 구현되어 있다면 실패는 느린 처리 외에는 큰 영향을 주지 않는다. *상태 복구 로직이 없을 경우, 액터는 초기 상태로 재시작된다. ===기타 사항=== *대부분의 자원은 애플리케이션 종료 시 자동 정리된다. *'''Detached''' 리소스(예: detached actor, placement group)는 클러스터가 유지되는 한 계속 유지된다.<ref>이로 인해 클러스터의 자동 스케일 다운이 방지될 수 있다.</ref>
요약:
IT 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-비영리-동일조건변경허락 라이선스로 배포된다는 점을 유의해 주세요(자세한 내용에 대해서는
IT 위키:저작권
문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요.
또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다.
저작권이 있는 내용을 허가 없이 저장하지 마세요!
취소
편집 도움말
(새 창에서 열림)
둘러보기
둘러보기
대문
최근 바뀜
광고
위키 도구
위키 도구
특수 문서 목록
문서 도구
문서 도구
사용자 문서 도구
더 보기
여기를 가리키는 문서
가리키는 글의 최근 바뀜
문서 정보
문서 기록