banner

블로그

Oct 30, 2023

Shell: 에너지 부문에서 사용되는 머신러닝 모델의 성능 평가

Shell의 사례 연구.

이 프로젝트는 딥 러닝을 활용하여 특수 애플리케이션 도메인에 대한 의미론적 분할인 컴퓨터 비전 작업을 수행합니다. 이 프로젝트에는 활성 배포 중인 딥 러닝(DL) 모델이 약 15개 있었습니다. DL 모델은 생성된 예측에 계단식 방식으로 적용되며, 그런 다음 일련의 다운스트림 작업에 공급되어 수동 해석 작업에 입력될 최종 출력을 생성합니다. 따라서 모델 성능 평가를 통한 AI 보증은 강력하고 설명 가능한 AI 결과를 보장하는 데 중요합니다. 세 가지 유형의 모델 평가 테스트가 DL 추론 파이프라인에 설계 및 구현되었습니다.

AI 백서 규제 원칙에 대한 추가 정보.

백본을 형성하는 회귀 및 통합 테스트는 일련의 테스트 데이터에 대한 모델 해석 가능성을 제공합니다. 모델 개발 중에 모델 훈련 데이터 및 매개변수에 따라 모델 성능이 향상되거나 저하되는지 해석하기 위한 기준선을 제공합니다. 모델 배포 단계에서 이러한 테스트는 개념 드리프트에 대한 조기 표시도 제공합니다.

통계 테스트는 테스트 데이터의 통계를 바탕으로 모델 성능을 예측하도록 설계되어 모델이 배포될 때 데이터 드리프트를 감지하는 메커니즘을 제공합니다. 또한 DL 모델 성능이 테스트 데이터의 통계적 변화에 얼마나 강력한지를 나타냅니다.

이 AI 보증 기술의 결과는 AI 개발자 및 제품 소유자에게 전달되어 예상 DL 모델 성능과의 잠재적 편차를 모니터링합니다. 또한, 성과가 벗어나는 경우 이러한 팀은 적절한 완화 조치를 운영할 수 있습니다.

또한 일선 사용자와 비즈니스 이해관계자가 DL 모델의 결과에 대해 높은 수준의 신뢰를 유지할 수 있습니다.

AI 개발자는 성능 테스트를 강화하기 위해 모델 평가 테스트를 설계하고 실행하는 일을 담당합니다. 제품 소유자는 새 모델을 배포하기 전에 이러한 테스트를 첫 번째 방어선으로 활용할 책임이 있습니다. 프로젝트 팀은 배포 중에 데이터 및 개념 드리프트를 해결하기 위해 테스트를 조정하기 위해 협력합니다.

이 프로젝트에서 DL 모델의 예측은 궁극적으로 수동 해석 작업을 위한 입력을 생성합니다. 이 작업은 복잡하고 시간이 많이 걸리며 노력이 많이 들기 때문에 시작점(이 경우 DL 모델 예측)은 정확성, 감지 범위 및 매우 낮은 노이즈 측면에서 고품질이어야 합니다. 또한 수동 해석의 결과는 영향력이 큰 의사 결정 프로세스에 반영됩니다.

따라서 DL 모델 예측의 품질과 견고성은 매우 중요합니다. ML 모델의 예측 성능을 판단하는 가장 중요한 지표는 인간 참여형 품질 관리입니다. 그러나 첫 번째 방어선으로 성능 테스트를 자동화하기 위해 모델 평가 테스트 스위트 기술이 채택되었습니다. 데이터 버전 제어 및 암시적 ML 실험 파이프라인 생성은 주로 허용 가능한 오류 한계 내에서 모델이 엔드투엔드(데이터, 코드 및 모델 성능)로 재현될 수 있도록 보장하는 것이었습니다.

1차 방어선, QA를 위한 자동화된 DL 성능 테스트

모델 견고성과 DL 모델 성능의 더 나은 해석 가능성을 테스트합니다.

AI 개발자와 최종 사용자를 위한 DL 모델 성능에 대한 강력한 설명

사용자 커뮤니티를 통해 DL 모델 및 워크플로에 대한 신뢰 구축

개념 표류를 감지하는 메커니즘을 구축하여 모델 모니터링을 지원합니다.

모델 배포 중에 CI-CD를 활성화하기 위한 MLOps 후크입니다.

감지, 분류, 노이즈 감소 등 매우 다양한 작업을 수행하는 수많은 DL 모델.

DL로 해결되는 문제의 복잡성과 가변성으로 인해 KPI 설계가 어려워집니다.

모델 평가를 설계하는 데 사용할 수 있는 고품질의 대표적인 데이터가 부족합니다.

회귀, 통합 및 통계 테스트를 설계하기 위한 명확한 측정항목/임계값이 부족합니다.

안정적인 모델 평가 라이브러리가 부족합니다.

공유하다