책임감 있는 기계 학습을 위한 히치하이커를 위한 안내서

한 달 전에 우리는 책임 있는 기계 학습/설명 모델 분석 분야에서 , 책임 있는 기계 학습을 위한 히치하이커를 위한 안내서” 라는 제목의 교육 만화를 발표했습니다 . 52페이지에서 우리는 코로나바이러스 사망률 분석의 예를 사용하여 예측 모델을 구축하고 검증하기 위한 방법, 도구 및 모범 사례를 제시합니다. 책 자체는 길지 않고 두 시간이면 읽을 수 있지만 이 만화의 아이디어는 수년에 걸쳐 성숙해졌습니다.

아래에서 이 (만화) 책의 제작에 대한 몇 가지 생각을 공유할 것입니다. 영어 버전은 https://betaandbit.github.io/RML/ 에서 온라인으로 사용할 수 있습니다 . 폴란드어 번역은 2022년 1월에 온라인과 서점에 나타납니다.

경험 경제

최근에 읽은 책 중 하나는 Joseph Pine과 James Gilmore 의 Experience Economy 입니다. 제품과 서비스를 선택하는 과정에서 경험의 역할이 커지고 있음을 보여주는 매우 흥미로운 위치입니다. 교육 서비스에서는 교육과 엔터테인먼트를 결합한 에듀테인먼트의 인기가 높아지고 있습니다. 물론 실제로 얼마나 많은 교육이 있는지, 우리가 이야기하는 오락의 종류는 지적 오락인가, 단순한 농담인가에 대한 질문이 항상 있습니다. 이 지역의 모든 제안을 먹을 수 있는 것은 아니지만 때로는 보석을 만날 수 있습니다. 저에게는 Hans Rosling 의 TED 강연부터 그의 책 Factfulness까지은 두 영역을 능숙하게 결합하여 흥미롭지 않은 것처럼 보이는 통계에 대한 이야기를 이해하기 쉽고 매력적인 방식으로 전달하는 방법의 한 예입니다.

하지만 다음에 무슨 일이 일어날까요? 참가자가 이야기를 듣는 것뿐만 아니라 참여하는 경험을 계획할 수 있습니까? RPG 게임 업계는 그것이 가능하다는 것을 보여주었습니다. Geralt Witcher 에 관한 책을 읽음으로써 Geralt 의 모험에 대해 읽을 수 있을 뿐만 아니라 컴퓨터 게임에서 이러한 모험을 경험할 수도 있습니다. 고전 책에서 운동은 그러한 경험의 방아쇠입니다. 우리는 사실에 대해 읽을 뿐만 아니라 연습을 통해 논의 중인 문제를 더 깊이 경험하고 이해할 수 있습니다.

우리는 만화책 “히치하이커를 위한 안내서…”에서 유사한 솔루션을 결정했습니다. 논의된 이야기의 발췌 부분에는 R 콘솔(향후 Python에서도)에서 실행할 수 있는 샘플 코드와 데이터가 포함되어 있습니다. 이렇게 하면 만화 페이지의 모험을 수동적으로 볼 필요가 없지만 데이터를 직접 보고 다른 모델을 사용하거나 다른 모델 유효성 검사 기술을 적용할 수 있습니다.

실제로 이러한 예를 기반으로 우리 는 UserR 2021 컨퍼런스에서 전체 실습 워크샵을 운영합니다 . 3시간 동안 참가자들은 베타 및 비트와 동일한 모험을 통해 예측 모델을 구축, 검증 및 배포했습니다.

설명모형 분석 과정

예측 모델을 구축하는 프로세스는 많은 신화로 둘러싸여 있습니다. 그 중 하나는 데이터를 도구에 넣고 버튼을 클릭하면 모델이라는 큰 파일이 팝업되는 모델 구축의 신화적인 자동화입니다.

RML 만화에서 우리는 여러 가지 방법으로 이 신화의 마법을 풀려고 합니다. 먼저, 모델을 구축하는 4번의 반복을 보여줍니다. 각 반복은 점점 더 복잡하지만 효과적인 모델을 생성합니다. 둘째, 새 데이터에 액세스하기 전에 첫 번째 모델이 생성됩니다. 종종, 특히 의학에서 원시 데이터 없이 모델의 첫 번째 반복을 구축하는 데 이미 방대한 양의 도메인 지식을 사용할 수 있습니다. 셋째, 각 단계의 모델링 프로세스에서 우리는 분석 중인 문제에 대해 새로운 것을 배우고 이 새로운 지식은 다음 모델링 단계에서 사용할 수 있습니다.

제한된 크기로 인해 만화는 개별 방법의 수학적 세부 사항에 대해 깊이 들어가지 않습니다. 짝수 페이지에는 각 기법의 이면에 있는 직관이 제시됩니다. 그러나 전체는 ” 설명 모델 분석 ” 교과서를 기반으로 하며 , 여기에서 다양한 방법의 작동 방식과 장단점이 무엇인지 자세히 읽을 수 있습니다.

우리가 보여주는 방법은 종종 해석 가능한 기계 학습 또는 설명 가능한 인공 지능이라고 합니다. 그러나 이 두 이름은 어떤 의미에서는 잘못된 것입니다. 모든 모델이 실제로 해석 가능한 것은 아니며 우리의 목표는 모델을 해석하거나 예측을 해석하는 것이 아닙니다. 마찬가지로 설명 가능이라는 용어는 XAI 방법에 대한 논의가 설명 가능성의 심리적 기반으로 너무 자주 이동하게 합니다. 실제로 우리는 교사가 학생에게 설명하거나 부모가 어린이에게 설명하는 것과 동일한 기반으로 모델이 실제로 설명하는 것을 거의 원하지 않습니다. 종종 우리의 기대는 모델의 예측을 정당화하여 질문할 수 있도록 하는 것입니다. 사물의 이름을 올바르게 지정하면 사물을 이해하는 데 도움이 되므로 만화에서 우리는 모델 이해에 대해 이야기하고 있음을 강조하기 위해 설명 모델 분석이라는 용어를 일관되게 사용하려고 합니다.

이야기

이 만화의 경우 이야기는 삶 그 자체로 쓰여졌습니다. 2020년 상반기에 우리 팀은 Tyll Kruger 교수가 설립한 MOCOS 그룹 과 협력하여 매우 상세한 역학 데이터를 기반으로 한 코로나바이러스 감염 사망률 모델링에 참여했습니다.

밝혀진 바와 같이 등장한 모델은 역학조사기관뿐만 아니라 감염 시 합병증 및 사망 가능성에 대해 궁금해 하거나 우려하는 외부인들도 많았기 때문에 예상보다 이해관계자가 많았다.

우리는 모델 자체를 https://crs19.pl/ 에서 공개적으로 사용할 수 있도록 하기로 결정했습니다 . 폴란드와 독일의 주요 언론이 주목한 사실에 놀랐습니다. 그렇다면 실제 필요에 따라 이러한 기술이 사용된 실제 사례를 기반으로 EMA를 실행하는 것보다 EMA를 보여주는 더 좋은 방법은 무엇입니까?

만화에서 우리는 이전에 데이터 활용 능력 책을 위해 만든 Beta와 Bit 문자를 사용했습니다(대부분 폴란드어로만 사용 가능). 그녀는 수학과 통계에 매료되어 있고, 그는 기계 학습을 실험하는 프로그래머이며, 함께 예측 모델링의 가치를 보여주는 훌륭한 팀입니다.

실제 모델링 중에 테스트한 모든 모델을 보여주기에는 만화의 공간이 충분하지 않았습니다. 특히 단조성 제약이 있는 부스팅 모델 또는 3차 스플라인이 있는 로지스틱 회귀 모델도 매우 유망한 결과를 제공했습니다. 글쎄요, 언젠가는 다른 모델링 기술도 설명하는 2부가 있을 것입니다.

Leave a Comment