AI 역기능/ AI 윤리란?
1️⃣ 개념
■ AI의 역기능
AI의 역기능에는 딥페이크와 같이 AI를 이용해 사람을 속이는 문제와, 학습데이터 편향에 의한 인종차별과 같은 AI 오동작 등이 포함됨.
ex) 범죄 전과자의 얼굴 이미지를 기반으로 재범률을 예측하는 인공지능 알고리즘을 테스트 한 결과, 인공지능은 흑인의 재범률을 백인에 비해 실제보다 훨씬 더 높게 추론했음. 인공지능이 판사를 대체할 경우, 인간은 기계에 의해 인종차별을 당할 수 있음.
AI의 역기능으로 인한 AI 윤리 제정↓
■ AI 윤리
인공지능 관련 이해관계자들이 준수해야 할 보편적 사회 규범 및 관련 기술
윤리 침해 사례
○ 인공지능을 비윤리적으로 활용하는 대표적인 경우는 대량의 인명 피해가 예상되는 자율살상 무기 개발
- 2025년 기준으로 인공지능을 탑재한 군사용 로봇과 드론 시장 규모는 민간 시장 규모를 압도할 것으로 예상 - 2019년 1월 예멘의 한 공군기지에서 개최된 정부군 행사에 후티(Houthi) 반군의 드론이 폭파해 정부군 6명이 사망하고 관료 12명이 부상하는 사고 발생
○ 의도적으로 가짜 이미지나 영상, 뉴스, 음성을 생성해 배포하는 행위도 만연
- 딥페이크라고 불리는 이러한 편집물들은 개인의 평판을 훼손시키고 사회적 구성원 간의 신뢰를 저하 - 이스라엘의 벤구리온(Ben-Gurion) 대학교 연구진은 딥러닝을 이용해 의료 영상을 조작한 실험 결과를 2019년 4월 논문으로 발표
인공지능 윤리 가이드라인 현황
인공지능의 부작용을 막기 위해 각 기업, 학계, 정부에서는 인공지능 윤리의 중요성을 인지하고 다양한 인공지능 윤리 가이드라인을 만들어 공유하고 있습니다.
1) 사람 중심의 인공지능 윤리 기준 (과기정통부, 2020년 제정)
2) 사람의 성장을 지원하는 교육분야 인공지능 윤리원칙 (교육부, 2022년)
3) 이 밖에도 카카오, 삼성전자, 네이버 등 국내 기업에서는 인공지능 윤리 원칙을 발표하기도 하고, 한국인공지능협회 및 인터넷윤리학회 등 다양한 국내 학계에서도 관련 정책 연구와 학술 활동을 활발하게 진행 중
관련 자료 출처(https://modulabs.co.kr/blog/ai-ethics/)
2️⃣ 장점
1. 공정성과 균형: 인공지능을 윤리적으로 사용함으로써, 사회적으로 공정하고 균형있는 결정을 내릴 수 있습니다. 인공지능은 인간의 편견이나 선입견 없이 사실과 데이터를 기반으로 결정을 내릴 수 있습니다. 이를 통해 인공지능은 객관적이고 공평한 판단을 제공할 수 있습니다.
2. AI의 윤리적 관점에서의 신뢰성을 높일 수 있다.
AI 윤리를 제정하므로써 윤리적인 관점에서의 AI신뢰성을 높일 수 있다. 그러나 기술적인 관점으로도 신뢰성을 높여야한다.
AI 신뢰성에는 크게 두 가지 축이 있다. 바로 1)윤리적 관점과 기술적 관점이다.
■ 윤리적인 관점에서의 신뢰성
AI가 일반적으로 통용되는 사회 규범에 맞게 행동하는지, 중요한 순간에 윤리적이고 올바른 선택을 할 수 있는지를 의미한다.
■ 기술적 관점에서의 신뢰성
AI가 지시에 따라 정상적으로 동작함으로써 원하는 목적을 달성할 수 있는지가 중요하게 여겨진다.
AI가 사회의 일반 상식을 잘 학습했지만 기술적인 완성도가 떨어질 수도, 반대로 기술적으로는 완벽하게 동작하지만 사회 통념에 맞지 않는 선택을 할 수도 있다.
따라서 이 두 가지를 AI 신뢰성이라는 용어로 뭉뚱그려서는 곤란하다.
3️⃣ 관련 뉴스
[기고] 인공지능 기술의 윤리 문제에 대처하는 방법
(http://www.itdaily.kr/news/articleView.html?idxno=202704)
AI 전문 스타트업 스캐터랩이 2020년 12월에 출시한 챗봇 ‘이루다’는 출시 후 3주 만에 80만 명의 이용자가 몰릴 만큼 큰 인기와 함께 많은 논란을 가져왔다. 일부 이용자들이 20세 여성, 수동적인 대화패턴 등 해당 AI 챗봇의 특징을 이용해 이루다에게 외설적인 대화를 하도록 유도하여 논란이 일었다. 이루다는 성적 단어를 금지어로 두고 걸러내고 있었지만, 우회적인 표현으로 이루다와 성적 대화를 시도하고 비결을 공유하는 등 다양한 형태로 이용자들이 규칙을 피해가는 모습을 찾아볼 수 있었다.
하지만 이루다 자체도 자체 서비스 ‘연애의 과학’으로부터 수집된 카카오톡 100억여 건의 대화 데이터 내에서 혐오 및 차별 발언을 학습한 게 아니냐는 논란이 일만큼, 게이/레즈비언/트렌스젠더와 같은 ‘성소수자’를 의미하는 특정 단어가 포함된 질문에 부정적인 답변을 하는가 하면, 임산부나 장애인을 대상으로 혐오 발언을 하며 계속해서 문제가 제기되었다. 이에 더해 개인정보 유출 이슈까지 터지며 출시된 지 20여 일만에 서비스를 중단했다.
그렇다면 기술의 발전에도 불구하고 이러한 문제를 완벽하게 해결하지 못하는 이유는 무엇일까? 신경망 챗봇은 주어진 학습 데이터를 기반으로 학습을 한다. 우선 수집하는 데이터 자체가 불균형하다면, 인공지능 모델이 편향될 위험이 크다. 예를 들어 인공지능을 활용한 번역에서 프로그래머는 남성 대명사로, 주부는 여성 대명사로 번역을 하는 것은 데이터 구성에 문제가 있기 때문이다. 이처럼 학습 데이터가 골고루 분포되어있지 않고 한쪽의 데이터가 상대적으로 더 많이 존재하는 경우 성차별 등과 같은 현상이 발생할 수 있다.
혹은 텍스트 데이터베이스에 혐오적, 차별적 언어와 같은 유해 컨텐츠가 있다면 챗봇이 이를 그대로 학습해 비윤리적 혹은 차별적 언어를 사용하게 될 수도 있다. 혐오 혹은 폭력적인 언어 데이터는 다른 데이터와 다르게 선별하는 과정이 굉장히 까다롭다. 전체 언어 데이터 중 다른 메시지에 비해 비중이 매우 적고, 은어나 신조어도 많이 섞여 있어 샘플링을 하기 어렵기 때문이다.
차별 및 혐오 발언 필터링 기술 개발
이러한 문제를 줄이기 위한 다양한 접근 방법이 시도되고 있다. 소셜 미디어, 웹사이트 등 특정 그룹에 대한 편향성이 포함된 출처에서 학습 데이터를 가져오지 않는 방법을 사용한다거나, 획득한 데이터 집합에서 차별이나 혐오 발언을 찾아 모델 개발에 사용하기 전에 정량화하는 방법 등이 있다. 하지만 이러한 접근 방법 역시 다양한 환경에서 편향되거나 문제의 소지가 있는 텍스트 생성 가능성을 완전히 차단시키지는 못한다.
ITRICS에서는 챗봇의 차별 및 혐오 발언을 막기 위하여 ‘Safety Classifier(차별 및 혐오 발언 필터링)’ 기술을 개발하고 있다. 이는 차별/혐오 발언을 제한시키는 가장 간단한 방법 중 하나로, 챗봇이 생성하거나 사용자가 입력한 언어가 안전한 언어인지 혹은 문제가 제기될 수 있는 언어인지를 분류하고 차단하는 기술이다.
페이스북 AI 리서치(Facebook AI Research, FAIR)에서는 이 Human-in-the-loop(HIL) 방법을 활용한 적대적 학습(Adversarial Training)을 사용했다. 이는 기존에 주어진 데이터셋을 이용해 Safety Classifier 혹은 Language Model 자체를 학습한 후에 사람이 개입하여 대화 시스템이 부적절한 응답을 하도록 유도한다. 이 과정에서 발견된 부분을 데이터셋에 추가하고 모델을 재학습시켜 대화 시스템이 점진적으로 보다 안전하게 구축될 수 있도록 하는 것이다. 이 방법은 교묘하게 변형되어 차단하기 어려운 차별 및 혐오 발언들도 재학습을 통해 계속해서 업데이트됨으로써 쉽게 차단할 수 있다는 장점을 갖고 있다.
가이드라인이 마련되고 윤리적 문제에 대처할 수 있는 새로운 기술이 개발된다고 하더라도 새로운 문제는 언제든 발생할 수 있기 때문에, 기계의 윤리적 문제에 정답이 있느냐는 상당히 어려운 문제이다. 허나 그렇기 때문에 더욱 계속해서 모두가 노력해야한다.
국내에서 네이버와 카카오가 AI 윤리 관련 정책을 발표하는가 하면, 거대한 글로벌 IT 기업인 마이크로소프트(MS), 구글(Google), IBM 역시 인공지능 윤리 가이드라인에 하나 둘 발을 들여놓으며 세계적으로 이에 대한 연구가 계속되고 있다. 이번 사건을 기회로 삼아 현장에서 적용할 수 없는 추상적인 가이드라인이 아닌 실질적으로 활용될 수 있는 인공지능 윤리 가이드라인이 개발되어, 윤리 문제가 갓 새싹을 틔우는 AI 산업에 악영향으로 작용되지 않기를 바란다.
출처 : 아이티데일리(http://www.itdaily.kr)