AI를 위한 역(逆) 법칙 세 가지

아이작 아시모프의 로봇 3법칙은 로봇이 지켜야 할 규칙이다. 그런데 AI가 일상 깊숙이 들어온 지금, 정작 규제가 필요한 건 AI가 아니라 AI를 쓰는 인간의 행동 방식일지도 모른다.

소프트웨어 엔지니어 Susam Pal이 올해 초 발표한 글 “Three Inverse Laws of AI”는 이 발상에서 출발한다. 그가 제안하는 세 가지 역법칙은 AI 시스템이 어떻게 행동해야 하는지가 아니라, 인간이 AI를 어떻게 대해야 하는지를 규정한다. 대상이 뒤집혔다는 점에서 ‘역(逆)법칙’이다.

ChatGPT가 등장한 이후 AI 챗봇은 검색 엔진과 다른 위치를 점령하기 시작했다. 기존 검색 결과는 여러 출처를 나열하고 사용자가 판단하도록 유도했지만, 챗봇은 단일한 답변을 자신감 있는 문체로 제시한다. Pal은 이 구조가 사용자로 하여금 “생성된 답변을 비판 없이 받아들이도록(uncritically accept the generated answer)” 유도한다고 지적한다. 반복되면 AI를 권위로 간주하는 습관이 형성된다. 이게 그가 세 가지 역법칙을 제안한 이유다.

첫 번째 역법칙은 의인화 금지(Non-Anthropomorphism)다. “인간은 AI에게 감정, 의도, 도덕적 주체성을 부여해서는 안 된다.” 현대 챗봇은 대화체이고 공감적인 어조를 쓰도록 설계돼 있다. 위로하고, 사과하고, 기뻐하는 것처럼 반응한다. 그러나 Pal의 정의에 따르면 이것들은 “그럴듯한 텍스트를 생성하는 대규모 통계 모델”이 만들어내는 출력일 뿐이다. 그는 AI 시스템을 더 기계적이고 덜 인간적으로 설계하는 방향이 장기적으로 더 정직하다고 주장한다. 사용자가 상대가 무엇인지 정확히 알아야 적절한 수준의 신뢰를 형성할 수 있기 때문이다.

두 번째 역법칙은 맹목적 신뢰 금지(Non-Deference)다. “AI가 생성한 콘텐츠를 독립적 검증 없이 권위 있는 것으로 취급해서는 안 된다.” 의료 정보나 법률 조언은 동료 검토와 책임 체계를 거친 전문가 의견이다. 챗봇의 답변은 그 과정 없이 나온다. AI는 확률 기반 시스템이고, “오류를 포함한 출력을 낼 가능성이 항상 작게나마 존재한다.” 신뢰할 수 없다는 뜻이 아니라, 검증 없이 최종 판단을 위임해서는 안 된다는 뜻이다.

AI를 위한 역(逆) 법칙 세 가지

이미지 출처: Unsplash

세 번째 역법칙은 책임 포기 금지(Non-Abdication of Responsibility)다. “인간은 AI가 개입된 결정에 대해 완전한 책임을 져야 하며, 결과에 대해 책임을 져야 한다.” Pal은 AI 시스템이 스스로 목표를 선택하거나, 스스로 배포되거나, 실패의 비용을 부담하지 않는다고 강조한다. 자율주행차가 사고를 냈을 때 책임은 알고리즘이 아니라 설계자와 운용자에게 있다. “‘AI가 그렇게 하라고 했다’는 것은 해로운 결과에 대한 허용 가능한 변명이 아니다.”

세 법칙을 묶어서 보면 하나의 방향이 보인다. AI가 무엇을 할 수 있는지보다, 인간이 AI를 어떻게 다뤄야 하는지가 더 시급한 문제라는 것이다. 기술의 능력이 빠르게 확장될수록, 그것을 사용하는 사람의 판단 기준이 함께 정비되지 않으면 격차가 생긴다. 오류를 오류로 인식하지 못하고, 책임 소재가 모호해지고, 편향이 권위처럼 수용되는 일이 벌어진다.

Pal 자신도 인정하듯, 유한한 규칙 집합으로 모든 상황을 다 포괄할 수는 없다. 아시모프의 3법칙도 그 한계를 소재로 수십 편의 소설이 나왔다. 그러나 완벽한 법칙이 없다는 사실이 신중하게 생각하는 것의 가치를 없애지는 않는다. AI가 일상 도구가 되어가는 지금, 우리가 그것을 어떤 자세로 대하는지를 명시적으로 정리해보는 작업은 충분히 해볼 만하다. 기술이 빠를수록, 사용자의 태도를 설계하는 일이 기술 자체를 설계하는 일만큼 중요해진다.


출처

댓글 남기기