A Tale of Two Identities: An Ethical Audit of Human and AI-Crafted Personas

Venkit Pranav NarayananLi JiayiZhou YingfanRajtmajer SarahWilson Shomir2025-05-282025-05-282025-05-07Venkit, P. N., Li, J., Zhou, Y., Rajtmajer, S., & Wilson, S. (2025). A Tale of Two Identities: An Ethical Audit of Human and AI-Crafted Personas. arXiv:2505.07850.arXiv ID: 2505.07850http://data.inu.ac.kr/handle/123456789/948LLM(대규모 언어 모델)이 건강, 프라이버시, 인간-컴퓨터 상호작용(HCI)과 같이 데이터가 제한된 분야에서 합성 페르소나를 생성하는 데 점점 더 많이 사용되면서, 이러한 서사가 정체성, 특히 소수자 집단의 정체성을 어떻게 표현하는지를 이해하는 것이 중요해졌습니다. 정밀 독해, 어휘 분석, 그리고 매개변수화된 창의성 프레임워크를 결합한 혼합 방법론을 통해, 총 1,512개의 LLM 생성 페르소나와 인간이 작성한 응답을 비교 분석하였습니다. 그 결과, LLM은 인종적 지표를 과도하게 강조하고, 문화적으로 암시된 언어를 과잉 생산하며, 문법적으로는 정교하지만 서사적으로는 단순화된 페르소나를 구성하는 경향이 있음이 드러났습니다. 이러한 경향은 고정관념화, 이국화, 지우기, 선의의 편향 등 다양한 사회기술적 해악을 야기하며, 이는 겉보기에 긍정적인 서사에 의해 종종 가려집니다. 이는 이러한 현상을 알고리즘 타자화로 개념화합니다. 이 과정에서 소수자 정체성은 과도하게 가시화되지만, 동시에 덜 진정성 있는 방식으로 표현됩니다. 이 연구를 바탕으로, 우리는 서사 인식적 평가 지표와 커뮤니티 중심의 검증 절차를 포함한 합성 정체성 생성에 대한 설계 권고안을 제시합니다.본 논문은 LLM이 생성하는 페르소나가 어떻게 특정 사회집단에 나타나는지 컴퓨팅 사회언어학과 HCI 프레임워크로 분석한다.en-USLLM-generated personasrepresentational harmalgorithmic otheringA Tale of Two Identities: An Ethical Audit of Human and AI-Crafted PersonasPreprint