프로젝트 개요
프로젝트 요약:
Sori Album은 시각장애인의 시각적 접근성을 향상시키기 위해 설계된 갤러리 애플리케이션입니다. 사용자는 사진을 업로드하거나 촬영하면 구글의 Gemini AI가 생성한 간결한 이미지 설명을 받을 수 있습니다. 이 설명은 해당 사진과 함께 자동 저장되어, 사용자가 갤러리를 탐색할 때 스크린 리더가 각 캡션을 읽어줍니다.
더 깊은 이해를 원할 경우, 사용자는 "상세 이미지 설명" 버튼을 눌러 GPT-4o가 제공하는 풍부한 해석을 받을 수 있습니다. 이 해석은 시각적 내용뿐 아니라 사진의 분위기, 표정, 맥락적 요소까지 포함합니다. 또한 "텍스트 스캔" 기능을 선택하면 이미지 내 인쇄된 텍스트를 추출하여 접근할 수 있습니다. 앨범에 사진을 저장한 후에는 쉽게 검색하거나 직접 설명을 수정하고, 다른 사람 또는 플랫폼과 사진을 공유할 수 있습니다.
Sori Album은 시각장애인들이 자신의 시각적 콘텐츠를 보다 의미 있고 독립적으로 탐색, 정리하며 완전하게 소유할 수 있도록 지원합니다.
문제 인식
사회적 문제:
시각장애인들은 스크린 리더를 통해 디지털 환경에서 텍스트를 음성으로 변환해 정보를 접합니다. 그러나 대부분 이미지에 적절한 대체 텍스트가 제공되지 않아 시각적 콘텐츠를 인지할 수 없습니다. 다양한 법적 규제와 접근성 가이드라인이 도입되었음에도 불구하고 효과는 미미합니다.
이 문제는 Sigongan 팀이 150명 이상의 시각장애인을 대상으로 실시한 인터뷰를 통해 명확히 드러났습니다. 이 인터뷰 결과, 소셜 미디어에 업로드되거나 카카오톡 같은 메시징 플랫폼에서 공유되는 대부분의 이미지 기반 정보는 시각장애인에게 접근 불가능함이 밝혀졌습니다. 이미지 내용을 인지하지 못하는 것 외에도, 이미지 기반 인증, 중요 이미지 정보 저장 및 조회, 개인 사진 온라인 공유 등에서 추가적인 어려움을 겪고 있습니다. 이러한 상황은 디지털 환경의 한계로 인해 시각장애인에게 큰 장벽으로 작용합니다.
혁신과 독창성
우리 프로젝트의 차별점:
Sori Album은 시각장애인 전용으로 설계된 최초의 AI 기반 갤러리 앱으로, 사용자가 독립적으로 사진에 접근하고 관리할 수 있도록 합니다. 기존 서비스가 간단하고 일회성 설명만 제공해 한번 본 후 사라지는 반면, Sori Album은 사진과 상세 설명을 함께 저장하여 사용자가 언제든지 시각적 기억을 다시 방문하고 정리할 수 있습니다.
구글의 Gemini AI를 통한 초기 캡셔닝, GPT-4o를 활용한 심층 맥락 설명, NAVER HyperCLOVA OCR을 통한 정밀 텍스트 추출 등 첨단 기술을 결합하여 포괄적이고 의미 있는 시각 정보 접근을 제공합니다. 200명 이상의 시각장애인 인터뷰와 접근성 가이드라인을 엄격히 반영한 사용자 중심 설계로 실제 요구와 행동을 충실히 반영했습니다.
Sori Album은 수동적 이미지 소비를 능동적이고 몰입감 있는 경험으로 전환하여 디지털 포용성의 중요한 공백을 메우고, 시각장애인들이 자신의 시각 콘텐츠를 완전하게 소유하고 상호작용할 수 있게 합니다.
통찰과 개발
학습 과정:
Sori Album 개발 과정에서 디지털 배제가 시각장애인에게 미치는 영향을 깊이 이해하게 되었습니다—특히 사진 접근성과 관련하여. 200명 이상의 시각장애인 인터뷰를 통해 사진 속 내용을 단순히 ‘알고 싶어 하는 것’이 아니라, 시각 사용자처럼 ‘정리하고, 다시 보고, 공유하고 싶어 한다’는 중요한 인사이트를 얻었습니다. 이로 인해 단순한 설명 생성에서 벗어나 완전히 탐색 가능한 갤러리 구축에 집중하게 되었습니다.
이를 위해 스크린 리더 호환성을 고려한 UI를 최적화하고, 시각장애인이 실제로 스마트폰을 사용하는 방식을 연구했습니다. 또한 이미지 설명 가이드라인을 적용해 맥락이 풍부하고 실질적인 도움을 주는 캡션을 만들었습니다. 이러한 인사이트 덕분에 단순한 접근성 앱이 아닌, 진정한 사용자 중심 앱을 완성할 수 있었습니다.
개발 과정:
150명 이상의 시각장애인 인터뷰와 시각장애인 개발자의 피드백을 토대로 가장 직관적인 UI/UX 디자인을 완성했습니다. 화면 구성은 Figma로 설계하였고, Flutter를 사용해 개발했습니다. 백엔드는 Firebase를 사용하며 AI 기능은 Python으로 개발했습니다. 배포 후 팀원들이 스크린 리더를 활용해 앱을 체계적으로 사용하며 사용자 흐름을 검토하고, 시각장애인 경험에 직접적으로 영향을 미치는 적절한 포커스 이동과 라벨링 여부를 꼼꼼히 점검합니다. 또한 Few-Shot learning 등 다양한 기법을 활용한 프롬프트 엔지니어링으로 AI 기반 대체 텍스트 생성 모델을 고도화하고 있습니다.