얼굴 위변조 방지를 위한 IR 영상의 활용
IR 영상은 얼굴 위변조 공격 방지에 어떤 도움을 줄 수 있을까요?들어가며딥러닝의 발전에 힘입어 얼굴 인식을 위한 연구도 활발히 진행되고 있습니다. 실제로 얼굴 인식 모델들의 전반적인 성능 역시 점점 더 발전해나가고 있으며 과거 얼굴 인식 모델들에 비해 더욱 높은 정확도를 보여주고 있습니다. 얼굴 인식의 발전에 힘입어 우리는 인증이 필요한 상황에서 얼굴을 이용하여 간편하게 인증을 할 수 있게 되었습니다. 그러나 이에 따라 위변조 한 얼굴이 인증 시스템을 위협하는 사례들이 생겨나기 시작했습니다. 일반적인 얼굴 인증 시스템에서는 가시광선 영역에 대한 컬러 영상을 사용하는데, 컬러 영상이 가지고 있는 특성으로 인해 밝기 변화와 특정 위변조 위협에 취약한 모습을 보입니다. 이러한 문제점을 해결하기 위하여 얼굴 인식에 적외선 영상을 활용하는 연구가 진행되었습니다. 실제 [10], [11] 연구에서는 RGB 영상과 IR 영상을 같이 활용했을 때 모델이 위변조 얼굴을 더 잘 탐지하는 결과를 보여주었습니다. 그렇다면 IR 영상은 어떠한 특징이 있기에 위변조에도 강건한 모습을 보이는 것일까요? 본문에서는 IR 영상이 무엇이며 위변조 방지 분야에서 어떻게 활용될 수 있는지를 알아보겠습니다.IR 이란?정의IR 이미지 데이터에 대해 알아보기에 앞서 적외선(Infrared, IR)에 대해서 이해할 필요가 있습니다. 적외선은 전자기파를 파장에 따라 분해한 전자기 스펙트럼 (Electromagnetic spectrum)에서 약 0.75um ~ 12um 의 파장을 가지는 구간입니다. 일반적인 컬러 영상은 사람의 눈으로 볼 수 있는 가시광선 영역에 해당되고, 가시광선은 약 390nm ~ 750nm 구간에 속합니다종류 [그림 1] 적외선 스펙트럼 [8].적외선의 종류는 여러가지가 있습니다. 먼저, 적외선 중 가장 짧은 파장에 속하는 near IR (NIR) 부터 시작해서 short wave IR (SWIR), medium wave IR (MWIR), 그리고 가장 긴 파장에 속하는 long wave IR (LWIR) 까지 총 4종류가 있습니다.IR 영상의 특징 및 활용 적외선 카메라를 이용하여 영상을 촬영하게 되면 사람이 육안으로 볼 수 없는 적외선 영역에서의 정보들이 담긴 영상을 얻을 수 있습니다. 앞서 언급한 것처럼, 적외선은 4 종류로 분류가 되고 각 적외선 영역에서 취득한 영상들은 고유의 특징이 존재합니다. 얼굴 인식 분야에서는 적외선 영상의 고유의 특징을 이용하여 일반적인 컬러 영상만을 이용하였을 때의 한계를 극복하고자하는 연구가 진행되고 있습니다.NIR 영상의 특징NIR 영상은 색상이 다양하게 나타나는 RGB 컬러 영상과 다르게 흑백 형태를 띕니다. NIR 영상의 특징은 일반적인 RGB 영상에 비해 조명의 영향을 훨씬 적게 받는 다는 것입니다. RGB 영상에서는 조명의 변화에 따른 영상 속 물체의 색 변화가 눈에 띄게 일어나는 반면에, NIR 영상에서는 조명의 변화가 있는 환경에서 영상 속 나타나는 색의 변화가 적고, 어두운 환경에서도 물체를 식별할 수 있습니다. 또한, NIR 영상에서는 실제 사람의 피부로부터 일어나는 빛의 반사와 가짜 얼굴 영상 (인쇄된 얼굴 사진, 전자기기 화면 속 나타나는 얼굴 사진, 고무, 실리콘) 에서 일어나는 빛의 반사가 다르게 나타나는 특징 역시 존재합니다. [그림 2] 조명 위치에 따라 얼굴 절반이 가려지기도 하는 RGB 영상 [4]. [그림 3] 조명 위치와는 상관없이 온전한 얼굴 정보를 얻을 수 있는 NIR 영상 [4]. [그림 4] 실제 얼굴 이미지와 위조 얼굴 이미지에 대한 컬러 이미지, NIR 이미지의 차이그러나, 햇빛이 있는 실외 환경에서는 실내 환경의 NIR 보다 훨씬 더 많은 NIR이 존재하고, 이는 얻고자 하는 얼굴 영상의 품질을 저하시킵니다. [5] 연구에서는 실외 환경에서 촬영되는 NIR 영상의 품질 저하를 막기위해 좁은 영역의 NIR를 방출하는 조명과 좁은 영역의 NIR를 통과시키는 필터를 사용한 카메라를 사용했습니다. 추가적으로, NIR 영상은 사물과 카메라간의 거리가 멀어질수록 영상의 품질이 일반적인 영상의 경우보다 더욱 저하된다는 특징도 존재합니다. [그림 5] 햇빛이 강한 환경에서 획득한 NIR 얼굴 영상 [5].NIR 영상의 활용NIR 영상은 컬러 영상과는 다르게 조명 영향을 덜 받는다는 특징이 있습니다. 이러한 특징을 이용하여 조명 변화가 잦은 곳에서 인증 시스템을 운영하거나 밤이나 조명이 어두운 환경에서 일어날 수 있는 범죄를 예방하기 위한 방범용 시스템 등으로 활용될 수 있습니다.또 다른 특징으로 NIR 영상은 실제 얼굴 이미지와 위조 얼굴 이미지간 빛 반사 특징의 차이를 잘 보여줍니다. 이를 통해 얼굴 위변조 방지(FAS, Face Anti-Spoofing) 분야에서 가짜 얼굴을 판별하는 용도로 쓰일 수 있습니다. [7] 에서는 인쇄된 가짜 얼굴과 3D 마스크를 쓰고 있는 얼굴 위변조 공격에 대해서 가시광선 영역 영상인 VIS (visible spectrum) 영상과 퓨전 영상(VIS + NIR) 영상에 대한 위변조 방지 모델의 성능을 비교하였습니다. 여기서 퓨전은 두 종류의 영상을 합치는 (concatenate) 것을 의미합니다. 합쳐진 영상은 각각의 convolution neural network를 통과합니다. 퓨전은 3 종류로 나누어 진행되었는데, 그 종류는 영상 데이터 단계에서 두 영상을 합친 것 (data level fusing), 5 convolution layers를 통과한 영상을 합친 것 (convolution level fusing), 마지막에서 두 번째 fully-connected layer 단계에서 영상을 합친 것 (fully-connected level) 입니다. 실험에 대한 결과로, 3 종류의 퓨전을 통해 통과하여 나온 각각의 예측 결과를 다 이용한 scoring fusing result가 가장 낮은 에러율을 보여주었습니다. 또한, PA (Presentation Attack) 방법에 따른 모델의 에러율도 비교하였는데, 인쇄된 가짜 얼굴에 대해서는 NIR 영상만 사용했을 때 VIS 영상만 사용했을 때 보다 우월한 성능을 보여주었고, 인쇄된 얼굴과 3D 마스크를 같이 이용했을 때 역시 같은 결과를 보여주었습니다. 최종적으로 VIS 영상과 NIR 영상을 같이 사용하는 경우에는 가장 낮은 에러율을 가지는 결과를 보여주었습니다. [그림 6] (좌) 디스플레이 공격을 촬영한 일반 컬러 영상(우) 디스플레이 공격을 촬영한 NIR 영상 [7].SWIR 영상의 특징SWIR 영상은 NIR 영상과 공통적인 특징이 있으면서도 또 다른 특징이 있습니다. SWIR 영상은 NIR 영상처럼 조명의 변화에 대해 영향을 적게 받는 특징이 있고, 햇빛이 있는 환경에서는 민감하게 반응한다는 점이 있습니다. NIR 영상과 다르게 SWIR 영상이 가지고 있는 특징은 물이 존재하는 영역을 영상을 통해 확인할 수 있다는 점입니다. 물은 파장이 약 1430nm 인 범위에 해당하는 빛을 흡수하는데, 이에 해당하는 영역에 대한 SWIR 영상 속 물이 존재하는 영역은 어둡게 나타납니다. SWIR 영상의 활용SWIR 영상의 특징은 얼굴 영역에 대해 피부 혹은 피부가 아닌 물질을 구별하는 것에 활용될 수 있으며, FAS 영역에서 얼굴 위변조 공격을 방지하는데에도 활용될 수 있습니다. 실제 얼굴의 경우 수분이 존재하여 SWIR 영상으로 촬영했을 때 얼굴 영역이 어둡게 나타나는 반면 그러나 얼굴 위변조에 사용되는 종이, 디스플레이 기기 등은 수분이 존재하지 않아 밝게 나타나므로 쉽게 공격을 탐지할 수 있습니다. [그림 7] 일반적인 얼굴과 종이 마스크를 착용했을 때의 얼굴에 대하여 파장의 차이에 따른 영상. 가시광선 (좌측), 940nm 파장 (중앙), 1450nm 파장 (우측) [3].MWIR, LWIR적외선 중 NIR, SWIR 보다 파장이 긴 적외선을 열적외선 (Thermal infrared) 라고 합니다. 여기에 해당하는 것이 MWIR, LWIR 입니다. 사람의 몸에서는 열 에너지가 방출되는데, [그림 3]을 보면 대부분의 열 에너지는 LWIR 영역에서 방출되고, MWIR 영역에서도 상당량의 열이 방출되는 것을 볼 수 있습니다. MWIR과 LWIR를 합친 구간을 열적외선이라고 부릅니다. 따라서 MWIR, LWIR 영상을 통해 우리는 전체 영상 속에서 사람의 얼굴을 포함한 열을 지닌 물체들을 쉽게 탐지할 수 있습니다. [그림 8] 적외선 구간별 몸의 열방출 정도 [1].그런데, MWIR 영상과 LWIR 영상은 주변 환경의 온도, 감정 상태, 신체적 특징, 건강 상태에 영향을 받습니다. 또한, MWIR, LWIR 영상은 음주 여부와 안경 착용 유무에도 영향을 받습니다. 안경을 착용한 경우에는 안경이 가리고 있는 영역에서 방출되는 열 정보가 가려져 영상에 나타나기에 중요할 수도 있는 정보를 얻지 못하게 됩니다. [그림 9] 온도에 따른 열적외선 영상. 따뜻한 날씨 (좌측), 추운 날씨 (우측) [1]. [그림 10] 안경을 착용했을 때의 가시광선 영역에 대한 영상 (좌측), 열적외선 영역에 대한 영상 (우측) [1].MWIR, LWIR 영상의 활용MWIR, LWIR 영상의 특징 역시 얼굴 위변조 감지에 활용될 수 있습니다. [12] 연구에서는 2D attacks (종이 인쇄한 얼굴 사진, 화면을 통해 나오는 사진 및 동영상) 으로 훈련된 모델을 훈련에서는 보지 못한 유형인 3D attacks (실리콘 마스크, 종이 마스크 등) 데이터로 평가하였을 때 ACER (Average Classification Error Rate) 값을 보여주었습니다. 흑백, 깊이, IR 이렇게 3 종류의 영상을 사용했을 때 보다 Thermal 영상까지 4 종류의 영상을 사용하여 학습시켰을 때 ACER 값이 13.4% 감소하는 결과를 보여주었습니다. 이러한 결과는 얼굴을 가릴 때 해당 부위에 대한 체온 정보가 사라지는 Thermal 영상의 고유한 특징을 활용한 점을 보여줍니다.IR 데이터셋 구축파이프라인IR 데이터셋 구축을 위해서는 다음과 같은 과정이 필요합니다.얻고자 하는 영상의 해상도, 적외선 영역에 따라 영상을 촬영할 카메라 모델을 선택합니다.조명의 위치, 얼굴과 카메라 간의 거리, 얼굴과 카메라 간의 각도와 같은 촬영 환경에 대한 조건을 결정합니다.다양한 구성의 위변조 얼굴 영상 종류를 설정합니다. (인쇄된 얼굴, 화면을 통해 재생되는 동영상, 3D 마스크, 화장, 문신 등)고려 요소외부 환경에서 NIR 영상 촬영시 햇빛에 포함된 NIR이 얻고자 하는 영상의 품질을 떨어뜨릴 수 있다는 점이 있습니다. 또한, 햇빛이 없거나 조명이 없는 환경에서는 NIR 영상을 얻기위하여 NIR 조명이 필요합니다. 이러한 특징은 SWIR 영상을 촬영할 때도 고려되어야 할 요소입니다. Thermal 영상 촬영에 있어서는 안경 착용 유무에 대한 점과 주변 환경의 온도, 촬영시점에 대한 사람의 상태(기분, 건강상태, 음주여부 등)가 고려되어야할 점이 됩니다. Thermal 영상을 모델 학습 및 평가에 사용하는 경우, 3D 마스크를 착용하는 영상에 대해서는 마스크에 열을 가하여 모델이 쉽게 맞추지 못하도록 데이터를 구성하는 방법도 고려될 수 있습니다.FAS를 위한 학습된 모델은 학습 데이터에 대한 성능은 우수할 수 있지만, 실제 환경에 대해서 성능이 눈에 띄게 떨어질 수 있습니다. 실제 환경은 학습 데이터와 다른 환경 조건을 가질 수 있고, 다양한 Presentation Attack이 존재할 수 있기에 데이터를 구성할 때 다양한 환경과 여러 종류의 Presentation Attack을 고려하여 구성되어야 합니다.마치며‘얼굴 위변조 방지기술’은 언택트 서비스(비대면 인증, 온라인 수업, 원격근무 등)에 간편한 얼굴인증을 적용하기 위해 반드시 필요하며, 이는 타인의 얼굴로 얼굴인식시스템을 통과하는 ‘가짜 얼굴’을 가려내는 기술입니다. 씨유박스는 2020년 한국지능정보사회진흥원(NIA)의 ‘AI 학습용 데이터 구축사업’을 수주하여 얼굴 위변조 방지를 위한 대규모 데이터셋을 성공적으로 구축하였습니다. 씨유박스는 해당 사업을 통하여 3-modal (RGB, Depth, IR) 얼굴 데이터셋을 구축부터 응용 서비스 개발까지 노하우와 경험을 쌓았고, 축적된 경험과 기술력을 바탕으로 씨유박스는 2021년 국내 최초로 ‘얼굴 위변조 방지기술 인증(ISO/IEC 30107-3)’을 받았습니다. ISO/IEC 30107-3 인증은 위변조 방지 기술력을 객관적으로 입증할 수 있는 인증이며, 인증을 받기 위해서는 미국의 소프트웨어 검수 기관인 ‘iBeta’의 PAD(Presentation Attack Detection) 테스트를 통과해야 합니다. 이러한 씨유박스의 결실은 건물 출입관리에서 모바일 금융거래에 이르기까지 얼굴인식시스템이 더욱 안전하고 편리하게 적용될 수 있도록 하는 밑바탕이 되고 있습니다. CUBOX는 NIST에서 주관하는 얼굴 인식 대회인 FRVT(얼굴 인식 알고리즘 기업 테스트, Face Recognition Vendor Test)에서 1:1, 1:N 모두 세계 1위, 국내 1위 성적을 보유하고 있습니다. (2021년 11월) 이러한 기술력을 인정 받아 인천공항, 정부 청사의 얼굴 출입 시스템을 직접 구현하여 운영하고 있습니다. CUBOX AI LAB은 Face re-identification, Face detection, Face Mask Effect, Face Anti-Spoofing 등 얼굴 인식 기술 전반에 대한 독자적인 모델 연구를 진행하고 있으며, 관련 데이터셋 구축 사업 역시 진행하고 있습니다. 본문의 글이나 CUBOX AI LAB 연구에 대한 문의사항이 있으시거나 AI LAB과 함께하고 싶으신 분들은 언제든지 연락 주시기 바랍니다. References[1] Ghiass, Reza Shoja, et al. "Infrared face recognition: A comprehensive review of methodologies and databases." Pattern Recognition 47.9 (2014): 2807-2824.[2] Bourlai, Thirimachos, ed. Face recognition across the imaging spectrum. Springer, 2016.[3] Heusch, Guillaume, et al. "Deep models and shortwave infrared information to detect face presentation attacks." IEEE Transactions on Biometrics, Behavior, and Identity Science 2.4 (2020): 399-409.[4] Li, Stan Z., et al. "Illumination invariant face recognition using near-infrared images." IEEE Transactions on pattern analysis and machine intelligence 29.4 (2007): 627-639.[5] Yi, Dong, et al. "Outdoor face recognition using enhanced near infrared imaging." International Conference on Biometrics. Springer, Berlin, Heidelberg, 2007.[6] Yu, Zitong, et al. "Deep learning for face anti-spoofing: A survey." arXiv preprint arXiv:2106.14948 (2021).[7] Jiang, Fangling, Pengcheng Liu, and Xiangdong Zhou. "Multilevel fusing paired visible light and near-infrared spectral images for face anti-spoofing." Pattern Recognition Letters 128 (2019): 30-37.[8] Weidlich, Vincent A. "Thermal Infrared Face Recognition." Cureus 13.3 (2021).[9] George, Anjith, et al. "Biometric face presentation attack detection with multi-channel convolutional neural network." IEEE Transactions on Information Forensics and Security 15 (2019): 42-55.[10] Liu, Ajian, et al. "Casia-surf cefa: A benchmark for multi-modal cross-ethnicity face anti-spoofing." Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2021.[11] Shen, Tao, Yuyu Huang, and Zhijun Tong. "Facebagnet: Bag-of-local-features model for multi-modal face anti-spoofing." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2019. [12] George, Anjith, and Sébastien Marcel. "Learning one class representations for face presentation attack detection using multi-channel convolutional neural networks." IEEE Transactions on Information Forensics and Security 16 (2020): 361-375.About Author 김 태 오Pro, AI 3팀tokim@cubox.ai
- IR
- FaceAntiSpoofing