최예진
(Ye-Jin Choi)
1iD
유태현
(Tae-Hyun Ryu)
1iD
정인영
(In-Yeong Jung)
1iD
황영배
(Youngbae Hwang)
†iD
-
충북대학교 지능로봇공학과
(Dept. of Intelligent Robotics Engineering, Chungbuk National University, Cheongju,
28644, Republic of Korea.)
Copyright © The Korean Institute of Electrical Engineers
Key Words
Automated Attendance System, Pose Estimation, Face Recognition, Supervised Contrastive Learning
1. 서 론
교실 환경에서의 출석 관리는 교육 과정 내에서 학습자의 참여 여부를 확인하는 중요한 절차로, 전통적인 대학 강의뿐 아니라 비대면 강의, 온라인 세미나,
대규모 교육 프로그램 등 다양한 교육 현장에서 공통으로 요구된다. 그러나 현재 널리 사용되는 수기 출석 방식은 강의 시간의 일부를 소모하게 하며,
교수자가 다수의 학생 이름을 반복적으로 호명해야 한다는 점에서 운영 부담이 크다. 또한 대리 출석, 인원 누락, 기록 오류와 같은 문제가 발생할 가능성이
높아 교육 현장의 신뢰성과 효율성을 저해하는 요소로 지적됐다.
본 연구에서는 이러한 문제점을 보완하기 위해 출석 의도를 명시적으로 표현하는 손들기 동작을 선행 조건으로 활용하고, 해당 조건을 만족한 경우에만 얼굴
인식을 수행하는 단계적 자동 출석 시스템을 제안한다. 시스템은 TTS(Text-to-Speech)를 통해 학생의 이름을 호출하고, 손들기 동작이 감지되면
얼굴 인식을 통해 학생의 신원을 확인한다. 이를 통해 추가적인 사용자 입력 없이도 효율적이고 정확한 출석 확인이 가능하다.
손들기 동작 검출에는 YOLOv11-Pose[1] 모델을 적용하여 제스처를 안정적으로 식별하도록 하였다. 얼굴 인식 단계에서는 FaceNet[2] 기반 임베딩 모델을 사용하였으나, 원본 FaceNet은 서구권 인물이 다수 포함된 데이터 세트로 학습되었기 때문에 동아시아인의 얼굴 특징을 충분히
반영하지 못할 가능성이 있다. 이를 보완하기 위해 본 연구에서는 지도 대조 학습[3] 기법을 활용하여 한국 연예인 50명의 얼굴 이미지로 구성된 1,000장의 데이터 세트를 기반으로 모델을 미세 조정하였다.
지도 대조 학습 기반 미세 조정을 적용한 모델은 사전 학습된 FaceNet 대비 동일 인물 간 임베딩 응집도가 증가하고, 서로 다른 인물 간 분리도가
개선되는 경향을 보였다. 이는 동아시아 얼굴 특성을 반영한 재학습이 얼굴 인식의 안정성과 정확도를 향상시킴을 의미하며, 실제 출석 시스템에서 신원
확인의 신뢰도를 확보하는 데 기여할 수 있다.
2. 관련 연구
2.1 자세 추정
사람의 신체 자세를 추정하기 위한 연구는 컴퓨터 비전 분야에서 꾸준히 발전해 왔고, 그 과정에서 다양한 모델과 접근 방식이 제안되어왔다. OpenPose[4]는 초기 다중 인물 자세 추정의 흐름을 주도한 모델로, PAFs(Part Affinity Fields)를 활용해 각 관절 위치와 관절 간 연결성을
동시에 추정하는 구조를 갖는다. 이 기법은 인원이 많은 환경에서도 비교적 안정적인 성능을 보여 실시간 2D 자세 분석의 대표적인 기준이 되었다. 또한
신체 주요 관절뿐 아니라 얼굴, 손, 발과 같은 세밀한 특징점까지 확장 지원한다는 점에서 활용 폭이 넓다. MediaPipe Pose[5]는 구글이 모바일 환경을 고려해 개발한 경량 모델로, 두 단계 구조를 통해 빠른 실행 속도와 낮은 계산량을 실현한다. 기기 성능이 제한적인 환경에서도
동작할 수 있어 상용 서비스 개발에서 널리 사용되고 있다. 그러나 속도를 우선으로 설계된 만큼, 복잡한 자세나 극단적인 자세 변화에서는 정확도가 다소
떨어지는 경우가 보고되기도 한다.
반면 HRNet[6]은 고해상도 특성 맵을 네트워크 전체에서 유지하는 독특한 구조를 통해 자세 추정 정확도를 크게 향상했다. 다양한 벤치마크에서 매우 높은 성능을 보이지만,
고해상도 계산을 지속해야 하기 때문에 연산 비용이 상당히 크다는 단점이 있다. ViTPose[7]는 비전 트랜스포머(ViT, Vision Transformer) 기반의 구조로, 넓은 receptive field를 활용하여 표현력이 뛰어난 특징을
학습할 수 있다. 다만 트랜스포머 특유의 높은 계산 복잡도 때문에 실시간 시스템에는 쉽게 적용하기 어렵다.
이러한 흐름 속에서 YOLO(You Only Look Once) [8] 계열 모델은 빠른 추론 속도와 만족할 만한 정확도를 동시에 제공한다는 점에서 다양한 응용 분야에서 선택되어 왔다. 최근 YOLO 기반 연구들은 객체
탐지뿐 아니라 사람의 관절점을 함께 추정하는 방식으로 확장되고 있으며, 단일 네트워크로 두 가지 작업을 결합하는 효율성이 주목받고 있다. 특히 YOLOv11-Pose는
기존 모델들보다 경량화된 구조임에도 여러 신체 특징점을 한 번의 전방향 추론으로 예측할 수 있어, 멀티카메라 환경이나 군중이 많은 장면에서도 실시간
처리가 가능하다.
이러한 특성은 교실과 같이 사람이 다수 존재하고, 짧은 시간 안에 제스처를 인지해야 하는 상황에서 큰 장점을 제공한다. 특히 손들기와 같이 명확한
출석 신호를 신속하게 감지해야 하는 자동 출석 시스템에서는 높은 프레임 처리 속도(frames per second, FPS)와 효율적인 구조를 가진
모델이 필수적이며, YOLOv11-Pose는 이러한 요구 조건을 충족한다는 점에서 적합한 선택지로 판단된다.
2.2 얼굴 인식
얼굴 인식 분야에서는 입력 얼굴을 고차원 임베딩 공간으로 매핑한 뒤, 임베딩 간 유사도를 비교하여 동일 인물 여부를 판단하는 방식이 널리 활용되고
있다. 이러한 임베딩 기반 접근은 단순 분류 방식과 달리, 새로운 사용자가 등장하더라도 모델을 다시 학습하지 않고 임베딩 간 거리 계산만으로 신원
확인이 가능하다는 점에서 실용성이 높다. 특히 출석 관리처럼 사용자 집단이 변동될 수 있는 응용 환경에서는 임베딩 기반 방식의 장점이 더욱 부각된다.
초기 얼굴 인식 모델 중 하나인 VGGFace2[9]는 대규모 얼굴 데이터 세트를 기반으로 학습된 대표적인 심층 신경망 구조 기반 모델로, 다양한 조명·표정·자세 변화에 대해 강인한 특징 표현을 학습할
수 있다는 장점을 지닌다. 특히 동일 인물에 대해 폭넓은 동일 클래스 내 변동성을 포함하도록 설계된 데이터 세트를 사용함으로써, 실제 환경에서 안정적인
얼굴 표현 학습이 가능하다는 점이 강조된다. 그러나 이러한 분류 기반 모델들은 학습 단계에서 정의된 클래스 집합을 기준으로 최적화되기 때문에, 시스템
운영 중 새로운 사용자가 등장할 경우 네트워크를 다시 학습해야 하는 구조적 한계가 존재한다.
이후에는 이러한 한계를 극복하기 위해 임베딩 공간의 분리도를 강화하는 다양한 접근이 제안되었다. 대표적으로 SphereFace[10]는 angular softmax 방식을 도입하여 동일 인물 간 각도 거리는 줄이고, 서로 다른 인물 간 각도 마진을 넓힘으로써 임베딩 공간을 더욱
명확하게 분리하는 방법을 제안하였다. SphereFace는 학습의 안정성이 다소 민감하다는 단점이 있지만, 얼굴 인식 성능 향상에 중요한 기반을 제공하였고
이후 등장한 CosFace, ArcFace 등 마진 기반 손실 함수 연구의 방향을 제시하였다.
이러한 발전 흐름 속에서 FaceNet은 트리플렛 손실(triplet loss)을 활용하여 동일 인물 임베딩은 가깝게, 다른 인물 임베딩은 멀어지도록
학습하는 임베딩 기반 얼굴 인식 구조를 확립하였다. FaceNet은 분류 기반 모델에서 발생하는 클래스 재학습 문제를 해결하고, 실제 환경에서 다양한
사용자 그룹을 유연하게 처리할 수 있다는 점에서 활용도가 높다.
본 연구에서는 이러한 특성을 고려하여 FaceNet을 기본 구조로 선택하였다. 더 나아가 동아시아인의 얼굴 특징을 효과적으로 반영하기 위해 지도 대조
학습을 활용해 모델의 재학습함으로써 임베딩 공간에서 클래스 내 응집도는 높이고 클래스 간 분리도는 개선하였다.
2.3 지도 대조 학습
지도 대조 학습[3]은 대조 학습을 지도학습 환경에 적용하여 확장한 방식으로, 얼굴 인식 모델의 임베딩 품질을 향상하는 데 널리 활용되고 있다. 지도 대조 학습은 배치
단위에서 동일 클래스에 속하는 모든 표본을 양성(positive)으로 처리하고, 다른 클래스 표본을 음성(negative)으로 구성하여 하나의 앵커(anchor)에
대해 여러 관계를 동시에 학습한다. 이러한 구조는 특정 삼중쌍에 의존하는 트리플렛 손실과 달리, 배치 내 정보 활용도가 높아 학습 안정성이 개선된다는
특징이 있다.
또한 지도 대조 학습은 조명 변화, 촬영 각도, 표정 등으로 인해 동일 인물의 이미지가 큰 클래스 내 변동성을 보이는 얼굴 인식 분야에서 특히 효과적으로
활용된다. 여러 양성 표본을 함께 고려하여 학습하기 때문에 동일 인물의 임베딩이 보다 일관된 형태로 모이도록 유도하며, 클래스 간 분리도 역시 자연스럽게
강화된다. 이러한 특성은 서로 다른 조건에서 획득된 얼굴 이미지가 섞여 있는 실제 환경에서 임베딩 기반 신원 구분의 안정성을 높이는 데 도움이 된다.
3. 제안 방법
제안하는 시스템의 전체 흐름은 그림 1에 제시되어 있다. 실시간 영상이 입력되면, 먼저 YOLOv11-Pose 모델을 이용하여 손들기 동작을 탐지한다. 특정 인물이 손을 든 것으로 판단된
경우에만 얼굴 영역을 추출하여 신원 확인 절차를 수행한다. 이러한 조건부 구조는 불필요한 연산을 줄이고, 오탐지로 인해 얼굴 인식이 과도하게 수행되는
문제를 방지하는 데 효과적이다. 시스템을 구성하는 주요 모듈은 두 단계로 이루어져 있으며, 자세 추정 모듈의 세부 구성은 3.1절에서, 얼굴 인식
구조는 3.2절에서 설명한다.
그림 1. 제안한 출석 시스템의 전체 처리 흐름도
Fig. 1. Overall processing flow of the proposed attendance system
3.1 자세 추정 모듈
본 연구에서는 출석 의사를 나타내는 손 들기 동작을 실시간으로 인식하기 위해 YOLOv11m-Pose 모델을 활용하였다. 이 모델은 기본 YOLOv11
구조에 경량화된 특징점 추정 헤드를 추가한 형태로 구성되어 있으며, 한 번의 추론으로 사람 한 명당 17개의 관절점을 동시에 예측할 수 있다. 입력
영상은 USB 웹캠으로부터 실시간으로 수집되며, 각 프레임에 대해 모델은 사람 객체의 위치를 탐지한 뒤 해당 영역 내에서 특징점을 추정한다(그림 2). 본 연구에서는 손목 특징점이 어깨 특징점보다 높은 위치에 있을 때 손을 든 것으로 간주하였다. 이러한 기준은 단순하면서도 다양한 사람 간의 신체
비율 차이와 자세 차이를 고려할 수 있어 실제 환경에서 적용하기 용이하다.
그림 2. YOLOv11-Pose를 이용한 손 들기 동작 검출 예시(좌측: 원본 입력 영상, 우측: 손목과 어깨를 포함한 17개 관절점 추정 결과)
Fig. 2. Example of hand-raising detection using YOLOv11-Pose (left: original input
image, right: estimation result of 17 keypoints including wrists and shoulders)
또한 YOLOv11m-Pose 모델은 다중 인물이 존재하는 환경에서도 각 인물의 바운딩 박스와 관절 정보를 독립적으로 추정할 수 있다. 이를 통해
여러 학생이 동시에 손을 드는 상황에서도 동작을 안정적으로 구분할 수 있으며, 빠른 프레임 처리 속도로 실시간 요구 조건을 충족한다. 인원이 많고
동작이 다양한 교실 환경에서는 이러한 처리 속도와 제스처 인식 안정성이 특히 중요하다.
3.2 얼굴 인식 모듈
손들기 동작이 감지된 인원에 대해서만 얼굴 인식 절차가 수행된다. 먼저 자세 추정 모듈에서 인체의 관절 좌표를 기반으로손들기 여부를 판별하며, 그림 3과 같이 손들기 동작이 확인되면 해당 인원의 얼굴 인식 모듈이 활성화된다. 얼굴 인식 모듈은 MTCNN(Multitask Cascaded Convolutional
Networks)[11]을 이용해 얼굴 영역을 검출하고 정렬한 뒤, FaceNet 기반 임베딩 모델을 적용하는 구조로 구성되어 있다. 손들기 여부가 확인되면 먼저 MTCNN을
통해 얼굴 영역을 추출하고, 눈·코·입과 같은 얼굴 랜드마크를 이용해 정렬을 수행한다. 이후 정렬된 얼굴 이미지를 160×160 크기로 변환한 뒤
임베딩 추론 단계로 전달한다.
그림 3. 손 들기 동작 검출 후 수행되는 얼굴 인식 단계
Fig. 3. Face recognition stage performed after hand-raising detection
임베딩 추출에는 사전 학습된 FaceNet[2] 모델을 사용하였으며, 각 얼굴로부터 512차원의 임베딩 벡터를 생성한다. 그러나 FaceNet의 원본 학습 데이터는 서구권 인물 비중이 높아 동아시아인의
얼굴 특징을 충분히 반영하지 못할 가능성이 있다. 이를 개선하기 위해 본 연구에서는 한국 연예인 얼굴 이미지로 구성한 데이터 세트를 이용해 모델을
추가 학습하였다.
미세 조정 과정에는 지도 대조 학습[3] 전략을 적용하였다. 지도 대조 학습은 동일 인물 이미지의 임베딩은 서로 가깝게, 다른 인물의 임베딩은 멀어지도록 학습을 유도하는 방식으로, 얼굴
간 분별력 향상에 효과적인 방법이다. 그림 4와 같이 하나의 학습 묶음은 기준이 되는 이미지, 동일 인물의 두 가지 변형된 얼굴 이미지, 그리고 다른 인물의 얼굴 이미지를 함께 포함하도록 구성된다.
이러한 방식은 사람마다 차이를 더 뚜렷하게 학습할 수 있게 하여, 보다 구별력 있는 임베딩을 형성하는 데 도움이 된다.
그림 4. 앵커 샘플, 동일 인물에 대한 양성 예시 및 다른 인물에 대한 음성 예시
Fig. 4. Anchor sample, positive example of the same person, and negative example of
a different person
본 연구에서는 각 입력 이미지로부터 서로 다른 방식으로 처리된 두 개의 이미지를 생성한 뒤, 지도 대조 학습 손실 함수를 이용하여 동일 인물의 임베딩은
가까워지고 서로 다른 인물의 임베딩은 멀어지도록 학습을 진행하였다. 온도 조절 인자를 포함한 지도 대조 학습 손실 함수는 다음과 같이 정의된다.
위 식에서 $z_i$는 정규화된 임베딩 벡터를 의미하며, $P(i)$는 샘플 $i$와 동일한 클래스에 속하는 모든 양성 샘플들의 인덱스 집합이다.
$A(i)$는 샘플 $i$를 제외한 배치 내의 모든 다른 샘플들의 집합을 나타낸다. $\tau$는 온도 조절 하이퍼파라미터이다.
마지막으로, 시스템은 입력 임베딩 $f_{input}$과 기준 임베딩 $f_{ref}$간의 코사인 유사도를 다음과 같이 계산하여 출석 여부를 판단한다.
유사도 값이 사전에 정의된 임계값 $\theta$를 초과할 경우, 시스템은 해당 사용자를 동일 인물로 인식하고 출석한 것으로 기록한다.
4. 실 험
4.1 실험 환경
본 연구에서는 제안한 자동 출석 시스템의 성능을 검증하기 위해 손들기 검출 모듈과 얼굴 인식 모듈을 각각 독립적으로 평가하였다. 손들기 검출 성능
평가는 Kaggle에서 제공하는 Classroom Images for Hand-Raised Detection 데이터 세트를 사용하여 수행하였다. 해당
데이터 세트는 실제 교실 환경을 기반으로 촬영된 이미지들로 구성되어 있으며, 다양한 인원 수, 촬영 거리, 가림 상황이 포함되어 있어 실제 환경 적용
가능성을 검증하기에 적합하다. 본 실험에서는 이 중 330장의 이미지를 사용하였으며, 각 이미지에는 손들기 상태에 대한 정답 바운딩 박스와 클래스
라벨이 함께 제공된다. 손들기 상태는 손을 든 경우, 애매하게 손을 든 경우, 손을 들지 않은 경우로 구분되어 있으며, 본 연구에서는 손을 든 경우와
애매하게 손을 든 경우를 모두 출석 의사 표현으로 간주하여 평가를 수행하였다. 제공된 정답 바운딩 박스와 모델이 예측한 바운딩 박스는 IoU(Intersection
over Union) 기준으로 매칭되었으며, IoU 임계값은 0.3으로 설정하였다. 이는 키포인트 기반으로 생성된 예측 바운딩 박스가 정답 바운딩
박스와 크기 및 위치가 완전히 일치하기 어려운 점을 고려한 설정이다.
손들기 검출 성능 평가는 정탐(TP, True Positive), 오탐(FP, False Positive), 누락(FN, False Negative)을
산출한 뒤, 이를 기반으로 정밀도(P, Precision), 재현율(R, Recall), F1-score를 주요 평가 지표로 사용하였다. 중복 검출로
인한 평가 왜곡을 방지하기 위해 비최대 억제(NMS, Non-Maximum Suppression)를 적용하였으며, NMS IoU 임계값은 0.7로
설정하여 동일 인물에 대한 다양한 예측 후보를 최대한 유지하도록 하였다.
손들기 검출에는 사전 학습된 YOLOv11m-Pose 모델을 사용하였으며, 추가적인 미세 조정은 수행하지 않았다. 모든 실험은 입력 해상도 960×960
조건에서 진행되었고, 손들기 검출의 재현율을 확보하기 위해 객체 신뢰도 임계값은 0.05로 설정하였다. 또한 손들기 동작 판정을 위해 손목과 어깨
키포인트의 상대적 위치 관계를 활용하였으며, 해당 키포인트의 가시성 임계값은 0.6으로 설정하였다.
얼굴 인식 모듈의 성능 평가는 공개 자료에서 수집한 한국 연예인 50명의 얼굴 이미지 총 1,000장으로 구성된 자체 데이터 세트를 이용하여 수행하였다.
얼굴 인식 모델은 FaceNet을 기반으로 하였으며, 지도 대조 학습을 적용하여 512차원 임베딩을 학습하였다. 최종 신원 확인 단계에서는 코사인
유사도를 이용해 동일 인물 여부를 판단하였다.
4.2 자세 추정 모듈
표 1과 표 2는 YOLOv11-Pose 모델의 크기별 손들기 검출 성능을 정량적으로 비교한 결과를 제시한다. 모델 규모가 커질수록 세 지표가 전반적으로 향상되는
경향을 보였으나, 동시에 이미지당 평균 추론 시간도 증가하였다. Large 모델은 가장 높은 검출 성능을 보였지만, Medium 모델은 성능과 속도
간 균형이 우수해 실제 강의실 환경에서의 실시간 적용에 더 적합한 모델로 판단된다.
표 1. 다양한 YOLOv11-Pose 모델 규모에 따른 손들기 동작 검출 성능 비교 (Classroom Images for Hand-Raised
Detection 데이터 세트, IoU=0.5 기준)
Table 1. Comparison of hand-raising detection performance across YOLOv11-Pose model
scales (Classroom Images for Hand-Raised Detection dataset, IoU=0.5)
|
모델
|
정확도
|
재현율
|
F1
|
정탐
|
오탐
|
누락
|
|
nano
|
0.654
|
0.241
|
0.352
|
117
|
62
|
368
|
|
small
|
0.874
|
0.330
|
0.479
|
160
|
23
|
325
|
|
medium
|
0.906
|
0.398
|
0.553
|
193
|
20
|
292
|
|
large
|
0.898
|
0.454
|
0.603
|
220
|
25
|
265
|
그림 5. YOLOv11m-Pose 모델을 이용한 손 들기 동작 검출 결과
Fig. 5. Hand-raising detection results using the YOLOv11m-Pose model
표 2. YOLOv11-Pose 모델 규모별 평균 추론 시간 비교
Table 2. Comparison of average inference time across YOLOv11-Pose model scales
|
모델
|
Time(ms/image)
|
|
nano
|
142.37
|
|
small
|
281.24
|
|
medium
|
642.55
|
|
large
|
853.92
|
그림 5는 YOLOv11-Pose 모델을 활용한 손들기 검출 결과의 정성적 예시를 보여준다. 그림에서 초록색 바운딩 박스는 손들기 동작이 정답 위치에서 정확히
검출된 경우를 나타내며, 빨간색 바운딩 박스는 사람이 탐지되었으나 손들기 동작으로 올바르게 분류되지 않은 경우를 의미한다. 또한 검정색 바운딩 박스는
손들기 동작에 대한 정답은 존재하지만, 해당 위치에서 손들기 검출이 수행되지 않은 누락 사례를 나타낸다. 손들기 자세가 명확하게 관찰되는 상황에서는
모델이 안정적으로 손들기 동작을 인식하는 것을 확인할 수 있다.
반면, 피사체가 카메라로부터 멀리 위치하거나 다른 학생 또는 책상 등에 의해 신체 일부가 가려진 경우에는 특징점 추정이 불안정해지면서 손들기 동작
분류가 누락되는 사례가 발생하였다. 이러한 결과는 실제 교실 환경에서 빈번하게 발생하는 가림과 거리 변화가 자세 추정 기반 손들기 검출 성능에 영향을
미칠 수 있음을 보여준다.
4.3 얼굴 인식 모듈
얼굴 인식 모델의 성능 평가는 학습에 사용되지 않은 50명의 새로운 인물로 구성된 100장의 테스트 세트를 이용하여 수행하였다. 이를 통해 학습 데이터에
포함되지 않은 인물에 대한 모델의 일반화 성능을 검증하고자 하였다. 표 3은 CASIA-WebFace 데이터 세트로 사전 학습된 기본 FaceNet 모델과, 한국 연예인 얼굴 데이터 세트를 활용해 지도 대조 학습으로 미세
조정한 모델의 성능을 비교한 결과를 나타낸다. 기본 모델은 대규모 범용 얼굴 데이터 세트로 학습되어 다양한 인종과 환경에 대한 일반적인 얼굴 표현을
학습한 반면, 미세 조정된 모델은 동아시아인의 얼굴 특징을 보다 잘 반영하도록 최적화되었다.
그 결과, 지도 대조 학습 기반으로 미세 조정된 모델은 정확도가 86.68%에서 92.52%로 향상되었으며, AUC는 0.9415에서 0.9827로
증가하였다. 또한 TPR@FPR 1% 지표 역시 0.5455에서 0.7143으로 크게 개선되어, 낮은 오탐률 조건에서도 신원 판별 성능이 향상되었음을
확인할 수 있었다. 이러한 결과는 지도 지도 대조 학습이 클래스 내 임베딩 간 거리를 효과적으로 축소하고, 클래스 간 분리도를 강화함으로써 보다 구분력
있는 얼굴 임베딩을 학습하게 함을 의미한다.
그림 6. 자동 출석 체크 시스템 시연 (a) 등록된 사람이 손을 든 경우 (b) 등록되지 않은 사람이 손을 든 경우 (c) 아무도 손을 들지 않은
경우
Fig. 6. Demonstration of the automatic attendance checking system (a) Registered person
raises a hand (b) Unregistered person raises a hand (c) No one raises a hand
그림 6은 제안한 자동 출석 체크 시스템의 동작 과정을 실제 환경에서 시연한 예시를 보여준다. 그림 6(a)는 등록된 사용자가 손을 들었을 때 손들기 동작 인식과 얼굴 인식을 통해 정상적으로 출석이 처리되는 경우를 나타낸다. 그림 6(b)는 시스템에 등록되지 않은 사용자가 손을 든 경우로, 손들기 동작은 인식되지만 얼굴 인식 단계에서 신원 확인이 실패하여 출석이 처리되지 않는 상황을
보여준다. 마지막으로 그림 6(c)는 강의실 내에서 손들기 동작이 감지되지 않아 출석 요청이 발생하지 않는 경우를 나타낸다. 이러한 시연 결과는 제안한 시스템이 손들기 동작 인식과
얼굴 인식을 단계적으로 결합하여, 실제 강의실 환경에서도 안정적으로 출석 여부를 판단할 수 있음을 확인해 준다.
표 3. 기본 모델 대비 SupCon 미세조정 모델 성능 비교
Table 3. Performance comparison between the baseline model and the SupCon fine-tuned
model
|
모델
|
정확도(%)
|
AUC
|
TPR@FPR1%
|
|
기존 모델
|
86.68
|
0.9415
|
0.5455
|
|
SupCon-tuned
|
92.52
|
0.9827
|
0.7143
|
5. 결 론
본 연구에서는 자세 추정과 얼굴 인식을 결합한 강의실 자동 출석 시스템을 제안하였다. 제안된 시스템은 YOLOv11-Pose 모델을 이용해 손들기
동작을 탐지하고 이를 출석 의사로 해석하며, 해당 동작이 확인된 인원에 대해서만 얼굴 인식을 수행함으로써 처리 효율과 정확도를 동시에 향상시킨다.
실험 결과, YOLOv11m-Pose 모델은 손들기 동작 탐지에서 0.71의 정밀도를 보여 비교적 안정적인 성능을 보였으나, 원거리 피사체나 가림이
발생한 경우에는 탐지 실패로 인해 재현율이 저하되는 한계가 확인되었다.
신원 확인 단계에서는 FaceNet 기반 임베딩 모델을 지도 대조 학습을 통해 미세 조정하여 동아시아 얼굴 특성을 보다 정교하게 반영하였다. 별도의
테스트 세트를 이용한 평가 결과, 미세 조정된 모델은 기존 FaceNet 대비 정확도와 일반화 성능이 향상되었다.
현재 시스템은 데스크탑 환경에서 구현 및 평가되었으며, 향후에는 Jetson과 같은 임베디드 플랫폼으로의 이식을 통해 실제 강의실 환경에서 실시간으로
동작 가능한 경량화 및 최적화 연구를 진행할 예정이다. 또한 조명 변화, 가림, 표정 변화 등 다양한 환경 요인에 대한 강건성을 강화하여 시스템의
실용성과 인식 정확도를 추가적으로 개선할 계획이다.
Acknowledgements
This work was partially supported by the Institute of Information & Communications
Technology Planning & Evaluation (IITP) grant funded by the Korea government (MSIT)
(IITP-2025-RS-2020-II201462, 50%); and the Regional Innovation System & Education
(RISE) program funded by the Ministry of Education (MOE) and Chungcheongbuk-do (2025-RISE-11-014-03).
References
R. Khanam, M. Hussain, 2024, YOLOv11: An Overview of the Key Architectural Enhancements,
arXiv preprint, arXiv: 2410.17725

F. Schroff, D. Kalenichenko, J. Philbin, 2015, FaceNet: A Unified Embedding for Face
Recognition and Clustering, pp. 815-823

P. Khosla, P. Teterwak, C. Wang, A. Sarna, Y. Tian, P. Isola, A. Maschinot, C. Liu,
D. Krishnan, 2020, Supervised Contrastive Learning

Z. Cao, T. Simon, S. -E. Wei, Y. Sheikh, 2017, Realtime Multi-person 2D Pose Estimation
Using Part Affinity Fields, pp. 1302-1310

F. Lugaresi, J. Tang, H. Nash, C. McClanahan, 2019, MediaPipe: A Framework for Building
Perception Pipelines, arXiv preprint, arXiv:1906.08172

K. Sun, B. Xiao, D. Liu, J. Wang, 2019, Deep High-Resolution Representation Learning
for Human Pose Estimation, pp. 5693-5703

Y. Xu, J. Zhang, Q. Zhang, D. Tao, 2022, ViTPose: Simple Vision Transformer Baselines
for Human Pose Estimation

J. Redmon, S. Divvala, R. Girshick, A. Farhadi, 2016, You Only Look Once: Unified,
Real-Time Object Detection, pp. 779-788

Q. Cao, L. Shen, W. Xie, O. M. Parkhi, A. Zisserman, 2018, VGGFace2: A Dataset for
Recognising Faces across Pose and Age, pp. 67-74

W. Liu, Y. Wen, Z. Yu, M. Li, B. Raj, L. Song, 2017, SphereFace: Deep Hypersphere
Embedding for Face Recognition, pp. 6738-6746

K. Zhang, Z. Zhang, Z. Li, Y. Qiao, 2016, Joint Face Detection and Alignment Using
Multitask Cascaded Convolutional Networks, IEEE Signal Processing Letters, Vol. 23,
No. 10, pp. 1499-1503

저자소개
She is currently pursuing a B.S. degree in the Department of Intelligent Robotics
Engineering at Chungbuk National University, Korea. Her research interests include
deep learning and computer vision.
He is currently pursuing a B.S. degree in the Department of Intelligent Robotics Engineering
at Chungbuk National University, Korea. Her research interests include deep learning
and computer vision.
She is currently pursuing a B.S. degree in the Department of Intelligent Robotics
Engineering at Chungbuk National University, Korea. Her research interests include
deep learning and computer vision.
He received the Ph.D. degrees in electrical engineering and computer science from
the Korea Advanced Institute of Science and Technology (KAIST), Daejeon, Republic
of Korea, in 2009. He is currently an Associate Professor with Chungbuk National University.
His research interests include network compression, low-level image processing, computational
photography, and medical image processing.