선정이유
'다크웹 수사 기법'을 주제로, 최종적으로 SNS에서 다크웹 관련 활동을 탐지하고 분석하는 것을 목표로 스터디를 진행하고 있다. 이 과정에서 본 논문은 다크웹의 기본적인 기술적 특성과 토르 네트워크의 개념, 데이터 수집의 첫 번째 관문인 캡챠(CAPTCHA)에 대한 깊이 있는 분석을 제공하기 때문에 유익하다고 판단하여 선정하게 되었다.
서론
다크웹에서의 범죄에 대응하기 위해 수사 기관은 다크웹 생태계를 이해하고 운영자를 프로파일링하기 위한 데이터 수집이 필수적이다. 자동화된 크롤링 봇은 대규모 데이터 수집에 효과적이지만, 다크웹 운영자들은 정보 유출을 막기 위해 캡챠를 사용하여 봇의 접근을 적극적으로 차단하고 있다. 효과적인 다크웹 수사를 위해서는 다양한 캡챠의 형태를 파악하고, 이를 자동으로 분류하여 우회할 수 있는 기술이 선행되어야 하기 때문에 해당 논문은 다크웹에 존재하는 다양한 캡챠의 유형을 정의하고, 이를 자동으로 분류하는 프레임워크를 제안하여 다크웹 프로파일링의 효율성을 높이는 것을 목표로 한다.
배경지식
1. 토르 네트워크와 다크웹
- 다크웹은 토르(Tor)라는 특정 브라우저로만 접근할 수 있는 암호화된 네트워크 공간.
- 토르 네트워크는 트래픽을 여러 국가에 분산된 서버(노드)를 거치게 하는 '어니언 라우팅' 기술을 사용하여 사용자의 IP 주소를 숨겨 강력한 익명성을 보장합.
- 일반 웹 사이트와 달리 ‘해시암호.onion' 형식의 도메인으로 끝나는 주소를 입력해야 하며 일반 웹브라우저로는 접근할 수 없음.
- 발신자와 수신자 모두의 익명성이 보장되어 범죄 수사에 큰 어려움이 따름.
- 다크웹 내 onion 사이트를 수집하기 위해선 딥/다크웹 검색엔진 또는아카이빙(archiving) 사이트를 활용할 수 있다.
2. 캡챠
- 캡챠는 사용자가 사람인지 자동화된 봇인지 구별하기 위해 사용되며, 일반적으로 왜곡된 문자나 이미지를 보여주고 이를 맞추도록 요구함.
- 봇은 이 테스트를 통과하기 어려워 스팸 게시물 작성이나 웹사이트 데이터 크롤링과 같은 자동화된 작업을 방지하는 데 효과적임
- 종류로는 텍스트 및 이미지 기반 캡챠, 논리퍼즐 캡챠, 체크박스캡챠 등이 있음.
- 인공지능 기술의 발전에 따라 고도화된 봇은 왜곡된 캡챠 이미지나 텍스트를 식별할 수 있게 되었다. 이로 인해 더 난해한 노이즈나 이미지를 추가한다거나 시간제한을 두는 등, 캡챠가 더욱 복잡한 형태로 진화하고 있음.
3. 표면 웹과 다크웹의 캡챠 사용 비교
- 표면 웹: 주로 웹사이트 가입 시 대량 계정 생성을 막거나 '매크로' 같은 자동 구매 봇을 차단하는 등 사용자 인증과 보안의 균형이 주된 목적
- 다크웹: 수사 기관 등의 정보 수집을 위한 크롤링과 스크래핑을 막는 것이 핵심 목적. 운영자의 익명성 보장이 최우선이므로, 상용 서비스 연동을 피함
-
자체 개발한 복잡한 캡챠 시스템을 사용하는 경향이 있음.
본론
다크웹 캡챠 유형 분석 및 자동 분류 프레임워크
1. 다크웹 캡챠의 유형별 특징
논문은 120여 개의 다크웹 링크를 분석하여 캡챠 유형을 크게 5가지로 분류했으며 각 유형은 고유한 HTML 구조와 키워드 특징을 가짐.
- 텍스트 캡챠 (Text CAPTCHA)
왜곡되거나 노이즈가 낀 이미지를 보고 텍스트를 입력하는 가장 일반적인 형태. 영어, 숫자 외에 중국어, 러시아어 캡챠나 수학 문제 풀이를 요구하는 경우도 식별됨. HTML 내에 1개의 텍스트 입력창(<input type='text'>)이 존재하고, 'enter', 'code' 등의 문자열을 포함하는 특징이 있음

- URL 캡챠
현재 접속한 사이트의 URL 주소를 참고하여 빈칸을 채우거나 전체를 입력하도록 요구하는 형태. HTML 구조상 2개 이상의 텍스트 입력창이 발견되며, 'url', 'address'와 'copy', 'paste' 같은 문자열이 함께 나타나는 패턴을 보임.

- DDOS form 캡챠
다수의 다크웹 사이트에서만 발견된 독특한 형태로, 제한 시간(주로 1분) 내에 이미지 속 여러 문자를 각각의 입력란에 나눠 입력해야 함. HTML에 6개의 텍스트 입력창이 존재하고 'ddos', 'timer', 'expire' 등의 키워드가 확인됨. 시계 이미지를 보여주고 시간을 맞추게 하는 변형된 형태도 존재함.

- 이미지 선택 캡챠
여러 이미지 중 특정 조건을 만족하는 이미지(예: 끊어진 원)를 클릭하는 방식. HTML에 'circle', 'onion', 'broken', 'click' 등의 문자열을 포함하는 특징이 있음

- 기타
hCaptcha와 같은 상용 캡챠를 사용하거나 , 이미지 퍼즐, 다른 아이콘 클릭 등 여러 종류의 캡챠를 동시에 적용하는 복합적인 사례도 존재함.
2. 캡챠 분류 자동화 프레임워크 설계 및 성능
(1) URL 수집 - 'Tor Link'와 같은 아카이빙 사이트에서 키워드 기반으로 .onion주소를 수집함
(2) HTML 데이터베이스화 - 수집된 URL에 프록시를 통해 접속하여 각 사이트의 랜딩 페이지 HTML 소스코드를크롤링하여 저장.
(3) 캡챠분류 - 저장된 HTML 데이터를 분석하여 앞서 정의된 유형별 시그니처를 기반으로 캡챠의 존재여부와 유형을자동으로 식별.
↓
성능 평가 결과 - 120개 사이트 중 약 36.67%가 캡처 사용하고 있으며 제안된프레임워크는93.33% 높은 분류 정확도를보임.
가장 빈번하게 사용되는 캡챠는 텍스트 기반 캡챠로 전체 사이트 중 41%임.

결론
연구는 다크웹 데이터 수집의 주요 장애물인 캡챠의 최신 동향을 분석하고 이를 유형별로 자동 분류하는 프레임워크를 성공적으로제안함. 하지만 다크웹 링크의 잦은 변경으로 인한 표본 부족,여러 캡챠가 중첩된 사례 분석의 어려움 등의 한계점이 존재함
프레임워크는 다크웹 수사의 초기 단계에서 캡챠 적용 여부를 파악하고 그 유형을 식별하는 데 매우 유용하게 활용될 수 있으며 향후 각 캡챠 유형에 맞는 인공지능 기반의 자동 우회 기술과 연동된다면, 다크웹 데이터 수집 및 프로파일링의 효율성을 획기적으로 향상시켜 수사 역량 강화에 크게 기여할 것으로 기대됨.
느낀점
다크웹 운영자들이 단순히 익명성에 의존하는 것을 넘어, 자동화된 정보 수집을 막기 위해 맞춤형 방어 기술을 사용한다는 것을 알 수 있었다. 이에 따라 다크웹 수사 역시 단순히 링크를 찾는 것에서 끝나는 것이 아니라, 캡챠라는 첫 번째 기술적 장벽을 어떻게 통과할 것인가에서부터 본격적인 분석이 시작된다는 점을 깨달았다. 특히 각기 다른 캡챠 유형을 HTML 구조와 특정 키워드 같은 시그니처를 기반으로 체계적으로 분류하는 과정을 보며, 복잡한 문제도 결국 패턴 분석을 통해 자동화된 접근이 가능하다는 점이 인상깊었다. 이러한 접근 방식은 추후 스터디 실습에 도움이 될 것 같다.
'논문 분석' 카테고리의 다른 글
| IoT 환경에서의 네트워크 보안 프로토콜 성능 분석 (0) | 2025.11.12 |
|---|---|
| AI 기반 사이버 공격 그룹 인프라 추적 시스템 개발 (0) | 2025.10.29 |
| 다언어LLM의 개인정보 보호 응답 불균형과 지역 기반 제어 정책 모델 제안 (0) | 2025.09.17 |
| 시스템 API 호출 순서정보를 통한 안드로이드 악성코드 패밀리 분류기법 (1) | 2025.05.28 |
| [논문분석]트래픽 분석을 통한 악성코드 감염PC 및 APT 공격탐지 방안 (0) | 2025.05.13 |