본문 바로가기

Security/OSINT

OSINT day2-2. 딥웹 아고라 빅데이터 분석

가정 : 딥웹을 모니터링하는 금융감독원이라 해보자

## 1) 아고라 크롤링

## 2) 데이터 정제

## 3) 엑셀에 시각화

## 4) 정리

 
 

vim(리눅스 text view 프로그램 설치, vi보다 훨씬 이쁘고 보기 편하다)

>> sudo apt-get install vim 으로 vim을 깔고

 

1. 아고라 크롤링

a) 코드 분석

- vim로 들어가보면 아래 코드와 같다

>> vim Desktop/Agora BigData/all_download_from_agora.py    

 

import urllib, os

i = 0

while i <= 1115

os.system('torsocks wget http://c2djzrn6qx6kupkn.onion/%s.html --header="User-Agent: Mozilla/5.0 Gecko/2010 Firefox/5"' % i) 

i = i + 1

 
- 아고라는 아래 그림과 같이 ~.onion/"number".html 형식으로 이루어져 있다.
- "number" 는 아고라의 페이지 숫자이고, 현재 1~1115 page까지 존재한다(190315).
 

 

 

- 위 코드는 아고라의 게시판 1~1115페이지까지를 싹다 크롤링 하여 ".html" 형식으로 저장하는 코드이다.
- 아고라 주소 뒤에 '--header="User-Agent: Mozilla/5.0 Gecko/2010 Firefox/5"' 는 tor를사용하는지 확인하는 루틴이다.
- 이 부분을 추가하지 않으면 forbidden이 뜬다. 아고라 관리자가 보안을 굉장히 잘해놔서 해킹공격해도 안뚤린다

 

b) 크롤링 코드 수행

>> python all_download_from_agora.py

-  1115개의  html 파일이 다음 이름으로 저장된다. "number.html" (number- 1~1115)

 

 

- 만약 저장되있는 상태에서 한번 더 수행하면 같은파일은 이름바꾸기로 저장이 되어 뒤에 ".1"이 붙는다. ex) "number.html.1" 

 

c) 크롤링 된 여러 "number.html" 파일들 하나로 묶기

- "*.html" 파일들을 하나로 묶어서 big_brother.txt 파일을 만든다. (아고라 탄생 이후 지금까지 대략 70M)

>> cat *.html > agora_bigdata.txt

- 확장명 html로 바꾼다. html이 해상도와 색깔보기가 더 편하다.

>> cp big_brother.txt agora_bigdata.html

 

 

 

2. 데이터 정제

-크롤링된 데이타(agora_bigdata.html)를 정제하자

 

a) 정제 준비

- 편하게 정제하기 위해 agora_bigdata.html를 윈도우로 복사해 온다.

- sublime 설치한다.(OSINT\00_Application 에서 설치))

- sublime 으로 big_brother.html 를 연다. 

 

 

 

b) 데이터 훑어보기

- sublime 에서 "양각" 이란 단어로 검색해 보자. 

- 카드 양각기는 카드 스캐닝 기계다

- 201이 카드 복사기, 양각으로 신용카드를 똑같이 만들고, 그 카드를 긁어서 사용한다.

- 근데 농협, 신협카드만 되고, 새마을카드는 안된다. 농협, 신카는 보안의 문제가 있어서 된다

- "카드 mx605 양각기 포함해서 팔려고하는데 살사람있냐?

- <br>dump는 따로 알아서사고 메이트 안시켜줌 이제 다른일 할거라서 듀얼칩 백카드 1000장 그냥 서비스로 줄게 사용법도 알려주고"

- "201로 복제할때 덮어씌워도 문제 없는거 농협체크카드랑 신협 밖에없냐? 새마을 안됨??<br>"

 

c) 정제

- sublime에서 정규표현석이로 필요없는부분 없애기

- ctr+h 를 누른 후 지우고 싶은 부분 붙여놓오 replace all

- id  같은거는ex) real191 대신  .*. 을 써서 하면 비슷한거 쫙 날라감

- ~~.* 하면 그 줄의 뒤가 다 날아감

 

 

 

d) 통계자료 추출

- 정제 된 agora_bigdata_nomalize.html 의 통계를 내를 내보자

- hands on OSINT\06_OSINT Training Code & Video\Agora BigData Script\analysis.sh

파일을 열어서, 연, 월, 일에 대한 정보를 가져온다.

ex)vim OSINT\06_OSINT Training Code & Video\Agora BigData Script\analysis.sh

- analysis.sh 파일은 아래와 같이 생겼다. 

- grep -c '찾고자 하는 문자열' '원하는 문서'.html
- grep을 이용하여 원하는 문서 안에서 찾고자 하는 문자열을 counting 한다

 

echo "2019 Year:Month"

grep -c ' 19/01/' agora_bigdata_nomalize.html

grep -c ' 19/02/' agora_bigdata_nomalize.html

 

- 결과 출력 예시

 

 

 

3. 엑셀에 시각화

- terminal 창에 프린트된 결과들을 드래그 하여 엑셀에 옮겨 부친다

- 요일별로 보면 주말보다 월, 수요일에 이용자가 많다.

- 시간별로 보면 오후에 사용자가 줄다가 저녁부터 새벽까지 이용자가 많다.

 

 

 

- 2017년부터 19년까지의 통계를 보면 들쭉 날쭉 하지만 월별로 평균 200건 이상의 글이 올라오는 것을 확인 할 수 있다.

 

 

4. 정리

아고라는 북한에서도 이용 많이하기로 알려진 국내 최대 다크웹이다.

하지만 사이버 위협 관련 정보가 많지 않고 찌라시나 쓸데없는 글들이 대다수 이다.

사이버 위협에 참고하기 위한 다크웹은 국내는 간단한 모니터링만 하고

해외 다크웹을 수집하고 모니터링이 필요하다고 생각된다.