가정 : 딥웹을 모니터링하는 금융감독원이라 해보자
## 1) 아고라 크롤링
## 2) 데이터 정제
## 3) 엑셀에 시각화
## 4) 정리
vim(리눅스 text view 프로그램 설치, vi보다 훨씬 이쁘고 보기 편하다)
>> sudo apt-get install vim 으로 vim을 깔고
1. 아고라 크롤링
a) 코드 분석
- vim로 들어가보면 아래 코드와 같다
>> vim Desktop/Agora BigData/all_download_from_agora.py
import urllib, os
i = 0
while i <= 1115
os.system('torsocks wget http://c2djzrn6qx6kupkn.onion/%s.html --header="User-Agent: Mozilla/5.0 Gecko/2010 Firefox/5"' % i)
i = i + 1
b) 크롤링 코드 수행
>> python all_download_from_agora.py
- 1115개의 html 파일이 다음 이름으로 저장된다. "number.html" (number- 1~1115)
- 만약 저장되있는 상태에서 한번 더 수행하면 같은파일은 이름바꾸기로 저장이 되어 뒤에 ".1"이 붙는다. ex) "number.html.1"
c) 크롤링 된 여러 "number.html" 파일들 하나로 묶기
- "*.html" 파일들을 하나로 묶어서 big_brother.txt 파일을 만든다. (아고라 탄생 이후 지금까지 대략 70M)
>> cat *.html > agora_bigdata.txt
- 확장명 html로 바꾼다. html이 해상도와 색깔보기가 더 편하다.
>> cp big_brother.txt agora_bigdata.html
2. 데이터 정제
-크롤링된 데이타(agora_bigdata.html)를 정제하자
a) 정제 준비
- 편하게 정제하기 위해 agora_bigdata.html를 윈도우로 복사해 온다.
- sublime 설치한다.(OSINT\00_Application 에서 설치))
- sublime 으로 big_brother.html 를 연다.
b) 데이터 훑어보기
- sublime 에서 "양각" 이란 단어로 검색해 보자.
- 카드 양각기는 카드 스캐닝 기계다
- 201이 카드 복사기, 양각으로 신용카드를 똑같이 만들고, 그 카드를 긁어서 사용한다.
- 근데 농협, 신협카드만 되고, 새마을카드는 안된다. 농협, 신카는 보안의 문제가 있어서 된다
- "카드 mx605 양각기 포함해서 팔려고하는데 살사람있냐?
- <br>dump는 따로 알아서사고 메이트 안시켜줌 이제 다른일 할거라서 듀얼칩 백카드 1000장 그냥 서비스로 줄게 사용법도 알려주고"
- "201로 복제할때 덮어씌워도 문제 없는거 농협체크카드랑 신협 밖에없냐? 새마을 안됨??<br>"
c) 정제
- sublime에서 정규표현석이로 필요없는부분 없애기
- ctr+h 를 누른 후 지우고 싶은 부분 붙여놓오 replace all
- id 같은거는ex) real191 대신 .*. 을 써서 하면 비슷한거 쫙 날라감
- ~~.* 하면 그 줄의 뒤가 다 날아감
d) 통계자료 추출
- 정제 된 agora_bigdata_nomalize.html 의 통계를 내를 내보자
- hands on OSINT\06_OSINT Training Code & Video\Agora BigData Script\analysis.sh
파일을 열어서, 연, 월, 일에 대한 정보를 가져온다.
ex)vim OSINT\06_OSINT Training Code & Video\Agora BigData Script\analysis.sh
- analysis.sh 파일은 아래와 같이 생겼다.
echo "2019 Year:Month"
grep -c ' 19/01/' agora_bigdata_nomalize.html
grep -c ' 19/02/' agora_bigdata_nomalize.html
- 결과 출력 예시
3. 엑셀에 시각화
- terminal 창에 프린트된 결과들을 드래그 하여 엑셀에 옮겨 부친다
- 요일별로 보면 주말보다 월, 수요일에 이용자가 많다.
- 시간별로 보면 오후에 사용자가 줄다가 저녁부터 새벽까지 이용자가 많다.
- 2017년부터 19년까지의 통계를 보면 들쭉 날쭉 하지만 월별로 평균 200건 이상의 글이 올라오는 것을 확인 할 수 있다.
4. 정리
아고라는 북한에서도 이용 많이하기로 알려진 국내 최대 다크웹이다.
하지만 사이버 위협 관련 정보가 많지 않고 찌라시나 쓸데없는 글들이 대다수 이다.
사이버 위협에 참고하기 위한 다크웹은 국내는 간단한 모니터링만 하고
해외 다크웹을 수집하고 모니터링이 필요하다고 생각된다.
'Security > OSINT' 카테고리의 다른 글
OSINT day4. ReconNG로 버닝썬주변 사진 모으기 (1) | 2019.05.16 |
---|---|
OSINT day2-1. 딥웹 onion 찾기 & 아고라 살펴보기 (2) | 2019.03.14 |
OSINT day1. 실험 셋팅, Tor(토르) 사용법, 아바타 계정 생성 (4) | 2019.03.14 |