스크래핑

타겟 시스템에 접속하여 자동으로 인증을 수행하고 HTML 등 출력되는 데이터를 기반으로 정보를 추출하는 기술

동작 구조

DOM 기반
- 만약 통장 잔고가 <span class='blance'>50,000</span> 와 같이 구분할 수 있는 태그안에 속해 있을 경우 태그를 기준으로 접근할 수 있다.
- table.info > tbody > tr > td.value > span.balance 와 같이 DOM 구조를 통해 찾아갈 수 있다.
텍스트 기반
- 만약 통장 잔고가 항상 '최종 잔액'이라는 글자의 옆 셀에 있다면 글자를 먼저 찾고 이를 기준으로 값을 찾을 수 있다.
- 위 예시는 이 텍스트 기반을 통한 스크래핑 예시이다.

패스워드 저장
- 인증을 자동으로 처리하기 위해선 고객의 패스워드를 온전히 저장 필요
- 암호화를 하더라도 양방향 암호화하여 저장한 후 필요 시 마다 복호화하여 사용해야 함
- 일반적으로 인증을 위한 패스워드는 일방향 암호화하여 저장하는데 비하여 상대적으로 매우 위험
- 개인정보의 안전성 확보조치 기준 위반 소지
프라이버시 침해
- 위의 예시에선 단지 고객의 통장 정보를 읽기 위해 고객의 모든 정보에 접근할 수 있는 인증 대행
- 고객은 나의 통장 정보를 읽으라고 했지만 실제론 그 외의 다른 모든 정보를 무단으로 읽을 가능성
가용성 부족
- 텍스트 기반이든 DOM 기반이든 인터넷 뱅킹 사이트에서 구조를 조금만 변경해도 접근 불가
- 새로운 텍스트 및 DOM 규칙을 찾아야 하므로 복구에 일정 시간 소요