[Python] 웹 크롤링 기초

계획단계 : 어떤 데이터를 수집할 것인지 결정하고, 데이터의 원본 및 형식을 정한다. 또한 데이터 수집에 필요한 도구와 기술을 선택한다.
수집단계 : 데이터를 수집하는 단계로, 이를 위해 웹 크롤링, API 호출 또는 수동 데이터 입력과 같은 다양한 방법을 사용할 수 있다. 데이터를 수집하면서 데이터 품질을 유지하고, 저작권 및 개인정보 보호와 관련된 법률을 준수해야한다.
가공 및 저장단계 : 수집한 데이터를 가공하여 필요한 형식으로 정리하고, 데이터베이스 또는 파일 시스템에 저장한다. 이 단계에서는 데이터를 분석할 수 있도록 준비한다.

[게시물 공개 처리 전 삭제]

수집데이터의 처리와 저작권

- 웹사이트의 정보는 기본적으로 저작물

- 2016년 재정된 저작권법 제 30조: 정보 해석을 목적으로 저작물을 복제/번안 가능

웹사이트의 리소스 압박과 업무 방해

- 웹 사이트의 지원을 독점하게 되면 다른 사람이 웹 사이트를 이용할 수 없음

- 무한 크롤러 사용시 업무방해 혐의 적용 가능

크롤러와 API

- 해당 사이트에서 API 지원여부 확인

크롤링 사례

- 구글, 스카이스캐너 등

www는 World Wide Web의 약자이다. 웹페이지는 웹상의 문서이며 웹 브라우저로 보는 웹사이트는 문서로 이루어져있다. 텍스트, 그림, 음성, 동영상 등 표현이 가능하며, HTML로 이로어져 있다.

Clinet(클라이언트) : 서비스를 요청하는 프로그램, 앱

server(서버) : 요청에 대해 응답을 해주는 프로그램

클라이언트가 서버에게 contents를 요청하면, 서버는 요청받은 contents를 클라이언트에게 전송한다. 브라우저는 서버에서 받은 HTML을 해석하여 화면에 보여준다.

HTTP는 Hyper Text Transfer Protocol의 약자로, 인터넷에서 데이터를 전송하는데 사용되는 프로토콜이다. 보안을 위해 HTTPS로 확장이 가능하고, 데이터의 암호화를 통해 통신을 보호한다.

Request Method

GET과 POST

GET

POST

Status Code

티스토리툴바