Beautiful Soup란? Beautiful Soup은 웹페이지 분석 모듈로, HTML 코드에서 특정 태그나 값을 추출(parsing;파싱)할 때 사용하는 라이브러리입니다. requests 모듈로 HTML 소스를 받아오고 Beaitoful Soup은 이를 파싱합니다. parsing(파싱)이란 가공되지 않은 문자열에서 필요한 부분을 추출하여 의미있는 구조화된 데이터로 만드는 과정입니다. [관련 문서] https://www.crummy.com/software/BeautifulSoup/bs4/doc/ Beautiful Soup Documentation — Beautiful Soup 4.12.0 documentation Beautiful Soup Documentation Beautiful Soup is a ..
webbrowser란? webbrowser는 파이썬 기본 내장 모듈로 브라우저로 특정 페이지를 열 때 사용합니다. import webbrowser webbrowser.open('https://www.naver.com') requests란? requests는 스크래핑에서 활용되는 모듈로, 인터넷에서 파일과 웹페이지를 다운로드하는데 사용합니다. reqeusts모듈을 사용하기 위해서는 설치를 해야합니다. pip install requests 기본 사용법 네이버 주소에 get 요청을 보내면 서버에서는 요청을 받아 처리 후 응답을 줍니다. 응답코드가 status_code입니다. 응답 내용이 req.text의 결과값입니다. import requests url = 'https://www.naver.com' req =..
데이터 수집의 3단계 계획단계 : 어떤 데이터를 수집할 것인지 결정하고, 데이터의 원본 및 형식을 정한다. 또한 데이터 수집에 필요한 도구와 기술을 선택한다. 수집단계 : 데이터를 수집하는 단계로, 이를 위해 웹 크롤링, API 호출 또는 수동 데이터 입력과 같은 다양한 방법을 사용할 수 있다. 데이터를 수집하면서 데이터 품질을 유지하고, 저작권 및 개인정보 보호와 관련된 법률을 준수해야한다. 가공 및 저장단계 : 수집한 데이터를 가공하여 필요한 형식으로 정리하고, 데이터베이스 또는 파일 시스템에 저장한다. 이 단계에서는 데이터를 분석할 수 있도록 준비한다. 스크래핑과 크롤링 스크래핑: 웹페이지의 특정 부분에서 원하는 데이터를 추출하는 기술 크롤링: 웹페이지를 자동으로 탐색하여 원하는 데이터를 추출하는 ..
zipfile 모듈이란? 파일을 압축하거나 해제하는 등 압축파일에 관련된 모듈입니다. zipfile 모듈은 기본으로 설치되어 있는 파이썬 내장 라이브러리이기 때문에 따로 설치할 필요가 없습니다. 파일 하나만 압축 파일을 압축할 때는 write()를 사용합니다. 일단 os 모듈을 통해 작업할 위치로 현재 디렉토리를 변경해줍니다. import zipfile, os os.chdir('D:\\python_study\\zipfile_test') #현재 디렉토리 위치 변경 #파일 하나만 압축 one_new_zip = zipfile.ZipFile('new.zip','w') one_new_zip.write('hello.txt') one_new_zip.close() 파일 여러개 압축 파일을 여러 개 압축할 때는 먼저 압..
pickle 모듈은 기본으로 설치되어 있는 파이썬 내장 라이브러리이기 때문에 따로 설치할 필요가 없습니다. pickle 모듈을 사용하는 이유 텍스트가 아닌 자료형은 일반 파일 입출력이 불가능합니다. 따라서 리스트, 딕셔너리, 클래스 등과 같은 파일은 pickle을 사용하여 저장합니다. 그리고 pickle.load()를 사용하여 파일을 읽어오기 위해서는 pickle.dump를 사용하여 데이터를 입력해야합니다. 객체 파일 열기/쓰기 pickle.dump()를 사용하여 객체를 저장합니다. import pickle #열기/쓰기 color = ['red','yellow','blue','green','purple'] with open('pickle.dat','wb') as file: pickle.dump(color..
shutil 모듈은 기본으로 설치되어 있는 파이썬 내장 라이브러리이기 때문에 따로 설치할 필요가 없습니다. 파일 복사 파일 복사를 위해서는 copy() 함수를 사용합니다. copy(복사할 파일, 복사 위치) 형식으로 작성합니다. import shutil shutil.copy('test1.txt','..\\shutil_test') #파일 복사 전체 디렉토리를 복사하는 것은 copytree() 함수를 사용합니다. copytree(복사할 디렉토리, 복사위치) 형식으로 작성합니다. shutil.copytree('D:\\python_study\\os_test','..\\copy_file') #파일 복사 파일 이동 파일을 이동시키기 위해 move() 함수를 사용합니다. move(이동할 파일,이동 위치) 형식으로 작..
파일을 생성하거나 열 때 모드를 정해줄 수 있습니다. 파일에 들어갈 데이터가 텍스트면 텍스트모드, 그림이면 바이너리 모드로 설정할 수 있습니다. 모드 설명 t 텍스트 b 바이너리 r 읽기 w 쓰기 a 이어쓰기 + 읽기,쓰기 파일 열기/쓰기/닫기 파일을 열 때는 open(), 닫을 때는 close() 함수를 사용합니다. 파일을 쓸 때는 write() 함수를 사용합니다. file = open("file_create.txt","w") #파일 열기 file.write("Hello world!!") #파일에 텍스트 작성 file.close() #파일 닫기 위의 코드를 실행하면 아래 그림과 같이 폴더 안에 "file_create.txt"파일이 생기고, 내용도 작성되어 있는 것을 확인할 수 있습니다. file_cre..
OS 모듈이란? OS모듈은 Operating System의 약자로, 운영체제와 관련된 기능을 제공하는 모듈입니다. 예를 들어 파일을 복사하거나 폴더를 새로 만들거나 파일을 지우는 등의 작업을 수행합니다. 경로 조작 os.path.join은 경로명 조작에 관한 함수로, 경로와 파일명을 결합하는 용도로 사용합니다. 이 함수를 사용하면 운영체제에 관계없이 경로를 알맞게 생성해줍니다. 리눅스와 맥에서는 /, 윈도우에서는 \\로 동작합니다. import os print(os.path.join('Users','USER','bin')) #Users\USER\bin my_file = ['a.txt', 'b.docx', 'c.csv'] for i in my_file: print(os.path.join('D:\\pytho..