본문 바로가기

크롤링3

[Python] 초보도 가능한 로튼토마토(Rotten Tomatoes) 영화리뷰 크롤링: ③ BeautifulSoup으로 리뷰 텍스트 가져오기 이번 장에서는 BeautifulSoup 패키지로 로튼토마토(Rotten Tomatoes) 영화리뷰를 긁어오자! 우선 BeautifulSoup이 뭘까? html 페이지 소스를 종류에 맞게 정리하는(parsing) 것을 가능하게 만드는 패키지가 바로 BeatufilSoup다. 이 역시 지난번 [Python] 왕초보도 가능한 로튼토마토(Rotten Tomatoes) 영화리뷰 크롤링: ② 셀레니움(selenium)으로 html 소스 가져오기 편에서 가져온 페이지소스를 활용하여 천천히 알아보자 1. BeautifulSoup 패키지 설치 먼저 BeautifulSoup 패키지가 없는 경우, 아래 코드를 terminal이나 cmd창에 입력해 설치하면 된다. pip install beautifulsoup4 설치가 완료되.. 2023. 2. 9.
[Python] 초보도 가능한 로튼토마토(Rotten Tomatoes) 영화리뷰 크롤링: ② 셀레니움(selenium)으로 html 소스 가져오기 셀레니움(selenium)을 이용하여 로튼토마토(Rotten Tomatoes)에서 아바타2(Avatar2) 리뷰 내용이 담긴 html소스를 가져와보자! 우선 selnium 패키지(package)에서 webdriver 모듈(module)을 불러온다. #셀레니움 패키지에서 웹드라이버 모듈 불러오기 from selenium import webdriver 여기서 모듈이란, 함수나 클래스(=특정 작업을 수행하기 위해 만들어놓은 코드) 등을 만든 하나의 파이썬 파일(.py)이다. 패키지인 여러 개의 모듈의 집합으로 보면 된다. 앞서, 왕초보도 가능한 로튼토마토(Rotten Tomatoes) 영화리뷰 크롤링: ① 아나콘다(Anaconda) & 셀레니움(selenium) & 크롬드라이버(chromedriver) 설치하.. 2023. 2. 8.
[Python] 초보도 가능한 로튼토마토(Rotten Tomatoes) 영화리뷰 크롤링: ① 아나콘다(Anaconda) & 셀레니움(selenium) & 크롬드라이버(chromedriver) 설치하기 로튼 토마토(Rotten Tomatoes)는 영화 관련 웹사이트 가운데 하나로 영화에 대한 소식, 비평, 정보 등을 제공한다. 주로 비평가 위주의 평점을 매기는 곳이다. 로튼토마토의 수많은 영화리뷰를 크롤링해서 목적에 맞게 분석해 보면 어떨까? 우선 예시로 아바타2의 리뷰를 크롤링해보려 한다. 먼저 이번 장에선 파이썬 IDE, 셀레니움, 크롬드라이버를 설치해 보자! 파이썬 IDE 설치하기 셀레니움(selenium) 설치하기 크롬드라이버(chromedriver) 설치하기 1. 파이썬 IDE 설치하기 먼저 크롤링하기에 앞서, 파이썬 코드를 편집할 수 있는 IDE를 설치해보자! IDE에 대한 설명과 설치 방법은 아래 사이트에 나와 있으니 필요시 참고하면 된다. [Python] 왕초보도 가능한 파이썬 입문: 아.. 2023. 2. 7.