[Python] 초보도 가능한 로튼토마토(Rotten Tomatoes) 영화리뷰 크롤링: ② 셀레니움(selenium)으로 html 소스 가져오기

테크총총/크롤링

호랑이가된토끼 2023. 2. 8. 18:02

셀레니움(selenium)을 이용하여 로튼토마토(Rotten Tomatoes)에서 아바타2(Avatar2) 리뷰 내용이 담긴 html소스를 가져와보자!

우선 selnium 패키지(package)에서 webdriver 모듈(module)을 불러온다.

#셀레니움 패키지에서 웹드라이버 모듈 불러오기
from selenium import webdriver

여기서 모듈이란, 함수나 클래스(=특정 작업을 수행하기 위해 만들어놓은 코드) 등을 만든 하나의 파이썬 파일(.py)이다.

패키지인 여러 개의 모듈의 집합으로 보면 된다.

앞서, 왕초보도 가능한 로튼토마토(Rotten Tomatoes) 영화리뷰 크롤링: ① 아나콘다(Anaconda) & 셀레니움(selenium) & 크롬드라이버(chromedriver) 설치하기 편에서 설치한 selenium패키지의 webdriver을 불러오면(import 한다고 표현하기도 함) 단순한 코드 몇 자로 크롬드라이버를 불러오거나 여러 기능을 실행 가능하게 만들 수 있다.

예를 들어, 우리는 webdriver 모듈을 통해 크롬드라이버로 크롬창을 띄우는 기능을 실행할 수 있다.

# 크롬드라이버로 크롬창 열기
driver = webdriver.Chrome(r"~/rotten/chromedriver")

만약 크롬드라이버가 열리지 않는다면 사용자의 크롬버전을 확인 후 크롬과 크롬드라이버의 버전이 맞는지 확인해야 한다.

2. 리뷰 사이트를 크롬창에서 불러오기

그럼 이제 크롤링하려는 리뷰 사이트를 크롬창에서 불러와보자.

driver.get()에서 가로 안에 크롤링 하려는 사이트 주소를 입력하면 된다.

# 리뷰 사이트 불러오기
driver.get('https://www.rottentomatoes.com/m/avatar_the_way_of_water/reviews')

그런 다음 페이지의 소스를 가져오면 리뷰가 담긴 내용을 긁어올 수 있다.

# 페이지 소스를 html에 담기
html = driver.page_source

여기까지가 페이지 소스를 가져오는 내용이고 다음 장에선 어떻게 페이지 소스에서 리뷰 내용을 가져올 수 있을지 알아보자!

v ^^ v