본문 바로가기
반응형
구글 뉴스기사 크롤링 (Selenium 문법 변경) 구글 뉴스기사 크롤링 [목차] 1. 셀레니움 및 구글 변경사항 2. 크롤링 코드 1. 셀레니움 및 구글 변경사항 최근 크롤링할 일이 있어 코드를 짜는 중 예전 코드가 작동하지 않는 것을 발견했습니다. 셀레니움이 업데이트되면서 문법 중 변경된 사항이 많았습니다. chromedriver.exe로 활용하지 않음 find_element 문법 변경 구글 또한 크롤링에 대응하고자 변동된 것이 많았습니다. 첫번째 뉴스 페이지 내에 css 문법 미통일 5페이지 단위로 10번째 기사의 css 변동 2. 크롤링 코드 구글의 크롤링 방지 css를 우회하여 특정 키워드 관련 뉴스기사 제목을 수집하는 코드를 작성하였습니다. (2023.11.11. 기준) from seleniumbase import Driver from sele.. 2023. 12. 31.
혼자서 해보는 LOL 챔프 크롤링 기본 구조¶ In [1]: from selenium import webdriver from selenium.webdriver.common.keys import Keys # 엔터키 입력용 import pandas as pd import time driver = webdriver.Chrome('C:/Temp/chromedriver') # 웹드라이버 객체 생성 In [16]: # 우선 수집하는 것에만 초점을 맞춰서 가능한지 확인합니다. # 확인 코드 # 구글을 열어서 키워드 입력 후 이동 driver.get('https://www.op.gg/champion/statistics') # 구글 홈페이지 내용 렌더링 time.sleep(2) # 가렌 선택 이동 champ = driver.find_element_by_.. 2021. 4. 29.
반응형