본문 바로가기
구글 뉴스기사 크롤링 (Selenium 문법 변경) 구글 뉴스기사 크롤링 [목차] 1. 셀레니움 및 구글 변경사항 2. 크롤링 코드 1. 셀레니움 및 구글 변경사항 최근 크롤링할 일이 있어 코드를 짜는 중 예전 코드가 작동하지 않는 것을 발견했습니다. 셀레니움이 업데이트되면서 문법 중 변경된 사항이 많았습니다. chromedriver.exe로 활용하지 않음 find_element 문법 변경 구글 또한 크롤링에 대응하고자 변동된 것이 많았습니다. 첫번째 뉴스 페이지 내에 css 문법 미통일 5페이지 단위로 10번째 기사의 css 변동 2. 크롤링 코드 구글의 크롤링 방지 css를 우회하여 특정 키워드 관련 뉴스기사 제목을 수집하는 코드를 작성하였습니다. (2023.11.11. 기준) from seleniumbase import Driver from sele.. 2023. 12. 31.
[리눅스] 1.5 명령어와 친해지기 서론 이번 장에서 다룰 명령어는 아래와 같다. - type : 명령어의 이름이 어떻게 표시되는지 확인 - which : 실행 프로그램의 위치 표시 - man : 명령어의 man 페이지 표시 - apropos : 적합한 명령어 리스트 표시 - info : 명령어 정보 표시 - whatis : 명령어에 대한 짧은 설명 표시 명령어란 구체적으로 무엇인가? 명령어는 다음 네 가지 중 하나일 것이다. 명령어란 /usr/bin/ 디렉토리에서 본 파일들처럼 실행 프로그램을 말한다. 이러한 범주에서 프로그램 C나 C++ 언어로 작성된 프로그램처럼 컴파일된 바이너리 형식의 파일이거나 Shell, Perl, Python, Ruby와 같은 스크립트 언어로 만든 프로그램일 수 있다. 명령어란 쉘에 내장되어 있는 명령어다. b.. 2023. 12. 31.
[리눅스] 1.3 시스템 살펴보기 서론 리눅스 시스템을 본격적을 살펴보기 전, 앞서 몇 가지 알아두어야 할 명령어들이 있다. ls : 디렉토리 내용 나열하기 file : 파일 타입 확인하기 less : 파일 내용 표시하기 재미있는 ls 명령어 ls 명령어는 디렉토리의 목록을 볼 수 있고 중요 파일 및 디렉토리 속성을 결정할 때에도 유용하다. 이전에 본 것처럼 ls를 입력하기만 하면, 현재 작업 디렉토리에 있는 파일과 하위 디렉토리들이 모두 표시된다. 현재 작업 디렉토리에서 다른 디렉토리 목록을 보려면 ls 뒤에 폴더명을 적어 확인할 수 있다. 또한 한 번에 여러 디렉토리 목록을 볼 수 있다. 파일 디렉토리명 뿐만 아니라 좀 더 자세한 속성까지 확인하려면 -l 옵션을 사용한다. 명령어 옵션과 명령 인자 명령어는 주로 하나 이상의 옵션과 명.. 2023. 12. 31.
[리눅스] 1.2 파일시스템 탐색 서론 가장 먼저 배워야 할 첫 번째는 리눅스의 파일시스템을 탐색하는 법이다. 이 장에서는 다음 명령어들을 소개한다. pwd : 현재 작업 디렉토리를 표시하기 cd : 디렉토리 변경하기 (이동하기) ls : 디렉토리 내용 나열하기 파일시스템 트리 구조의 이해 리눅스와 같이 유닉스형 운영체제에서는 윈도우즈와 마찬가지로 계측정인 디렉터리 구조로 파일을 구성한다. 즉 트리 형식으로 디렉토리를 구성하고, 각 디렉토리에는 파일이나 다른 디렉토리가 포함될 수 있다. 파일시스템의 최상위 디렉토리를 root 디렉토리라고 하는데, 이 역시 파일들과 하위 디렉토리들을 포함하고 있고 하위 디렉토리 역시 디렉토리들과 파일들을 가지고 있다. 윈도우즈와의 차이점은, 윈도우는 저장장치마다 개별 파일시스템으로 관리하는 반면 유닉스형 .. 2023. 12. 31.
[리눅스] 1.1 쉘이란 무엇인가? 서론 쉘이란 키보드로 입력한 명령어를 운영체제에 전달하여 이 명령어를 실행하게 하는 프로그램이다. 대부분 리눅스 배포판은 bash라고 하는 GNU 프로젝트의 쉘 프로그램을 제공한다. bash라고 이름은 최초 유닉스 쉘 프로그램인 sh의 확장판이라는 의미를 담고 있다. 터미널 에뮬레이터 GUI 환경에서는 쉘과 직접 작업할 수 있도록 도와주는 터미널 에뮬레이터라는 프로그램이 필요하다. 리눅스에는 다양한 터미널 에뮬레이터가 있지만 사실상 모두 기본적으로 같은 기능을 수행하는데, 그것은 바로 쉘에 접근할 수 있게 해준다는 점이다. 첫 번째 키 입력 터미널 에뮬레이터를 실행하게 되면 다음과 같은 화면을 볼 수 있다. (우분투 기준 ctrl + art + T) 이것은 쉘 프롬프트라고 부르며 쉘이 입력가능한 상태일 .. 2023. 12. 31.
[SQL] With 구문_CTE 만들기 설명 CTE 만들기 (실존하지 않는 가상 테이블 만들기) 예시 가상 테이블 만들기 bins : 30부터 60까지 5씩 커지는 bin을 만드는 내용 (upper는 상한값, lower은 하한값) ebs : amazon-ebs라도 태깅된 값을 가져오는 내용 하단 카운팅 내용 특정 구간마다 해당하는 수를 세서 print 2023. 2. 5.