본문 바로가기

HTML

(3)

파이썬으로 웹 크롤링하기(4)최대 페이지 이전 글에서는 페이지 번호를 내가 지정해서 그 페이지까지 크롤링을 하였지만 최대 페이지를 모르는 경우도 있고 여러가지 상황이 있을 수 있다. 다음 소스코드는 최대 페이지까지 크롤링을 진행하여준다. -소스코드 import requests from bs4 import BeautifulSoup import pandas as pd from selenium import webdriver from openpyxl import Workbook import os import time def get_data(url): name = list() author = list() price = list() options = webdriver.ChromeOptions() chromedriver_path = (r'C:/Users/e..

파이썬으로 웹 크롤링하기(3) 동적 페이지 이전까지의 크롤링은 정적으로 변하거나 한 페이지만 크롤링을 하였다. 예를 들어 다음 페이지를 눌렀는데 URL 주소가 변하지 않고 그대로라면 이전 방식으로는 크롤링을 할 수 없다. 이러한 상황에서 크롤링을 하기 위해서는 chromedirver와 파이썬 라이브러리인 selenium이 필요하다. 우선 교보문고의 국내도서 -> 소설 -> 베스트셀러 경로로 들어가보자. 첫 페이지의 URL은 http://www.kyobobook.co.kr/categoryRenewal/categoryMain.laf?perPage=20&mallGb=KOR&linkClass=01&menuCode=002이다. 다음 페이지로 넘겨보아도 URL은 http://www.kyobobook.co.kr/categoryRenewal/categoryMa..

파이썬으로 웹 크롤링 하기(1) 정적인 웹 페이지 1. URL 요청하기 URL 요청은 파이썬 라이브러리 requests를 사용한다. import requests url = requests.get('https://www.naver.com/') print(url.status_code) print(url.text) 이렇게 실행을하면 다음과 같이 html 코드를 출력하는것을 볼 수 있다. 2.BeautifulSoup BeautifulSoup은 원하는 html의 요소에 접근할 수 있도록 도와준다. 다음 예제는 교보 문고 국내도서 소설 카테고리의 베스트셀러 제목들을 텍스트 형식으로 가져오는 예제이다. 우선 크롬의 개발도구를 F12키를 눌러 열고 제목부분을 오른쪽 클릭하여 검사를 누른다. 검사를 누르면 파란색으로 강조되는 영역을 오른쪽 클릭하고 Copy -> Cop..

이전 1 다음

티스토리툴바