본문 바로가기

코딩

(3)

파이썬으로 웹 크롤링하기(3) 동적 페이지 이전까지의 크롤링은 정적으로 변하거나 한 페이지만 크롤링을 하였다. 예를 들어 다음 페이지를 눌렀는데 URL 주소가 변하지 않고 그대로라면 이전 방식으로는 크롤링을 할 수 없다. 이러한 상황에서 크롤링을 하기 위해서는 chromedirver와 파이썬 라이브러리인 selenium이 필요하다. 우선 교보문고의 국내도서 -> 소설 -> 베스트셀러 경로로 들어가보자. 첫 페이지의 URL은 http://www.kyobobook.co.kr/categoryRenewal/categoryMain.laf?perPage=20&mallGb=KOR&linkClass=01&menuCode=002이다. 다음 페이지로 넘겨보아도 URL은 http://www.kyobobook.co.kr/categoryRenewal/categoryMa..

파이썬으로 웹 크롤링하기(2) 데이터 변환 저번 글에 이어 이번에는 가격과 작가 정보를 추가로 얻어와 csv파일과 xlsx 파일로 저장을 해보겠다. 우선 작가와 가격정보는 크롬의 개발도구를 이용하여 selector를 얻고 동일하게 정보를 가져온다. 소스코드 - import requests from bs4 import BeautifulSoup def get_name(url): name = list() html = requests.get(url).text soup = BeautifulSoup(html, 'html.parser') for anchor in soup.select("div.info_area > div.detail > div.title > a > strong"): name.append(anchor.get_text()) return name ..

파이썬으로 웹 크롤링 하기(1) 정적인 웹 페이지 1. URL 요청하기 URL 요청은 파이썬 라이브러리 requests를 사용한다. import requests url = requests.get('https://www.naver.com/') print(url.status_code) print(url.text) 이렇게 실행을하면 다음과 같이 html 코드를 출력하는것을 볼 수 있다. 2.BeautifulSoup BeautifulSoup은 원하는 html의 요소에 접근할 수 있도록 도와준다. 다음 예제는 교보 문고 국내도서 소설 카테고리의 베스트셀러 제목들을 텍스트 형식으로 가져오는 예제이다. 우선 크롬의 개발도구를 F12키를 눌러 열고 제목부분을 오른쪽 클릭하여 검사를 누른다. 검사를 누르면 파란색으로 강조되는 영역을 오른쪽 클릭하고 Copy -> Cop..

이전 1 다음

티스토리툴바