본문 바로가기

크롤링3

크롤링한 데이터 Pandas로 관리 크롤링하기 위해 필요한 라이브러리from selenium import webdriverfrom selenium.webdriver.chrome.service import Servicefrom selenium.webdriver.common.by import Byfrom webdriver_manager.chrome import ChromeDriverManagerfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as EC안양 청년 정책 웹 사이트 url을 얻어온다.driver.get("https://www.anyang.go.kr/youth/contents.do.. 2024. 4. 21.
[Crowling] 크롤링한 데이터 엑셀 파일로 저장 크롤링한 데이터(정책) > 엑셀 > 데이터베이스 > 스프링 > 프론트에 띄우기 ==> 일단 이렇게 생각하고 작업 중이다. 데이터 양이 많아서 스프링 애플리케이션 내에서 메모리에 모두 유지하는 것보다는 데이터베이스에 저장하여 관리하는 것이 좋을 것 같아서 저러한 과정을 거치기로 한 것. 크롤링한 데이터를 엑셀 파일로 저장하는 과정은 생각보다 어렵지 않았다1. 먼저 필요한 라이브러리 설치pip install openpyxl 2. 엑셀파일 만들고 저장# 엑셀 만들기import openpyxlwb = openpyxl.Workbook()ws = wb.create_sheet('주거정책')ws['A1'] = 'number'ws['B1'] = 'name'ws['A2'] = 1ws['B2'] = '홍길동'wb.save(.. 2024. 3. 18.
[Crowling] python 웹 크롤링 전 포스팅에서 공공데이터 API를 활용하여 정책들을 받아왔었다.그거 하는 것도 꽤나 애먹었는데 내가 필요한 정보들이 아니었다.그래서 여러 사이트를 검색해보던 중 청년 정책들을 잘 소개해주는 사이트를 발견했다.카테고리 주거분야로 들어가면 주거 관련 정책들만 쫙 모아주니 여기서 데이터를 받아오면 좋겠다 생각했다.그래서 이번에는 웹 크롤링을 시도해봤다. 이것저것 정말 많이 해보는 ...  (vsCode 사용했습니다.)  내가 할 것은 1. 위의 사이트에서 정책 제목들을 가져오는 것2. 해당 정책의 상세보기에 접근할 수 있는 '사업 안내' 버튼 URL을 가져오는 것1. 필요한 라이브러리 설치크롤링에 기본이 되는 라이브러리들이다.pip install requestspip install beautifulsoup파이.. 2024. 3. 17.