본문 바로가기

데이타 사이언스

웹크롤링을 위한 환경설정 및 검색어 자동실행 1. 웹크롤링 준비 Beautiful Soup 설치 (pip install bs4) selenium 패키지 설치 (pip install selenium) - 사람을 대신해서 주어진 작업을 작업해 주는 프로그램 selenium 패키지가 사용할 웹 브라우저 프로그램(웹 드라이버)을 설치한다. - https://chromedriver.storage.googleapis.com/index.html?path=2.40/ https://chromedriver.storage.googleapis.com/index.html?path=2.40/ chromedriver.storage.googleapis.com 원하는 OS용 크롬 드라이버를 눌러서 원하는 폴더에 다운로드 한다. 2. 검색어 자동 실행 소스 from bs4 imp..
네이버 뉴스 제목 가져오기 네이버 뉴스의 오늘의 기사 제목을 가져오기 뉴스 기사나 게시판 글 제목 등은 우리가 수집 해보고 싶은 데이터들입니다. import urllib.request import bs4 url = "http://news.naver.com" html = urllib.request.urlopen(url) bs_obj = bs4.BeautifulSoup(html, "html.parser") headline = bs_obj.find("ul", {"class":"hdline_article_list"}) lis = headline.findAll("li") for li in lis: a = li.find("a") print(a.text)
데이터 사이언스 프로세스 데이터 사이언스 단계 1. 문제 정의하기 2. 데이터 모으기 3. 데이터 다듬기 4. 데이터 분석하기 5. 데이터 시각화 및 커뮤니케이션 문제 정의 하기 해결하고자 하는 문제를 정의 합니다. 이 단에서는는 해결하고자 하는 게 무엇인지, 언제까지 어떤 결과물을 얻을 것인지, 어떤 방식으로 데이터를 활용할 것인지 등을 설정합니다. 아무 목적 없이 데이터를 살표 보면, 의미 있는 발견을 하기 어러렵습니다. 목표 설정 기간 설정 평가 방법 설정 필요한 데이터 설정 데이터 모으기 필요한 데이터를 모을 수 있는 방법을 찾습니다. 누군가 이미 모아 놓은 데이터를 그대로 사용할 수도 있고, 공공 기관 등에서 배포한 자료를 찾아 볼수도 있고, 혹은 웹사이트에서 직접 데이터를 수집 할 수도 있습니다. 웹 크롤링 자료 모으..