독학으로 취업 문 뿌수기(20)
-
Excel로 데이터 수집하고 분석하기
* 데이터 수집의 대표적인 방법 1) ETL (Extraction, Transformation, Loading) 내부 데이터 수집 방법 A 시스템에서 B 시스템으로 데이터를 전송할 때 B 시스템에 맞춘 데이터 형식으로의 변환 작업을 거쳐 전송/적재하는 과정 보통 큰 규모의 회사에서 사용함 2) Open API (Application Program Interface) 특정 데이터를 활용하기 위한 허가를 받은 뒤, 오픈된 데이터를 활용하여 프로그램을 만드는 과정 ex : 서울시 교통 정보 데이터를 신청하여 이를 활용한 교통 정보 앱을 만드는 경우 3) 크롤링 엔진 (Crawling Engine) 외부 데이터 수집 방법 다른 사람이 만들어 놓은 웹 링크 상의 데이터를 로봇(프로그램)이 따라다니며 방문한 페이지..
2022.03.18 -
[Jupyter Notebook] Matplotilb로 데이터 시각화하기
※ 라이브러리 불러오기 import matplotlib.pyplot as plt ※ 필요없는 정보 보여지지 않음 plt.show() 1. 그래프 기본 2. 축 plt.plot(x,y) plt.xlabel('X축', color = 'red', loc = 'right') #loc는 로케이션(위치)로 left, center, right 중에서 선택 plt.ylabel('Y축', color = '#00aa00', loc = 'top') #top, center, bottom 3. 범례 plt.plot(x,y, label='무슨 데이터') plt.legend(loc = (0.7, 0.8)) #x축, y축 0~1사이 4. 스타일 plt.plot(x, y, marker = 'o', markersize = 10, mar..
2022.03.10 -
[Jupyter Notebook] Pandas로 데이터 분석하기
※ 수정사항을 실제 데이터에 바로 반영: inplace=True 1. Series 객체: 1차원 데이터(정수, 실수, 문자열 등) temp = pd.Series([-20, -10, 10, 20], index = ['Jan', 'Feb', 'Mar', 'Apr']) 2. DataFrame 객체: 2차원 데이터 (Series들의 모음) data 이름의 사전을 DataFrame 객체로 생성, Index 지정 import pandas as pd df = pd.DataFrame(data, index = ['1번', '2번', '3번', '4번', '5번', '6번', '7번', '8번']) data 중에서 원하는 column만 선택하거나, 순서 변경 가능 df = pd.DataFrame(data, columns ..
2022.02.28 -
아나콘다 설치와 주피터 노트북 사용법
해당 영상을 참고하여 작성한 글입니다. ※ 주피터 실행은 크롬으로 해주기 실행: NEW - PYTHON3 Code 파이썬과 동일한 문법 ex. print("ooo") import random print(random.randint(1,45)) random.randint? >>> randint에 대한 설명을 볼 수 있다. import time for i in range(100): print(i) time.sleep(1) >>> 1초에 하나씩 출력 Markdown 1. 문서 형식으로 출력 # 으로 시작하면 제목처럼 크고 굵은 폰트로 출력 (#개수가 많을수록 폰트 크기가 작아진다) > 로 시작하면 인용문처럼 출력 --- 는 구분선 생성 - 는 리스트 생성 스페이스바 두번 누르면 새롭게 다음 줄에서 다음 문장 실..
2022.02.27 -
구글 애널리틱스(GA) 핵심만 쏙쏙 알아보기
1. 유입출처 확인 획득 - 전체 트래픽 - 소스/매체 [획득 메뉴: 이미 쌓여진 데이터로 인사이트 도출할 때] direct = 직접 url을 입력하거나 즐겨찾기를 통해 유입 organic = 포털에서 검색해서 유입 cpc = 클릭 당 비용, 검색광고 ※ 여기서 나오는 매출액은 광고비가 포함되지 않은 수입이라 ROAS(광고비 대비 벌어들인 수익)을 파악할 수 없다. 따라서 이것만으로 매체의 좋고 나쁨을 판단할 수 없다. '광고 플랫폼에 쓰인 지출 데이터 + GA의 사용자 트래픽 데이터 + 자사 ADMIN 관리자 데이터'로 판단 GA의 데이터와 자사 데이터는 5~15%가량의 오차범위가 존재한다. 2. 사이트 유입 후 한 행동 확인 행동 - 사이트 콘텐츠 - 모든 페이지 [행동 메뉴: 사용자가 구매하기까지 ..
2022.02.26 -
[SQL을 이용해 데이터 분석하기] 제품의 가치 분석하기 (제품 성장률 분석)
1. 분석 전 제품 성장률 분석용 데이터 마트 생성하기 Sales 테이블(mem_no) + Product 테이블(category, brand) + 구매금액, 분기 (주문일자: 2020.01~06) 2. 데이터 마트를 활용해, 분석 보고서 작성 카테고리별 구매금액 성장률(%) (2020년 1분기 >> 2020년 2분기) 전분기 대비 성장률 = (2020년 2분기 / 2020년 1분기) -1 Beauty 카테고리 중 브랜드별 구매지표: 구매자수, 총구매금액, 인당구매금액 (=RFM) CREATE TABLE PRODUCT_GROWTH AS SELECT A.MEM_NO ,B.CATEGORY ,B.BRAND ,A.SALES_QTY * B.PRICE AS 구매금액 ,CASE WHEN DATE_FORMAT(ORDER..
2022.02.07