2022. 3. 18. 00:01ㆍ독학으로 취업 문 뿌수기/Excel
* 데이터 수집의 대표적인 방법
1) ETL (Extraction, Transformation, Loading)
- 내부 데이터 수집 방법
- A 시스템에서 B 시스템으로 데이터를 전송할 때 B 시스템에 맞춘 데이터 형식으로의 변환 작업을 거쳐 전송/적재하는 과정
- 보통 큰 규모의 회사에서 사용함
2) Open API (Application Program Interface)
- 특정 데이터를 활용하기 위한 허가를 받은 뒤, 오픈된 데이터를 활용하여 프로그램을 만드는 과정
- ex : 서울시 교통 정보 데이터를 신청하여 이를 활용한 교통 정보 앱을 만드는 경우
3) 크롤링 엔진 (Crawling Engine)
- 외부 데이터 수집 방법
- 다른 사람이 만들어 놓은 웹 링크 상의 데이터를 로봇(프로그램)이 따라다니며 방문한 페이지의 모든 페이지 복사본을 생성하여 문서를 수집
- 많은 데이터를 수집하는 방법이 될 수 있으나 해당 사이트에 무리를 주지 않도록 주의해야 함
4) 센싱 (Sencing)
- 다양한 센서와 IoT 기술을 통해 실시간으로 변화하는 데이터를 수집하는 과정
- ex : 자동문 / 실시간 맥박을 측정해 건강관리에 반영하는 손목시계 등
Data Crawling
Listly
<XImage 함수>
개발도구 - visual basic - 삽입 - 모듈 - 붙여넣기
셀 입력: =ximage(URL 주소)
Function xIMAGE(Link, Optional UpdateImage As Boolean = True) As Boolean
Dim aRng As Range: Dim aWS As Worksheet
Dim shpImg As Shape
On Error Resume Next
Set aRng = Application.Caller
Set aWS = aRng.Parent
Application.EnableEvents = False
If IsEmpty(Link) Then Exit Function
For Each shpImg In aWS.Shapes
If shpImg.TopLeftCell.Address = aRng.Address Then
If UpdateImage = True Then
shpImg.Delete
Else
xIMAGE = True
GoTo Final
Exit Function
End If
End If
Next
Set shpImg = aWS.Shapes.AddPicture(Link, msoFalse, msoTrue, aRng.Left + 3, aRng.Top + 3, aRng.Width - 6, aRng.Height - 6)
shpImg.Placement = xlMoveAndSize
If shpImg Is Nothing Then xIMAGE = CVErr(xlValue)
xIMAGE = True
Exit Function
Final:
Set shpImg = Nothing: Set aRng = Nothing: Set aWS = Nothing
Application.EnableEvents = True
End Function
MS 파워쿼리
- 테이블 합치기
- 테이블 그룹화 (피벗테이블)
- 폴더의 파일 합치기
- 다수의 패턴 다루기
데이터 가져오는 방법 1. 웹URL 2. RSS피드 페이지URL
NodeXL
- SNS에서 특정 검색어로 작성된 글 불러오기
<트위터에서 '코로나'라는 단어를 사용한 모든 글>
- Graph Metrics - 네트워크 특정값 계산
<코로나와 관련하여 가장 빈번히 사용된 단어>
통계 분석
두 샘플 평균의 비교
1. 독립표본, 대응표본 t검정
두 집단 간 모평군에 차이가 없다 / 있다
- 귀무가설: 남성과 여성의 매출액은 차이가 없다
- 대립가설: 남성과 여성의 매출액은 차이가 있다.
결론: 검정통계량 값은 1.42169이고 유의확률 p값은 0.15543으로 유의수준 0.05보다 크므로 귀무가설인 '남성과 여성의 매출액은 차이가 없다'를 채택
3개 이상 샘플 평균의 비교
2. 일원배치(변수 1개) 분산분석 (ANOVA : Analysis Of Variance)
각 집단에 대한 모평균이 차이가 없다(=모두 같다) / 차이가 있다
결론: F값이 79.6087로 F기각치인 2.61384보다 크므로 귀무가설을 기각한다. 따라서 4개의 그룹은 구매유형에 따라 구매비용에 차이가 있다.
집단 간 인과관계 검증
상관계수 r
- 귀무가설: 두 변수 간에 선형 연관성이 없다.
- 대립가설: 두 변수 간에 선형 연관성이 있다. (유의확률 p값이 유의수준보다 작으면)
3. 회귀분석
독립변수가 1개일 때 ▶단순회귀분석
독립변수가 2개 이상 때 ▶다중회귀분석
- 귀무가설: 회귀계수는 유의하지 않다.
- 대립가설: 회귀계수는 유의하다. (유의확률 p값이 유의수준보다 작으면)
<서비스 만족도, 상품 품질, 상품 다양성, 진열, 매장 청결, 음향, 친절성, 전문성이 매장 만족도에 미치는 영향>
- y축: 종속변수, x축: 독립변수
결론: 결정계수 값이 0.256845으로 의미있는 회귀식이라고 할 수 없다. (=낮은 정확도) 상품 품질, 상품 다양성, 전문성은 유의수준 0.05보다 작으므로 귀무가설을 기각하여 유의하다고 할 수 있다. 나머지 변수는 0.05보다 크므로 귀무가설을 채택하여 유의하지 않다고 할 수 있다.
데이터 시각화
'독학으로 취업 문 뿌수기 > Excel' 카테고리의 다른 글
의류 매출 현황 대시보드 만들기 (0) | 2022.03.18 |
---|