Excel로 데이터 수집하고 분석하기

2022. 3. 18. 00:01독학으로 취업 문 뿌수기/Excel

728x90
반응형
SMALL

* 데이터 수집의 대표적인 방법

1) ETL (Extraction, Transformation, Loading)

  • 내부 데이터 수집 방법
  • A 시스템에서 B 시스템으로 데이터를 전송할 때 B 시스템에 맞춘 데이터 형식으로의 변환 작업을 거쳐 전송/적재하는 과정
  • 보통 큰 규모의 회사에서 사용함

 

2) Open API (Application Program Interface)

  • 특정 데이터를 활용하기 위한 허가를 받은 뒤, 오픈된 데이터를 활용하여 프로그램을 만드는 과정
  • ex : 서울시 교통 정보 데이터를 신청하여 이를 활용한 교통 정보 앱을 만드는 경우

 

3) 크롤링 엔진 (Crawling Engine)

  • 외부 데이터 수집 방법
  • 다른 사람이 만들어 놓은 웹 링크 상의 데이터를 로봇(프로그램)이 따라다니며 방문한 페이지의 모든 페이지 복사본을 생성하여 문서를 수집
  • 많은 데이터를 수집하는 방법이 될 수 있으나 해당 사이트에 무리를 주지 않도록 주의해야 함

 

4) 센싱 (Sencing)

  • 다양한 센서와 IoT 기술을 통해 실시간으로 변화하는 데이터를 수집하는 과정
  • ex : 자동문 / 실시간 맥박을 측정해 건강관리에 반영하는 손목시계 등

Data Crawling

Listly

<XImage 함수> 

개발도구 - visual basic - 삽입 - 모듈 - 붙여넣기

셀 입력: =ximage(URL 주소)

https://www.oppadu.com/%EC%97%91%EC%85%80-%EB%A6%AC%EC%8A%A4%ED%8B%80%EB%A6%AC-%ED%81%AC%EB%A1%A4%EB%A7%81/#5

Function xIMAGE(Link, Optional UpdateImage As Boolean = True) As Boolean
 
Dim aRng As Range: Dim aWS As Worksheet
Dim shpImg As Shape
 
On Error Resume Next
 
Set aRng = Application.Caller
Set aWS = aRng.Parent
 
Application.EnableEvents = False
 
If IsEmpty(Link) Then Exit Function
 
For Each shpImg In aWS.Shapes
    If shpImg.TopLeftCell.Address = aRng.Address Then
        If UpdateImage = True Then
            shpImg.Delete
        Else
            xIMAGE = True
            GoTo Final
            Exit Function
        End If
    End If
Next
 
Set shpImg = aWS.Shapes.AddPicture(Link, msoFalse, msoTrue, aRng.Left + 3, aRng.Top + 3, aRng.Width - 6, aRng.Height - 6)
shpImg.Placement = xlMoveAndSize
 
If shpImg Is Nothing Then xIMAGE = CVErr(xlValue)
 
xIMAGE = True
Exit Function
 
Final:
Set shpImg = Nothing:    Set aRng = Nothing:    Set aWS = Nothing
Application.EnableEvents = True
 
End Function

MS 파워쿼리

  • 테이블 합치기
  • 테이블 그룹화 (피벗테이블)
  • 폴더의 파일 합치기
  • 다수의 패턴 다루기

데이터 가져오는 방법 1. 웹URL 2. RSS피드 페이지URL


NodeXL

  • SNS에서 특정 검색어로 작성된 글 불러오기

<트위터에서 '코로나'라는 단어를 사용한 모든 글>


  • Graph Metrics - 네트워크 특정값 계산

<코로나와 관련하여 가장 빈번히 사용된 단어>


통계 분석

두 샘플 평균의 비교

1. 독립표본, 대응표본 t검정

두 집단 간 모평군에 차이가 없다 / 있다

- 귀무가설: 남성과 여성의 매출액은 차이가 없다

- 대립가설: 남성과 여성의 매출액은 차이가 있다.

결론: 검정통계량 값은 1.42169이고 유의확률 p값은 0.15543으로 유의수준 0.05보다 크므로 귀무가설인 '남성과 여성의 매출액은 차이가 없다'를 채택

3개 이상 샘플 평균의 비교

2. 일원배치(변수 1개) 분산분석 (ANOVA : Analysis Of Variance)

각 집단에 대한 모평균이 차이가 없다(=모두 같다) / 차이가 있다

결론: F값이 79.6087F기각치인 2.61384보다 크므로 귀무가설을 기각한다. 따라서 4개의 그룹은 구매유형에 따라 구매비용에 차이가 있다.

집단 간 인과관계 검증

상관계수 r

- 귀무가설: 두 변수 간에 선형 연관성이 없다. 

- 대립가설: 두 변수 간에 선형 연관성이 있다. (유의확률 p값이 유의수준보다 작으면)


3. 회귀분석

독립변수가 1개일 때 ▶단순회귀분석

독립변수가 2개 이상 때 ▶다중회귀분석

- 귀무가설: 회귀계수는 유의하지 않다.

- 대립가설: 회귀계수는 유의하다. (유의확률 p값이 유의수준보다 작으면)


<서비스 만족도, 상품 품질, 상품 다양성, 진열, 매장 청결, 음향, 친절성, 전문성이 매장 만족도에 미치는 영향>

- y축: 종속변수, x축: 독립변수

결론: 결정계수 값이 0.256845으로 의미있는 회귀식이라고 할 수 없다. (=낮은 정확도) 상품 품질, 상품 다양성, 전문성은 유의수준 0.05보다 작으므로 귀무가설을 기각하여 유의하다고 할 수 있다. 나머지 변수는 0.05보다 크므로 귀무가설을 채택하여 유의하지 않다고 할 수 있다.

데이터 시각화







728x90
반응형
LIST