본문 바로가기

스터디

[1주차] 데이터 분석과 빅데이터, 엑셀

Day1

 

왜 데이터 드리븐이 중요한가

: digital transformation - 일상속 디지털 전환

  (예: 노션, 캘린더, sns, 사진 클라우드 등)

: 산업 속 digital transformation - value proposition의 재정의를 통한 신규 사업모델 창출, 산업 전반의 혁신 견인

: Digital transformation의 실현 Enabler 중 Big Data는 가장 강력한 enabler

: 내외부 기업과 여러 기술로부터 생성되는 데이터 기반 가치 창출-> 서비스 사업 경쟁력의 원천

 

Data Driven

: 데이터 기반 의사결정

: 데이터가 모든 의사결정을 좌지우지

: 여러 절차의 반복

: 활용하는 곳

  - 제품(앱, 웹 제품 사용 증가 방법 발굴)

  - 사업(사업 성장 방법)

  - 마케팅(제품, 사업 성장 방법)

  - 예측 모델(머신러닝, 딥러닝, 통계,예측 모델 구축 및 관리)

: 예시

  예) 마켓 컬리

       고객 맞춤형 상품 추천, 재고 관리 및 수요 예측(구매 패턴, 계절성, 페이지 뷰 등), 마케팅 전략 개발

  예) 무신사

       고객 판메 데이터->자체브랜드 출시->수집된 데이터를 즉가 상품에 반영개선

: 금융회사 핵심 역량

  - 마이데이터 시대를 기반으로 고객의 자산관리 수요를 효과적으로 파악하기 위한 데이터 분석

 

Data Driven의 구성 요소

: volume - 대용량

: veolcity - 배치, 실시간 처리

: variety - 정형(예- 엑셀, 스프레드시트), 반정형, 비정형(예- 텍스트, 음성, 영상 등)

 

빅데이터

: 빅데이터로부터 Actionable Insight 발굴이 가치 창출의 핵심

: 발전 과정

  - 대량의 데이터를 분석하여 비즈니스 가치가 있는 정보 추출

  - 비즈니스 요구의 변화, 데이터 특성의 변화, 분석 기술의 변화

: 분석기법

- 크기(시계열 분석, 전수 데이터)

- 속도(실시간 추천 분석)

- 유형(비정형 데이터-> 텍스트 마이닝)

 

AI(Artificial Intelligence)

: 인간의 언어를 이지하고 학습된 지식 하에서 최적의 답변을 제시함으로써 인간의 사고 행동 지원

: 인공지는과 빅데이터의 공생관계(분석방법 고도화, 데이터 속도규모편리성)

  예) '자연어 처리' 기술 기반으로 인간의 지식을 학습하여 'evidence 기반 해답' 제시

     -> 인간을 돕는 확장 기능, 서비스 인터페이스 혁신

: AI 사례

  - (IBM Watson 적용) 의료 분야 자동 암 진단, 진료기록과 환자상태를 보고 치료법 색출

  - (네이버) N 드라이브 사진 분류, 컴퓨터가 학습한 데이터를 기반으로 이미지 패턴 인지 및 분류

 

AI의 변화와 트렌드

: 애널리틱스는 다양한 요소기술에 내재화되며, 자동화 민주화 등이 가속화 되는 추세

: AI-Driven 초 자동화, Augmented Analytics 전문성의 민주화, 자율 사물

: 코딩 보조 툴에 도움은 받되 의지하지는 말 것

: 다양한 러닝 방식, 자동화를 통한 Analytics 용이성 제고 등의 지속 발전

: 가치창출에 대한 고민의 본격화

: 생성형 AI에 대한 관심 증가, 윤리적 문제, 학습 데이터 오염 등의 리스크 완화 필요성 직면

: ChatGPT를 스타트로 생성형 AI에 대한 관심 증가

: ChatGPT 정보 서비스 시장의 패러다임 변화

 - 검색 -> 생성+검색 (검색 생성 경험 제공)

 - 산업별 영향(교육환경 고도화, 생산효율성 향상, 유통 예측 및 맞춤형 광고, 추천 서비스, 개인화 등)

 - 생성 AI 플러그인 생태계의 출현

 

기타

: 파이썬과 같이, 혹은 대용으로 자주 쓰기 좋은 툴

  - google colab(jupyter notebook과 동일/유사 daily)

  - huggingface hub(ai모델, 딥러닝 모델 저장소)

 

데이터 포털, 분석 관련 노하우

: kaggle(경진대회성), 공공데이터포털, dacon(경진대회 플랫폼)

: 주제와 목적을 끊임없이 생각하기

: 유용한 책('데이터 문해력', '로지컬 띵킹' 등), 사이트(강의자료 속 사이트 취향껏)를 통한 환경 세팅

: 현업가의 미니 사이드 프로젝트 후기 등등 참조하여 데이터 분석 경로 분석

: 데이터 분석 주제 선정시, 일상속에서 소재 찾아보기(예- 영수증을 분석하며 ocr 알아보기 등)

: 주 통계기법(평균분산, 시계열, 영향도 분석,  등)

: 많은 데이터를 실시간으로 이해할 수 있는 능력 함양 필요

 

커리어

: 네트워킹(기본-회사 팀원, 해외-지연학연,주변인바운더리,밋업,컨퍼런스,부트캠프 등 최대한 활용)

: 공부(새로운게 나왔을 때 가능하다면 빠르게 체험하고 적응해봐야)

: 실무에서 어필할만한 실력은 어느정도인지

  - 데이터 사이언티스트 컨설턴트의 경우(석박사ㅠㅠ...)

  - 제너럴(공공데이터로 프로젝트 제작해볼 수 있을 정도라면 어느정도 가능)

: 인간(ai와 비교했을때)이 경쟁력을 갖추려면 필요한 역량 - 판단력

: 신입이 취업하려면

  - 포트폴리오 필수

  - 최대한 현업과 비슷한 프로젝트 경험 어필

  - 비슷한 직군에서 신입 시작 후 데이터 애널리스트 이직 루트도 가능

: 비전공자 현직자? 가능

  - 주 전공은 통계학, 컴퓨터공학 등, 학사 문과, 석사 이과 루트도 있음

  - 기본적으로 데이터 사이언티스트 외에는 비전공자여도 가능

: 정성->정량 바꾸는 법

  - 카테고리화, one-hot encoding 등

: 주로 사용하는 시각화 툴

  - 태블로, superset, plotly(python) + dash

: 목적성에 알맞는 코드가 중요

: 자신의 도메인을 결정하지 못한 경우 어떻게 해야 하나요

  - 도메인을 막론하고 jd를 보고 해봄직한 애들부터 지원

 

 

 

 

 

Day2

 

데이터 리터러시

: 데이터를 구조적 관점에서 파악할 수 있는 역량

: 왜 중요한가요? 엄청난 양의 데이터

: 넘쳐나는 데이터를 모두 볼 순 없다

: 필요한 데이터를 선발할 수 있는 역량이 필요

 

데이터 리터러시의 종류

1. 기술적 데이터 리터러시

: 데이터를 기술적 관점에서 활용할 수 있는 역량

: 데이터의 종류, 유형, 특징 등을 통계적 관점에서 파악할 수 있는 역량

 

2. 해석적 데이터 리터러시

: 데이터를 해석적 관점에서 의미를 파악하는 역량

: 데이터를 해석하여 인사이트 도출

 

데이터 분석

: 유용한 정보를 발굴하고 결론 내용을 알리며 의사결정을 지원하는 목표로 데이터를 정리, 반환, 모델링하는 과정

: 의사결정을 더 과학적으로 만들고 비즈니스를 체계적으로 운영하는데 지원

 

데이터 분석 프로세스

: 문제 정의 및 분석 목적 설정 → 데이터 수집 →  데이터 탐색 →  데이터 전처리 →  데이터 분석 →  검증 및 평가 →  데이터 시각화

 

엑셀

: 사용하기 쉽고 데이터를 빠르게 처리 가능하며 어디서나 접근 가능

: 사용자의 입장에서 목적에 부합하도록 자료를 구성

: 상대참조(이동한 값 만큼 수식의 셀도 이동)

:절대참조(이동과 관계엇이 참조된 셀이 이동하지 않음)

: 혼합참조(상대참조+절대참조)

  - 혼합참조 변경시 F4 버튼 누르기(여러번 눌러 고정하고 싶은 위치 변경 가능)

  예) F4 2번 누르면 C$5:C12

: 행 숨기기 = Ctrl+9 / 숨김 취소=Ctrl+Shift+9

: 열 숨기기=Ctrl+0 / 숨김 취소=단축키 없음, 마우스 오른쪽 클릭 후 숨김 취소 누르기

: 빠른 실행 도구 모음(세팅 완료) 적극 활용하기

 

 

 

 

 

Day3

 

함수의 원리와 기본 함수

: 함수 - 복잡한 수식이나 계산을 간단한 명령어로 사용할 수 있게 하는 도구

: SUM, AVERAGE 등

: Ctrl+화살표 키

  - 데이터 셀의 끝으로 이동

  - 한 번 더 누르면 엑셀의 끝으로 이동

: Shift+화살표 키

  - 처음 위치와 이동한 위치의 셀 동시에 잡기

: Ctrl+Shift+화살표 키

  - 데이터 셀 범위 잡기

 

COUNT 함수

: COUNT

  - 특정 범위에서 "숫자 데이터"의 개수 파악

: COUNTA

  - 특정 범위에서 비어 있지 않은 셀의 개수 파악

: COUNTBLANK

  - 특정 범위에서 비어 있는 셀의 개수 파악

: COUNTIF

  - 특정 범위에서 하나의 조건을 만족하는 셀의 개수 파악

  - 조건은 " "를 붙여야 함

: COUNTIFS

  - 특정 범위에서 2개 이상의 조건을 동시에 만족하는 셀의 개수 파악

 

IF 함수

: 조건을 가정하고 만족하는 값과 만족하지 않는 값을 다르게 표시

 

VLOOKUP 함수

: 공통 기준 열을 기준으로 n번째 있는 데이터를 찾아오는 함수

: 원하는 데이터를 불러오기 좋은 함수

: 조건

  - 작성 중인 표와 원래 데이터 간의 공통 기준 열이 있어야 함

  - 불러오고자 하느 데이터가 원래 데이터의 공통 기준 열 "오른쪽"에 있어야 함

  - 공통 기준 열에 중복된 데이터가 없어야 함

: 원리

  - 원래 데이터의 공통 기준열을 1열이라고 가정하고 n번째 있는 열의 데이터를 불러옴

: 수식

=VLOOKUP

( 기준 데이터

, 원래 데이터의 범위(from 공통 기준열)

, 불러올 데이터의 열 번호(공통 기준열=1열 기준)

, 0(FALSE)=정확히 일치/1(TRUE)=근사치여도 괜찮음 )

 

MATCH 함수

: 내가 찾고 싶은 값이 한 행/열에서 몇 번째에 있는지 숫자로 알려줌

: 결과가 반드시 숫자(몇 번째)

: 수식

=MATCH

( 찾고 싶은 값

, 찾고 싶은 값이 포함 된 단일 열/행/범위

, 정확히 일치 or 근사치 여부 )

 

SUMIF 함수

: 특정 조건에 맞는 데이터들의 합계 계산

: SUMIFS

  - 조건이 2개 이상인 경우

  - 수식

   =SUMIFS(더할 값들의 범위, 더할 조건 범위, 조건1, 더할 조건 범위2, 조건2, ... )

 

텍스트 처리 함수1

: 원하는 텍스트의 위치 찾기 함수

: FIND 함수

  - 긴 텍스트에서 특정 단어나 문장이 시작하는 위치를 숫자로 출력

  - 띄어쓰기까지 포함하여 문자를 세며 대소문자를 구분

  - =FIND(찾을 텍스트, 긴 텍스트, 문자열을 찾기 시작할 위치(생략 가능) )

  - 특정 단어 포함 여부 파악하는 방법

     -> 숫자가 나오면 특정 단어가 포함, 오류가 나면 포함X

: SEARCH 함수

  - 긴 텍스트에서 특정 단어나 문장이 시작하는 위치를 숫자로 출력

  - 띄어쓰기까지 포함하여 문자를 세며 대소문자를 구분하지 않음

 

텍스트 처리 함수2

: LEFT/RIGHT 함수

  - 텍스트의 가장 왼쪽/오른쪽부터 원하는 문자열까지 추출

  - =LEFT/RIGHT(전체 텍스트, 불러올 문자열 수)

: MID 함수

  - 텍스트의 중간 시작 위치부터 원하는 문자열까지 추출

  - =MID(전체 텍스트, 불러올 문자열의 시작 위치, 불러올 문자열 수)

: LEN 함수(추가)

  - 텍스트 문자열의 총 길이

  - =LEN(텍스트)

 

날짜 처리 함수

: DAYS/DATEDIF 함수

  - 기간을 일 단위/원하는 단위로 계산하는 함수

  - 종료일을 기간에 포함시켜야 할 시 기간을 구하는 수식에+1

  - =DAYS(종료일, 시작일)

  - =DATEDIF(시작일, 종료일, "계산단위")

: YEAR/MONTH/DAY 함수

 

피벗 테이블

: 커다란 표의 데이터를 요약하는 통계표

 

텍스트 나누기

: 1개의 셀에 있는 데이터를 2개 이상의 셀에 나누는 기능

: 셀이나 범위 선택 - [데이터] 탭- [텍스트 나누기]

 

필터와 고급 필터

: 필터 단축키

  - Alt+D+F+F

  - Alt+A+T

  - Ctrl+Shift+L

: 조건을 한 행에 쓰면 AND 조건(모두 만족), 여러 행에 쓰면 OR 조건(하나만 만족)

 

데이터 유효성 검사

: 셀이나 범위에 상황에 따라 내가 유효하다고 인정하는 데이터만 입력되게 하는 기능

: 셀이나 범위 선택 - [데이터] 탭 - [데이터 유효성 검사] 

 

차트 작성하기

: 구분 및 차트에 삽입하고자 하는 데이터 범위 선택 - [삽입] 탭 - 차트

: 막대형/ 꺾은선형/원형 등

 

조건부 서식 적용하기1

: 조건부 서식

  - 특정 조건 규칙을 만족하는 데이터에만 자동으로 서식이 적용되도록 하는 기능

  - 셀 값을 기준으로 모든 셀의 서식 지정(2가지 색조, 데이터 막대, 아이콘 집합 등)

 

조건부 서식 적용하기2

: 다음을 포함하는 셀만 서식 지정

  - 선택한 범위에서 특정한 조건을 만족하는 데이터에만 서식 적용

:  상위 또는 하위 값만 서식 지정

: 평균보다 크거나 작은 값만 서식 지정

: 고유 또는 중복 값만 서식 지정

 

조건부 서식 적용하기3

: 수식을 사용하여 서식을 지정한 셀 결정

  - 임의의 수식의 결과가 참이 되게 하는 데이터에만 서식 적용

 

데이터 분석의 개념

: 유용한 정보를 발굴하고 결론 내용을 알리며 의사결정을 지원하는 것을 목표로 데이터를 정리, 변환, 모델링하는 과정

: 현실과 이상의 차이 →  어떻게 문제를 해결한 것인가 → 과거 데이터를 분석해 해결 방법 모색 → 이를 이용해 문제를 해결하기 위한 원인 파악 및 해결 방안(인사이트) 도출

 

데이터 분석의 목적과 과정

: 목적 - 문제 해결 및 상황을 개선시킬 수 있는 인사이트 도출

: 과정

  - 데이터 수집

  - 데이터 전처리(분석 목적 및 방법에 부합하도록 데이터의 내용, 형태 가공)

  - 데이터 모델링(결과 도출을 위한 수식, 함수, 기능 적용)

  - 검증 및 평가(개선 효과 계산, 과거 데이터와 비교, 다양한 방법 간 비교)

  - 데이터 시각화

: 엑셀은 데이터 전처리와 시각화에 특화되어 있음.

 

데이터 분석 사례

: 머신러닝 기법을 활용한 취업 예측모델에 관한 연구

 

손익계산서 작성 및 손익 데이터 분석1

: 손익계산서 - 회계기간에 속하는 모든 수익과 대응하는 모든 비용을 적정하게 표시하여 손익을 나타내는 회계문서

: 월별 손익 비교

 

매출 분석을 위한 대시보드 작성

: 독립적인 화면에 중요 성과에 관한 그래프와 차트

 

 

 

 

 

Day4

 

탐색적 데이터 분석(EDA, Exploratory Data Analysis)

: 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 하는 자료 분석 방법

: 기존의 통계학이 정보의 추출 과정에서 가설 검정 등에 치우쳐, 자료가 가지고 있는 본연의 의미를 찾는 데 어려움이 있어 등장함

: 존재하지 않는다 믿는 것들도 발견하려는 태도, 유연성

: 탐색적 데이터 분석을 잘 수행해야 전반적인 데이터 분석 또한 잘 수행할 수 있음

 

사용 도구

: 데이터 분석 도구(in 엑셀)

: 피벗 테이블

  - 엑셀에서 커다란 표의 데이터를 요약하는 통계표

 

결측치(Missing Value)

: 데이터에 값이 없는 것

: NA(Not Available) - 유효하지 않은

: NaN(Not a Number) - 숫자가 아닌

: Null - 아무것도 존재하지 않음 등등

: 처리 방법

  - 결측치의 유형 및 비율에 따라 적절한 결측치 처리 방법을 결정

  - 제거, 치환, 모델 기반 처리 등

 

이상치

: 특정 지정된 그룹에 분류되지 못하는 값
: 정상군의 상한과 하한의 범위를 벗어나 있거나 패턴에서 벗어난 수치

: 일반적으로 표준편차(-3a) 미만, 3a 초과인 값을 이상치로 판정

: 이상치를 제거할지 대체할지 분석할지는 경우에 따라 다름

 

How to check 이상치

1. 4분위수

: 데이터를 4등분하는 값

: 1사분위수, 3사분위수 등

 

2. IQR(Inter Quartile Range)

: 1사분위수와 3사분위수 간의 거리

: 1사분위수부터 -1.5*IQR보다 작거나 3사분위수부터 +1.5*IQR보다 큰 값들이 이상치

 

3. Box Plot(상자 도표)

: 5개의 수치적 자료를 활용해 데이터의 분포와 범위를 표현한 그래프

 

4. 상관 분석

: 두 변수가 어떤 선형적 관계를 갖고 있는지를 분석하는 방법

: 상관 관계

  - 한쪽이 증가하면 다른 쪽도 증가하거나 반대로 감소되는 경향을 인정하는 두 양 사이의 통계적 관계

  - 상관 계수를 통해 파악

 

4-1. 상관 계수

: 상관 계수 r은 두 변수 사이의 상관성을 나타냄

: 일반적으로 피어슨 상관 계수를 사용

: 1에 가까울 수록 양의 상관 관계(정비례), -1에 가까울수록 음의 상관 관계(반비례)

 

4-2. EDA에서 상관 분석의 역할

: 인과 관계가 있을 것이라 예상되는 변수들을 선별해 분석의 우선순위를 정할 수 있음

: 유의점

  - 강한 상관 관계가 있다고 해서 두 변수가 반드시 인과 관계를 가지는 것은 아님

  - 상관 관계가 높은 변수들을 중심으로 인과 관계를 경험적으로 입증해야 함

 

여담) 데이터 분석에 좋은 책

: 겉표지 디자인이 취향인 책

: 그냥 빨리 사서 빨리 시작하는 게 좋다

 

데이터 전처리

: 데이터의 분석 목적과 방법에 맞게 데이터를 가공 또는 처리하는 과정

: 형태 변환, 변수 선정, 결측치 및 이상치 처리, 데이터 분류(카테고리화), 데이터 분리 및 결합, 기타 데이터 가공 및 처리 등

: 가장 많은 시간과 비용이 드는 과정

: GIGO(Garbage In, Garbage Out) 법칙을 따름

 

INDEX&MATCH 함수

: 기준열 왼쪽에 위치한 데이터는 불러올 수 없다는 VLOOKUP 함수의 한계를 극복하기 위해 INDEX 함수와 MATCH 함수를 함께 사용

: INDEX 함수는 특정 범위에서 행 번호와 열 번호로 원하는 데이터를 불러옴

: =INDEX(데이터의 전체 범위, 찾고 싶은 데이터의 범위 내 행 번호, 찾고 싶은 데이터의 범위 내 열 번호)

 

 

 

 

 

반응형