Day1
왜 데이터 드리븐이 중요한가
: digital transformation - 일상속 디지털 전환
(예: 노션, 캘린더, sns, 사진 클라우드 등)
: 산업 속 digital transformation - value proposition의 재정의를 통한 신규 사업모델 창출, 산업 전반의 혁신 견인
: Digital transformation의 실현 Enabler 중 Big Data는 가장 강력한 enabler
: 내외부 기업과 여러 기술로부터 생성되는 데이터 기반 가치 창출-> 서비스 사업 경쟁력의 원천
Data Driven
: 데이터 기반 의사결정
: 데이터가 모든 의사결정을 좌지우지
: 여러 절차의 반복
: 활용하는 곳
- 제품(앱, 웹 제품 사용 증가 방법 발굴)
- 사업(사업 성장 방법)
- 마케팅(제품, 사업 성장 방법)
- 예측 모델(머신러닝, 딥러닝, 통계,예측 모델 구축 및 관리)
: 예시
예) 마켓 컬리
고객 맞춤형 상품 추천, 재고 관리 및 수요 예측(구매 패턴, 계절성, 페이지 뷰 등), 마케팅 전략 개발
예) 무신사
고객 판메 데이터->자체브랜드 출시->수집된 데이터를 즉가 상품에 반영개선
: 금융회사 핵심 역량
- 마이데이터 시대를 기반으로 고객의 자산관리 수요를 효과적으로 파악하기 위한 데이터 분석
Data Driven의 구성 요소
: volume - 대용량
: veolcity - 배치, 실시간 처리
: variety - 정형(예- 엑셀, 스프레드시트), 반정형, 비정형(예- 텍스트, 음성, 영상 등)
빅데이터
: 빅데이터로부터 Actionable Insight 발굴이 가치 창출의 핵심
: 발전 과정
- 대량의 데이터를 분석하여 비즈니스 가치가 있는 정보 추출
- 비즈니스 요구의 변화, 데이터 특성의 변화, 분석 기술의 변화
: 분석기법
- 크기(시계열 분석, 전수 데이터)
- 속도(실시간 추천 분석)
- 유형(비정형 데이터-> 텍스트 마이닝)
AI(Artificial Intelligence)
: 인간의 언어를 이지하고 학습된 지식 하에서 최적의 답변을 제시함으로써 인간의 사고 행동 지원
: 인공지는과 빅데이터의 공생관계(분석방법 고도화, 데이터 속도규모편리성)
예) '자연어 처리' 기술 기반으로 인간의 지식을 학습하여 'evidence 기반 해답' 제시
-> 인간을 돕는 확장 기능, 서비스 인터페이스 혁신
: AI 사례
- (IBM Watson 적용) 의료 분야 자동 암 진단, 진료기록과 환자상태를 보고 치료법 색출
- (네이버) N 드라이브 사진 분류, 컴퓨터가 학습한 데이터를 기반으로 이미지 패턴 인지 및 분류
AI의 변화와 트렌드
: 애널리틱스는 다양한 요소기술에 내재화되며, 자동화 민주화 등이 가속화 되는 추세
: AI-Driven 초 자동화, Augmented Analytics 전문성의 민주화, 자율 사물
: 코딩 보조 툴에 도움은 받되 의지하지는 말 것
: 다양한 러닝 방식, 자동화를 통한 Analytics 용이성 제고 등의 지속 발전
: 가치창출에 대한 고민의 본격화
: 생성형 AI에 대한 관심 증가, 윤리적 문제, 학습 데이터 오염 등의 리스크 완화 필요성 직면
: ChatGPT를 스타트로 생성형 AI에 대한 관심 증가
: ChatGPT 정보 서비스 시장의 패러다임 변화
- 검색 -> 생성+검색 (검색 생성 경험 제공)
- 산업별 영향(교육환경 고도화, 생산효율성 향상, 유통 예측 및 맞춤형 광고, 추천 서비스, 개인화 등)
- 생성 AI 플러그인 생태계의 출현
기타
: 파이썬과 같이, 혹은 대용으로 자주 쓰기 좋은 툴
- google colab(jupyter notebook과 동일/유사 daily)
- huggingface hub(ai모델, 딥러닝 모델 저장소)
데이터 포털, 분석 관련 노하우
: kaggle(경진대회성), 공공데이터포털, dacon(경진대회 플랫폼)
: 주제와 목적을 끊임없이 생각하기
: 유용한 책('데이터 문해력', '로지컬 띵킹' 등), 사이트(강의자료 속 사이트 취향껏)를 통한 환경 세팅
: 현업가의 미니 사이드 프로젝트 후기 등등 참조하여 데이터 분석 경로 분석
: 데이터 분석 주제 선정시, 일상속에서 소재 찾아보기(예- 영수증을 분석하며 ocr 알아보기 등)
: 주 통계기법(평균분산, 시계열, 영향도 분석, 등)
: 많은 데이터를 실시간으로 이해할 수 있는 능력 함양 필요
커리어
: 네트워킹(기본-회사 팀원, 해외-지연학연,주변인바운더리,밋업,컨퍼런스,부트캠프 등 최대한 활용)
: 공부(새로운게 나왔을 때 가능하다면 빠르게 체험하고 적응해봐야)
: 실무에서 어필할만한 실력은 어느정도인지
- 데이터 사이언티스트 컨설턴트의 경우(석박사ㅠㅠ...)
- 제너럴(공공데이터로 프로젝트 제작해볼 수 있을 정도라면 어느정도 가능)
: 인간(ai와 비교했을때)이 경쟁력을 갖추려면 필요한 역량 - 판단력
: 신입이 취업하려면
- 포트폴리오 필수
- 최대한 현업과 비슷한 프로젝트 경험 어필
- 비슷한 직군에서 신입 시작 후 데이터 애널리스트 이직 루트도 가능
: 비전공자 현직자? 가능
- 주 전공은 통계학, 컴퓨터공학 등, 학사 문과, 석사 이과 루트도 있음
- 기본적으로 데이터 사이언티스트 외에는 비전공자여도 가능
: 정성->정량 바꾸는 법
- 카테고리화, one-hot encoding 등
: 주로 사용하는 시각화 툴
- 태블로, superset, plotly(python) + dash
: 목적성에 알맞는 코드가 중요
: 자신의 도메인을 결정하지 못한 경우 어떻게 해야 하나요
- 도메인을 막론하고 jd를 보고 해봄직한 애들부터 지원
Day2
데이터 리터러시
: 데이터를 구조적 관점에서 파악할 수 있는 역량
: 왜 중요한가요? 엄청난 양의 데이터
: 넘쳐나는 데이터를 모두 볼 순 없다
: 필요한 데이터를 선발할 수 있는 역량이 필요
데이터 리터러시의 종류
1. 기술적 데이터 리터러시
: 데이터를 기술적 관점에서 활용할 수 있는 역량
: 데이터의 종류, 유형, 특징 등을 통계적 관점에서 파악할 수 있는 역량
2. 해석적 데이터 리터러시
: 데이터를 해석적 관점에서 의미를 파악하는 역량
: 데이터를 해석하여 인사이트 도출
데이터 분석
: 유용한 정보를 발굴하고 결론 내용을 알리며 의사결정을 지원하는 목표로 데이터를 정리, 반환, 모델링하는 과정
: 의사결정을 더 과학적으로 만들고 비즈니스를 체계적으로 운영하는데 지원
데이터 분석 프로세스
: 문제 정의 및 분석 목적 설정 → 데이터 수집 → 데이터 탐색 → 데이터 전처리 → 데이터 분석 → 검증 및 평가 → 데이터 시각화
엑셀
: 사용하기 쉽고 데이터를 빠르게 처리 가능하며 어디서나 접근 가능
: 사용자의 입장에서 목적에 부합하도록 자료를 구성
: 상대참조(이동한 값 만큼 수식의 셀도 이동)
:절대참조(이동과 관계엇이 참조된 셀이 이동하지 않음)
: 혼합참조(상대참조+절대참조)
- 혼합참조 변경시 F4 버튼 누르기(여러번 눌러 고정하고 싶은 위치 변경 가능)
예) F4 2번 누르면 C$5:C12
: 행 숨기기 = Ctrl+9 / 숨김 취소=Ctrl+Shift+9
: 열 숨기기=Ctrl+0 / 숨김 취소=단축키 없음, 마우스 오른쪽 클릭 후 숨김 취소 누르기
: 빠른 실행 도구 모음(세팅 완료) 적극 활용하기
Day3
함수의 원리와 기본 함수
: 함수 - 복잡한 수식이나 계산을 간단한 명령어로 사용할 수 있게 하는 도구
: SUM, AVERAGE 등
: Ctrl+화살표 키
- 데이터 셀의 끝으로 이동
- 한 번 더 누르면 엑셀의 끝으로 이동
: Shift+화살표 키
- 처음 위치와 이동한 위치의 셀 동시에 잡기
: Ctrl+Shift+화살표 키
- 데이터 셀 범위 잡기
COUNT 함수
: COUNT
- 특정 범위에서 "숫자 데이터"의 개수 파악
: COUNTA
- 특정 범위에서 비어 있지 않은 셀의 개수 파악
: COUNTBLANK
- 특정 범위에서 비어 있는 셀의 개수 파악
: COUNTIF
- 특정 범위에서 하나의 조건을 만족하는 셀의 개수 파악
- 조건은 " "를 붙여야 함
: COUNTIFS
- 특정 범위에서 2개 이상의 조건을 동시에 만족하는 셀의 개수 파악
IF 함수
: 조건을 가정하고 만족하는 값과 만족하지 않는 값을 다르게 표시
VLOOKUP 함수★
: 공통 기준 열을 기준으로 n번째 있는 데이터를 찾아오는 함수
: 원하는 데이터를 불러오기 좋은 함수
: 조건
- 작성 중인 표와 원래 데이터 간의 공통 기준 열이 있어야 함
- 불러오고자 하느 데이터가 원래 데이터의 공통 기준 열 "오른쪽"에 있어야 함
- 공통 기준 열에 중복된 데이터가 없어야 함
: 원리
- 원래 데이터의 공통 기준열을 1열이라고 가정하고 n번째 있는 열의 데이터를 불러옴
: 수식
=VLOOKUP
( 기준 데이터
, 원래 데이터의 범위(from 공통 기준열)
, 불러올 데이터의 열 번호(공통 기준열=1열 기준)
, 0(FALSE)=정확히 일치/1(TRUE)=근사치여도 괜찮음 )
MATCH 함수
: 내가 찾고 싶은 값이 한 행/열에서 몇 번째에 있는지 숫자로 알려줌
: 결과가 반드시 숫자(몇 번째)
: 수식
=MATCH
( 찾고 싶은 값
, 찾고 싶은 값이 포함 된 단일 열/행/범위
, 정확히 일치 or 근사치 여부 )
SUMIF 함수
: 특정 조건에 맞는 데이터들의 합계 계산
: SUMIFS
- 조건이 2개 이상인 경우
- 수식
=SUMIFS(더할 값들의 범위, 더할 조건 범위, 조건1, 더할 조건 범위2, 조건2, ... )
텍스트 처리 함수1
: 원하는 텍스트의 위치 찾기 함수
: FIND 함수
- 긴 텍스트에서 특정 단어나 문장이 시작하는 위치를 숫자로 출력
- 띄어쓰기까지 포함하여 문자를 세며 대소문자를 구분
- =FIND(찾을 텍스트, 긴 텍스트, 문자열을 찾기 시작할 위치(생략 가능) )
- 특정 단어 포함 여부 파악하는 방법
-> 숫자가 나오면 특정 단어가 포함, 오류가 나면 포함X
: SEARCH 함수
- 긴 텍스트에서 특정 단어나 문장이 시작하는 위치를 숫자로 출력
- 띄어쓰기까지 포함하여 문자를 세며 대소문자를 구분하지 않음
텍스트 처리 함수2
: LEFT/RIGHT 함수
- 텍스트의 가장 왼쪽/오른쪽부터 원하는 문자열까지 추출
- =LEFT/RIGHT(전체 텍스트, 불러올 문자열 수)
: MID 함수
- 텍스트의 중간 시작 위치부터 원하는 문자열까지 추출
- =MID(전체 텍스트, 불러올 문자열의 시작 위치, 불러올 문자열 수)
: LEN 함수(추가)
- 텍스트 문자열의 총 길이
- =LEN(텍스트)
날짜 처리 함수
: DAYS/DATEDIF 함수
- 기간을 일 단위/원하는 단위로 계산하는 함수
- 종료일을 기간에 포함시켜야 할 시 기간을 구하는 수식에+1
- =DAYS(종료일, 시작일)
- =DATEDIF(시작일, 종료일, "계산단위")
: YEAR/MONTH/DAY 함수
피벗 테이블
: 커다란 표의 데이터를 요약하는 통계표
텍스트 나누기
: 1개의 셀에 있는 데이터를 2개 이상의 셀에 나누는 기능
: 셀이나 범위 선택 - [데이터] 탭- [텍스트 나누기]
필터와 고급 필터
: 필터 단축키
- Alt+D+F+F
- Alt+A+T
- Ctrl+Shift+L
: 조건을 한 행에 쓰면 AND 조건(모두 만족), 여러 행에 쓰면 OR 조건(하나만 만족)
데이터 유효성 검사
: 셀이나 범위에 상황에 따라 내가 유효하다고 인정하는 데이터만 입력되게 하는 기능
: 셀이나 범위 선택 - [데이터] 탭 - [데이터 유효성 검사]
차트 작성하기
: 구분 및 차트에 삽입하고자 하는 데이터 범위 선택 - [삽입] 탭 - 차트
: 막대형/ 꺾은선형/원형 등
조건부 서식 적용하기1
: 조건부 서식
- 특정 조건 규칙을 만족하는 데이터에만 자동으로 서식이 적용되도록 하는 기능
- 셀 값을 기준으로 모든 셀의 서식 지정(2가지 색조, 데이터 막대, 아이콘 집합 등)
조건부 서식 적용하기2
: 다음을 포함하는 셀만 서식 지정
- 선택한 범위에서 특정한 조건을 만족하는 데이터에만 서식 적용
: 상위 또는 하위 값만 서식 지정
: 평균보다 크거나 작은 값만 서식 지정
: 고유 또는 중복 값만 서식 지정
조건부 서식 적용하기3
: 수식을 사용하여 서식을 지정한 셀 결정
- 임의의 수식의 결과가 참이 되게 하는 데이터에만 서식 적용
데이터 분석의 개념
: 유용한 정보를 발굴하고 결론 내용을 알리며 의사결정을 지원하는 것을 목표로 데이터를 정리, 변환, 모델링하는 과정
: 현실과 이상의 차이 → 어떻게 문제를 해결한 것인가 → 과거 데이터를 분석해 해결 방법 모색 → 이를 이용해 문제를 해결하기 위한 원인 파악 및 해결 방안(인사이트) 도출
데이터 분석의 목적과 과정
: 목적 - 문제 해결 및 상황을 개선시킬 수 있는 인사이트 도출
: 과정
- 데이터 수집
- 데이터 전처리(분석 목적 및 방법에 부합하도록 데이터의 내용, 형태 가공)
- 데이터 모델링(결과 도출을 위한 수식, 함수, 기능 적용)
- 검증 및 평가(개선 효과 계산, 과거 데이터와 비교, 다양한 방법 간 비교)
- 데이터 시각화
: 엑셀은 데이터 전처리와 시각화에 특화되어 있음.
데이터 분석 사례
: 머신러닝 기법을 활용한 취업 예측모델에 관한 연구
손익계산서 작성 및 손익 데이터 분석1
: 손익계산서 - 회계기간에 속하는 모든 수익과 대응하는 모든 비용을 적정하게 표시하여 손익을 나타내는 회계문서
: 월별 손익 비교
매출 분석을 위한 대시보드 작성
: 독립적인 화면에 중요 성과에 관한 그래프와 차트
Day4
탐색적 데이터 분석(EDA, Exploratory Data Analysis)
: 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 하는 자료 분석 방법
: 기존의 통계학이 정보의 추출 과정에서 가설 검정 등에 치우쳐, 자료가 가지고 있는 본연의 의미를 찾는 데 어려움이 있어 등장함
: 존재하지 않는다 믿는 것들도 발견하려는 태도, 유연성
: 탐색적 데이터 분석을 잘 수행해야 전반적인 데이터 분석 또한 잘 수행할 수 있음
사용 도구
: 데이터 분석 도구(in 엑셀)
: 피벗 테이블
- 엑셀에서 커다란 표의 데이터를 요약하는 통계표
결측치(Missing Value)
: 데이터에 값이 없는 것
: NA(Not Available) - 유효하지 않은
: NaN(Not a Number) - 숫자가 아닌
: Null - 아무것도 존재하지 않음 등등
: 처리 방법
- 결측치의 유형 및 비율에 따라 적절한 결측치 처리 방법을 결정
- 제거, 치환, 모델 기반 처리 등
이상치
: 특정 지정된 그룹에 분류되지 못하는 값
: 정상군의 상한과 하한의 범위를 벗어나 있거나 패턴에서 벗어난 수치
: 일반적으로 표준편차(-3a) 미만, 3a 초과인 값을 이상치로 판정
: 이상치를 제거할지 대체할지 분석할지는 경우에 따라 다름
How to check 이상치
1. 4분위수
: 데이터를 4등분하는 값
: 1사분위수, 3사분위수 등
2. IQR(Inter Quartile Range)
: 1사분위수와 3사분위수 간의 거리
: 1사분위수부터 -1.5*IQR보다 작거나 3사분위수부터 +1.5*IQR보다 큰 값들이 이상치
3. Box Plot(상자 도표)
: 5개의 수치적 자료를 활용해 데이터의 분포와 범위를 표현한 그래프
4. 상관 분석
: 두 변수가 어떤 선형적 관계를 갖고 있는지를 분석하는 방법
: 상관 관계
- 한쪽이 증가하면 다른 쪽도 증가하거나 반대로 감소되는 경향을 인정하는 두 양 사이의 통계적 관계
- 상관 계수를 통해 파악
4-1. 상관 계수
: 상관 계수 r은 두 변수 사이의 상관성을 나타냄
: 일반적으로 피어슨 상관 계수를 사용
: 1에 가까울 수록 양의 상관 관계(정비례), -1에 가까울수록 음의 상관 관계(반비례)
4-2. EDA에서 상관 분석의 역할
: 인과 관계가 있을 것이라 예상되는 변수들을 선별해 분석의 우선순위를 정할 수 있음
: 유의점
- 강한 상관 관계가 있다고 해서 두 변수가 반드시 인과 관계를 가지는 것은 아님
- 상관 관계가 높은 변수들을 중심으로 인과 관계를 경험적으로 입증해야 함
여담) 데이터 분석에 좋은 책
: 겉표지 디자인이 취향인 책
: 그냥 빨리 사서 빨리 시작하는 게 좋다
데이터 전처리
: 데이터의 분석 목적과 방법에 맞게 데이터를 가공 또는 처리하는 과정
: 형태 변환, 변수 선정, 결측치 및 이상치 처리, 데이터 분류(카테고리화), 데이터 분리 및 결합, 기타 데이터 가공 및 처리 등
: 가장 많은 시간과 비용이 드는 과정
: GIGO(Garbage In, Garbage Out) 법칙을 따름
INDEX&MATCH 함수
: 기준열 왼쪽에 위치한 데이터는 불러올 수 없다는 VLOOKUP 함수의 한계를 극복하기 위해 INDEX 함수와 MATCH 함수를 함께 사용
: INDEX 함수는 특정 범위에서 행 번호와 열 번호로 원하는 데이터를 불러옴
: =INDEX(데이터의 전체 범위, 찾고 싶은 데이터의 범위 내 행 번호, 찾고 싶은 데이터의 범위 내 열 번호)
'스터디' 카테고리의 다른 글
[5주차] 파이썬 실습2 및 1차 미니 프로젝트 (0) | 2024.05.24 |
---|---|
[4주차] 파이썬 기초2 및 실습 (0) | 2024.05.17 |
[3주차] 파이썬 기초 (0) | 2024.05.10 |
[2주차] 엑셀을 통한 통계 및 데이터 분석, 파이썬 입문 (1) | 2024.05.03 |
데이터 분석 부트캠프 14기 오리엔테이션 (0) | 2024.04.22 |