TIL
2023.11.20 TIL
녹차띠
2023. 11. 20. 17:24
학습 주제
데이터란 무엇인가, 데이터팀의 구성과 역할, 데이터 문해력
데이터란?
- 데이터는 우리 생활 모든 곳에 존재 ( 온도 풍향 소리 움직임 )
- 데이터를 바탕으로 의미 있는 정보의 도출 가능
- Digitization : 데이터를 기록하고 수집하는 것
- 데이터 수집은 온라인 환경이 제일 좋음 → 구글(안드로이드), 애플이 유리함
- 빅데이터 기술과 클라우드의 성장, 웹과 모바일의 보편화로 데이터 크기의 폭발적 성장
- 디바이스 데이터 : 위치정보, 스마트 tv, iot센서, 네트워킹 디바이스
- 웹 : 수십 조개 이상의 웹 페이지 존재 → 온갖 종류의 지식의 바다
- 웹 검색엔진 개발은 진정한 대용량 데이터 처리
- 구글이 빅데이터 기술의 발전에 지대한 공헌( ex : chat gpt )
- 사용자 검색어와 클릭 정보 자체도 대용량
- 웹 자체가 NLP 거대 모델 개발의 훈련 데이터로 사용
데이터팀의 미션
- 데이터 조직이 하는일
- 고품질 데이터 기반으로 의사 결정권자에게 입력 제공
- 데이터를 고려한 결정 VS 데이터 기반 결정
- 고품질 데이터를 기반으로 사용자 서비스 경험 혹은 프로세스 최적화
- 사용자 서비스 개선, 오류 최소화 기기 고장 예측
- 고품질 데이터 기반으로 의사 결정권자에게 입력 제공
- 데이터의 흐름과 데이터 팀의 발전 단계
- 서비스에서 직접 생기는 데이터와 써드파티를 통해 생기는 간접 데이터
- 데이터 인프라 (저장/데이터 웨어 하우스) 데이터 엔지니어
- 데이터 분석 (지표 정의, 시각화) 데이터 분석가
- 데이터 과학 적용 (사용자 경험 개선) 데이터 과학자
데이터팀의 발전 단계 - 데이터 인프라
- 데이터 인프라 구축
- 데이터 인프라 구축은 데이터 엔지니어가 수행
- ETL : Extract / Transform / Load (데이터 추출, 변환, 적재)
- 데이터 웨어하우스
- 회사에 필요한 모든 데이터를 모아 놓은 중앙 데이터베이스 (SQL 데이터베이스)
- AWS, BigQuery, Snowflake, Hive
- 주요 포인트는 프로덕션용 데이터베이스와 별개의 데이터베이스여야 한다는 것
- 데이터 레이크 vs 데이터 웨어하우스
- 데이터 레이크
- 구조화 + 비구조화 데이터
- 데이터 웨어하우스보다 몇 배 큰 스토리지
- 데이터 웨어하우스
- 기한이 있는 구조된 데이터 처리 저장
- 데이터 레이크
데이터팀의 발전 단계 - 데이터 분석
- 데이터 분석가가 수행
- ETL된 데이터를 조합하여 새로운 정보 생성 (ELT)
- 좋은 지표 정의, 대시보드 생성관리, 데이터 기반 리포트 작성
- KPI (Key Performance Indicator)
- 조직내에서 달성하고자 하는 중요한 목
- 보통 정량적인 숫자 사용 (ex 매출액, 유료회원의 수)
- KPI 수는 적을수록 좋음
- 잘 정의된 KPI → 현재 상황을 알고 더 나은 계획 가능
- 정량적이기에 시간에 따른 성과를 추적하는 것이 가
- OKR과 같은 목표 설정 프레임워크의 종요한 포인트
- 조직내에서 달성하고자 하는 중요한 목
- 시각화 대쉬보드
- 중요한 지표를 시간의 흐름과 함께 보여주는 것이 일반적
- 3A가 중요, Accessible, Actionable, Auditable
데이터팀의 발전 단계 - 데이터 과학
- 데이터 과학자가 수행
- 머신러닝 모델을 만들어 수행
- 사용자 경험 개선 (추천 검색 등의 개인화)
클라우드란?
- 컴퓨팅 자원을 네트워크를 통해 서비스 형태로 사용하는 것
- 자원을 필요한 만큼 실시간으로 할당하고 사용한 만큼 비용을 지불
- 탄력적으로 필요한 만큼의 자원을 유지하는 것이 중요
- 클라우드 컴퓨팅이 없었다면?
- 서버 네트워크 스토리지 구매와 설정을 직접 수행해야함
- 데이터 센터 공간을 직접 확보해야함
- 그 공간에 서버를 구매하여 설치하고 네트워크를 직접 설정해야함
- 장점
- 초기 투자 비용이 크게 줄어듬
- 리소스 준비를 위한 대기시간 대폭 감소
- 노는 리소스 제거로 비용 감소
- 글로벌 확장 용이
- 소프트웨어 개발 시간 단축
AWS란?
- Amazon Web Service
- 가장 큰 클라우드 컴퓨팅 서비스 업체
데이터 조직 구성원
- 조직에 따라 한 사람이 다수의 역할을 동시 수행하는 것이 일반적
- 데이터 엔지니어, 분석가, 과학자
- ML 엔지니어, MLOps 엔지니어, 프라이버시 엔지니어
- 데이터 문해력 : 문제와 데이터를 연결해서 가치있는 결론을 내는 사고 방식
- 데이터 엔지니어
- 기본적으로 소프트웨어 개발자
- 데이터 인프라 구축(데이터 웨어하우스 / ETL)
- 내/외부 데이터를 데이터 웨어하우스에 적재 수행
- 보통 외부 요청에 의해 새로운 데이터 소스 추가
- 데이터 분석가
- 데이터를 기반으로 지표를 만들고 시각화
- ELT 수행하여 새로운 데이터 생성
- 데이터 과학자
- 과거 데이터를 기반으로 미래를 예측하는 머신러닝 모델 생성
- 데이터 수집에 있어 왜곡이 있는지, 혹시 개인정보를 사용하고 있는지
- ELT VS ETL
- ETL : 데이터 시스템 밖에 있는 데이터를 안으로 가져오는 것
- ELT : 데이터 시스템 안에 있는 데이터를 조합하여 새로운 데이터를 만드는
- 머신러닝 모델 사이클
- 훈련용 데이터 수집 → 모델 빌딩과 테스트 → 모델 배포 → 모델 A/B 테스트 → A/B 테스트 결과 분석
- 에자일 방법론이 사용
- A/B 테스트 : 사용자를 2개의 그룹으로 나누어 A에는 기존 기능 노출 B에는 새로운 기능을 노출시켜 차이를 비교
데이터 문해력의 정의
- 데이터를 이해하고 활용할 수 있는 능력
- 데이터 기반 의사 결정
- 데이터 기반 제품 개선
- 데이터 기반 생상성 증대
- 발전 트렌드
- 데이터는 자산이라는 인식 먼저 필요
- 최근 트렌드 에서는 모든 조직에서 데이터를 활용하는데 관심이 많음
- 점점 더 많은 인력들이 데이터 활용 능력을 갖게 됨 ( 시민 데이터 분석가 / 과학자 )
- Gen AI 와 같은 툴을 사용한 생산성 증대
- Chat gpt와 같은 툴을 이용하여 업무 효율성 증대
- 데이터 거버넌스
- 데이터의 보안, 개인정보 보호, 정확성, 가용성, 사용성을 보장하기 위해 수행하는 모든 작업
데이터 교훈
- 데이터를 통해 매출이 생겨야 한다
- 회사의 존재 이유는 매출 창조 혹은 경비 절감
- 조직의 수장의 역할이 매우 중요
- 데이터 인프라가 첫번째 스텝
- 인프라 없이는 분석이나 모델링 불가
- 데이터의 품질이 매우 중요
- 데이터 청소 작업이 중요
- 중요 데이터의 경우 품질 유지에 노력이 더 필요
- 데이터의 품질 유지를 위해 계속 모니터링
- 항상 지표부터 생각
- 가능하면 간단한 솔루션으로 시작
공부하며 어려웠던 내용
ETL이나 ELT같이 처음보는 용어가 있어 조금의 어려움이 있었지만,
전반적으로 데이터 분석 직무에 관련한 내용이라 흥미롭게 와닿았습니다.