TIL

2023.11.20 TIL

녹차띠 2023. 11. 20. 17:24

학습 주제

데이터란 무엇인가, 데이터팀의 구성과 역할, 데이터 문해력

 

데이터란?

  • 데이터는 우리 생활 모든 곳에 존재 ( 온도 풍향 소리 움직임 )
  • 데이터를 바탕으로 의미 있는 정보의 도출 가능
  • Digitization : 데이터를 기록하고 수집하는 것
  • 데이터 수집은 온라인 환경이 제일 좋음 → 구글(안드로이드), 애플이 유리함
  • 빅데이터 기술과 클라우드의 성장, 웹과 모바일의 보편화로 데이터 크기의 폭발적 성장
  • 디바이스 데이터 : 위치정보, 스마트 tv, iot센서, 네트워킹 디바이스
  •  : 수십 조개 이상의 웹 페이지 존재 → 온갖 종류의 지식의 바다
    • 웹 검색엔진 개발은 진정한 대용량 데이터 처리
    • 구글이 빅데이터 기술의 발전에 지대한 공헌( ex : chat gpt )
    • 사용자 검색어와 클릭 정보 자체도 대용량
    • 웹 자체가 NLP 거대 모델 개발의 훈련 데이터로 사용

데이터팀의 미션

  • 데이터 조직이 하는일
    • 고품질 데이터 기반으로 의사 결정권자에게 입력 제공
      • 데이터를 고려한 결정 VS 데이터 기반 결정
    • 고품질 데이터를 기반으로 사용자 서비스 경험 혹은 프로세스 최적화
      • 사용자 서비스 개선, 오류 최소화 기기 고장 예측
  • 데이터의 흐름과 데이터 팀의 발전 단계
    1. 서비스에서 직접 생기는 데이터와 써드파티를 통해 생기는 간접 데이터
    2. 데이터 인프라 (저장/데이터 웨어 하우스) 데이터 엔지니어
    3. 데이터 분석 (지표 정의, 시각화) 데이터 분석가
    4. 데이터 과학 적용 (사용자 경험 개선) 데이터 과학자

데이터팀의 발전 단계 - 데이터 인프라

  • 데이터 인프라 구축
    • 데이터 인프라 구축은 데이터 엔지니어가 수행
    • ETL : Extract / Transform / Load (데이터 추출, 변환, 적재)
  • 데이터 웨어하우스
    • 회사에 필요한 모든 데이터를 모아 놓은 중앙 데이터베이스 (SQL 데이터베이스)
    • AWS, BigQuery, Snowflake, Hive
    • 주요 포인트는 프로덕션용 데이터베이스와 별개의 데이터베이스여야 한다는 것
  • 데이터 레이크 vs 데이터 웨어하우스
    • 데이터 레이크
      • 구조화 + 비구조화 데이터
      • 데이터 웨어하우스보다 몇 배 큰 스토리지
    • 데이터 웨어하우스
      • 기한이 있는 구조된 데이터 처리 저장

데이터팀의 발전 단계 - 데이터 분석

  • 데이터 분석가가 수행
    • ETL된 데이터를 조합하여 새로운 정보 생성 (ELT)
    • 좋은 지표 정의, 대시보드 생성관리, 데이터 기반 리포트 작성
  • KPI (Key Performance Indicator)
    • 조직내에서 달성하고자 하는 중요한 목
      • 보통 정량적인 숫자 사용 (ex 매출액, 유료회원의 수)
    • KPI 수는 적을수록 좋음
    • 잘 정의된 KPI → 현재 상황을 알고 더 나은 계획 가능
      • 정량적이기에 시간에 따른 성과를 추적하는 것이 가
      • OKR과 같은 목표 설정 프레임워크의 종요한 포인트
  • 시각화 대쉬보드
    • 중요한 지표를 시간의 흐름과 함께 보여주는 것이 일반적
    • 3A가 중요, Accessible, Actionable, Auditable

데이터팀의 발전 단계 - 데이터 과학

  • 데이터 과학자가 수행
    • 머신러닝 모델을 만들어 수행
    • 사용자 경험 개선 (추천 검색 등의 개인화)

클라우드란?

  • 컴퓨팅 자원을 네트워크를 통해 서비스 형태로 사용하는 것
  • 자원을 필요한 만큼 실시간으로 할당하고 사용한 만큼 비용을 지불
    • 탄력적으로 필요한 만큼의 자원을 유지하는 것이 중요
  • 클라우드 컴퓨팅이 없었다면?
    • 서버 네트워크 스토리지 구매와 설정을 직접 수행해야함
    • 데이터 센터 공간을 직접 확보해야함
    • 그 공간에 서버를 구매하여 설치하고 네트워크를 직접 설정해야함
  • 장점
    • 초기 투자 비용이 크게 줄어듬
    • 리소스 준비를 위한 대기시간 대폭 감소
    • 노는 리소스 제거로 비용 감소
    • 글로벌 확장 용이
    • 소프트웨어 개발 시간 단축

AWS란?

  • Amazon Web Service
  • 가장 큰 클라우드 컴퓨팅 서비스 업체

데이터 조직 구성원

  • 조직에 따라 한 사람이 다수의 역할을 동시 수행하는 것이 일반적
  • 데이터 엔지니어, 분석가, 과학자
  • ML 엔지니어, MLOps 엔지니어, 프라이버시 엔지니어
  • 데이터 문해력 : 문제와 데이터를 연결해서 가치있는 결론을 내는 사고 방식
  • 데이터 엔지니어
    • 기본적으로 소프트웨어 개발자
    • 데이터 인프라 구축(데이터 웨어하우스 / ETL)
    • 내/외부 데이터를 데이터 웨어하우스에 적재 수행
    • 보통 외부 요청에 의해 새로운 데이터 소스 추가
  • 데이터 분석가
    • 데이터를 기반으로 지표를 만들고 시각화
    • ELT 수행하여 새로운 데이터 생성
  • 데이터 과학자
    • 과거 데이터를 기반으로 미래를 예측하는 머신러닝 모델 생성
    • 데이터 수집에 있어 왜곡이 있는지, 혹시 개인정보를 사용하고 있는지
  • ELT VS ETL
    • ETL : 데이터 시스템 밖에 있는 데이터를 안으로 가져오는 것
    • ELT : 데이터 시스템 안에 있는 데이터를 조합하여 새로운 데이터를 만드는
  • 머신러닝 모델 사이클
    • 훈련용 데이터 수집 → 모델 빌딩과 테스트 → 모델 배포 → 모델 A/B 테스트 → A/B 테스트 결과 분석
    • 에자일 방법론이 사용
    • A/B 테스트 : 사용자를 2개의 그룹으로 나누어 A에는 기존 기능 노출 B에는 새로운 기능을 노출시켜 차이를 비교

데이터 문해력의 정의

  • 데이터를 이해하고 활용할 수 있는 능력
    • 데이터 기반 의사 결정
    • 데이터 기반 제품 개선
    • 데이터 기반 생상성 증대
  • 발전 트렌드
    • 데이터는 자산이라는 인식 먼저 필요
    • 최근 트렌드 에서는 모든 조직에서 데이터를 활용하는데 관심이 많음
    • 점점 더 많은 인력들이 데이터 활용 능력을 갖게 됨 ( 시민 데이터 분석가 / 과학자 )
    • Gen AI 와 같은 툴을 사용한 생산성 증대
      • Chat gpt와 같은 툴을 이용하여 업무 효율성 증대
  • 데이터 거버넌스
    • 데이터의 보안, 개인정보 보호, 정확성, 가용성, 사용성을 보장하기 위해 수행하는 모든 작업

데이터 교훈

  • 데이터를 통해 매출이 생겨야 한다
    • 회사의 존재 이유는 매출 창조 혹은 경비 절감
    • 조직의 수장의 역할이 매우 중요
  • 데이터 인프라가 첫번째 스텝
    • 인프라 없이는 분석이나 모델링 불가
  • 데이터의 품질이 매우 중요
    • 데이터 청소 작업이 중요
    • 중요 데이터의 경우 품질 유지에 노력이 더 필요
    • 데이터의 품질 유지를 위해 계속 모니터링
  • 항상 지표부터 생각
  • 가능하면 간단한 솔루션으로 시작

공부하며 어려웠던 내용

ETL이나 ELT같이 처음보는 용어가 있어 조금의 어려움이 있었지만,

전반적으로 데이터 분석 직무에 관련한 내용이라 흥미롭게 와닿았습니다.