본문 바로가기

공부

빅데이터 분석 정리

유튜브의 서가명강 빅데이터편(https://www.youtube.com/watch?v=PBaUjMgRIx0)을

듣고 공부한 내용을 메모한 내용 입니다. 

 

 

1강 : 빅데이터란?

1. 빅데이터 정의

  • Volume : 대량
  • Velocity : 순식간에
  • Variety : 문서, 이미지 비정형 데이터
  • 상대적인 의미 : 내가 가지고 있는 IT 인프라로 감당하기 어렵다 => 빅데이터

2. 볼륨의 소스

(1) 소셜미디어

  • 데이터를 생성하는 사람이 바로 우리들, 일반 사람들
  • 스마트폰 = 100만원 짜리 빅데이터 생성기,
  • 위치, 사진, 검색 이력 등, 내가 올린 글

(2) IoT 장비

  • 위치, 온도, 습도, 진동, 소리 센서 등
  • 어딘가로 한군데로 다 모인다.
  • 미국에서는 센서를 비행기로 뿌린다. 모니터로 물이 부족한 곳이 찾아서 그곳에만 물을 뿌린다.
  • 반도체 공정 상의 실시간 데이터 수집, 감당하기 힘든 데이터 양

3. 데이터의 생성 속도

  • 데이터가 한꺼번에 나한테 몰려올 때 어떻게 감당할 것이냐
  • 수없이 많은 차들이 빠른 속도로 움직이면서 보내주는 데이터를 어떻게 실시간으로 처리를 잘 할 것이냐
  • 데이터를 받자마자 상황을 정리하고 이해해서 사람들에게 알려줄 수 있어야 한다.

4. 데이터의 범주

  • 과거의 데이터 : 엑셀에서의 숫자
  • 현재의 데이터 : 문서, 이미지, 소셜 네트워크(팔로우, 사람과 사람사이의 관계를 데이터화, 과거에 이 정보는 머리속에만 이게 있었는데 지금은 얼마나 자주 카톡을 자주 주고 받는가)

5. 왜 빅데이터를 얘기하느냐

  • 옛날에는 저장도, 분석도 못했다, 지금은 빅데이터 저장 / 분석 가능
    • 데이터의 분산화 : 클라우드
    • 계산의 병렬화 : 여러대의 CPU(GPU)로 나누어서 동시(일을 나누어서)에 계산

6. 비즈니스 관점에서의 빅데이터

빅데이터 -> 분석 -> 인사이트 -> 액션 -> 백류

  • 인사이트 : 안을 들여다 본다 = 소비자의 머리속을 보고 기계의 속을 볼 수 있다면 어떤 밸류를 만들 수 있다.
  • 밸류 = 소비자에게 어떤 상품을 추천해 줄 수있냐, 기계가 죽기전에 미리 부품을 교체해 준다.
  • 분석을 실행하는 주체 : 데이터 사이언티스트 = 인사이트 뽑아주는 사람
  • 데이터 사이언티스트의 도구 : 애널리틱스(인공지능, 머신러닝, 통계, 시각화)
  • 액션을 취하는 주체 : 디시전메이커 = 마케터, 투자자, 엔지니어
  • 밸류 : 돈, 또는 비 금전적인 밸류(공공의 밸류), 아쉬운것

7. 비유

재료

  • 요리를 위한 식재료 = 데이터

요리

  • 요리사가 요리를 했다 = 데이터사이언티스트가 인사이트를 뽑았다

만족

  • 손님이 먹어 봤더니 배가 부르다 = 디시전메이커가 밸류를 성취했다

8. 인공지능의 종류

빅데이터에서의 핵심

  • 인공지능 : 상황을 인지하여 행동하는 기기

(1) 연역적 추론

  • 지식 -> 명제
  • 데이터 + 명제 -> 새로운 명제(추론)

(2) 귀납적 추론

  • 데이터 + 귀납적 추론 = 머신러닝
  • 데이터가 매우 중요
    • 잘못된 데이터 -> 잘못된 추론으로 이어진다.

2강 : 왜 구글, 인스타그램, 유튜브는 무료인가

1. 빅데이터를 조리하는 방법 = 요리법

(1) 묘사 / 분석

  • What happened?
  • 최근 12개월간의 제품별, 기간별 매출액
  • 지역별, 심각 수준별
  • 최근 출시 모델에 대해서 사람들은 어떤 반응을 보이는가
  • 얼마나 빨리 알수 있는가도 중요. 빅데이터에서도 이게 중요

(2) 진단

  • Why did it happen?
  • 2분기 매출은 왜 1분기 매출보다 적은가?
    • 특정 제품군? 기간 때문에?
  • 데이터를 통해서 답을 할 수 있다.(아직까지는 과거)

(3) 예측

  • What will happen?
  • 대출을 한 기업이 부도를 낼 가능성
  • 고객이 한달이내에 이탈할 가능성
    • 대출 해지 수수료가 얼마인가요를 물어보는 고객
    • 상담원은 수수료가 얼마인지 답변해주고 전화를 끊으면 안된다.
    • 왜 대출 해지 수수료를 물었는지를 파악하고 액션을 취해야 한다.

(4) 처방

  • How can we make it happen?
  • 나는 어떻게 해야하나
  • 100억 예산을 받았는데 12개의 채널에 얼마씩 할당을 해야하냐
    • 제일 간단한건 100 나누기 12
    • 어느채널이 효율적인지 예측을 한 뒤에 액션을 취한다.

2. 데이터기반의 의사결정의 정착

(1) 잘못된 사례 : 있는 재료로 대충 요리를 만들어 줬다

  • 손님이 그걸 먹고 만족할까?
    • 그럴 수도 있겠지만 많은 경우엔 그렇지 않다.
  • 기업체 또는 정부에서 있는 데이터로, 있는 재료로 뭔가 만들어봐
    • 나 맛있는거 먹고 싶으니까 뭐좀 만들어봐
    • 그럼 누군가는 좋아하겠지
    • 이러면 거의 100% 실패 함
  • 식당에 들어가는 순간 뭘 주문할지 생각을 하고 들어가야 한다.
    • 나는 덥다=> 몸을 시원하게 만들고 싶다. => 물냉면을 주문한다 => 쉐프는 물냉면을 만들어준다 => 나는 그걸 먹고 행복해진다.

(2) 데이터 분석의 4단계 : 기획이 먼저 되야한다.

  • 밸류를 먼저 생각하고 밸류를 성취하기 위해서 어떤 인사이트를 뽑아야 하며 그 인사이트는 어떤 재료가 필요한지 먼저 찾고 ..
  • 첫단계 분석에 대한 기획 - 디시전 메이커
  • 두번째 데이터를 가지고 인사이트를 만들어야 한다. - 데이터 사이언티스트
  • 세번째 인사이트가 나오면 인사이트를 맛을 본다.- 디시전 메이커
  • 네번째 맛을 보고 괜찮으면 먹는다. - 디시전 메이커

(3) 우리나라가 빅데이터가 막 뜨지 못하는 이유

  • 무슨 요리를 주문해야 할지 모르는 현업
    • 요리가 안나오고
    • 어쩌다가 요리를 해도 아무도 안 먹는다.
    • 배를 두드리면서 맛있게 먹었다는 사람이 없다.

(4) 데이터 분석의 기획

  • 비즈니스 밸류가 뭐냐 = 대출 고객의 이탈을 막겠다.
    • 어떤게 빅데이터로 가능한가
    • 어떤 임펙트가 있는가
  • 어떤 인사이트를 뽑아야 하는가 = 어떤 사람이 이탈할 것인지 이탈 스코어를 매긴다.
  • 비즈니스 액션. = 고객한테 전화해서 이탈을 안할 제안을 한다
  • 데이터 확보가 가능한가 = 이탈할 가능성이 높은 사람을 특정할 수 있는 근거를 주는 데이터가 나한테 있는가
  • 어떠한 방법으로 분석할 것인가
  • 재료가 없으면 어떻게 할것인가
    • 사러가거나
    • 다른걸 먹거나

(4) 비즈니스의 대상

  • 정형(숫자) : 전략, 재무, 영업, 구매
  • 비정형 : 텍스트, 이미지, 음성

(5) 빅데이터의 주체 가지고 있는 기업들

  • 무료로 서비스를 제공하는 글로벌 빅테크 기업들
  • 사진 다 올릴테니까 공짜로 저장도 좀 해주세요.
  • 미국에서 전염이 돌때 실시간으로 전염병이 어디까지 왔는지 구글이 공개해 줬다. 어느지역에서 전염병 검색의 빈도수가 높은지를 보고 질병관리국 보다 훨씬 정확하게 알아낼 수 있다.
  • 데이터는 불공정하게 가지고 있다.
  • 데이터는 땅 처럼 한정되있는 자원이 아니다.

3강 : 삶을 위한 빅데이터 사용법 : 빅데이터 인사이트 밸류 (사례를 기반으로)

1. 추천

(1) 호텔스닷컴

  • 호텔을 이용한 사람들이 남긴 리뷰
  • 타인의 추천

(2) 포스퀘어

  • 어떤 식당, 어떤 음식에 대해서 어떤 사람이 남긴 평가
  • 분석이 안된 로우한 날것의 데이터 인데 이것만 해도 큰 도움이 된다.

2. 서비스(상품) 기획 예제

(1) 기술 중심

  • 예) 음성인식 : 개발은 했는데 이걸로 어떻게 돈을벌지
  • 생각이 잘 안난다. 공대 교수 학생들이 맨날 하는것.
  • 기술을 만들어 놓고 나중에 고민하는것

(2) 사용자 중심

  • 먼저 니즈를 생각한다. 혹은 이슈를 어떻게 해결할 것인가.
  • 예) 운전하면서 핸드폰 보면 안된다.
  • 손 안쓰고 위험하지 않게 스마트폰을 조작
  • 니즈 파악(소비자의 목소리)의 예제
    • 과거의 리서치(시장조사) : 소비자들에게 계속 질문하는것
    • 현재 상품 구매 후 구매 평을 SNS에 올린다 : 기업은 SNS을 봐야한다
    • 오븐의 연관 검색어 분석 예제
      • 여기서의 소비자의 말 = 데이터
      • 많이 팔고싶다 = 밸류
      • 내막을 본다 = 인사이트, 귀찮음, 실패, 레시피, 엄마
    • 에어컨 서비스 예제
      • 제품의 서비스화(제품과 서비스를 패키지화)
    • 소비자의 관심은 제품이 아닌 서비스
      • 실외기/실내기 vs 온도조절
      • 차량의 소유 vs 차량을 통한 이동
    • 장기적 고객 관리 및 서비스
      • 기계에다가 서비스를 얹어주가나 서비스로 기계를 대체 하거나
    • 관리서비스도 같이 판다

(3) 설계검증시스템

  • 문제점과 원인<-> 요구사항
  • 선배들이 이런 실수 했으니까 너희는 그런 실수 하지마
  • 이거를 정리해줘야 한다. 정보를 전달 해줘야 한다.
  • 구조화, 시각화

3. 재작업

  • 재대로 못해서 다시 작업을 시킴 = 검사자가
  • 왜 처음에 제대로 못했는가 1000만건을 읽어봐야한다.
  • 단어를 분석해서 시각화 -> 파이프가 흔들이니 지주를 추가해라 -> 가장 많이 문서에서 등장하는 얘기(인사이트) -> 데이터사이언티스트가 이것을 엔지니어와 얘기 나눈다.-> 문제해결
  • 문제가 왜 발생하는지 데이터 분석을 통해서 인사이트를 얻고
  • 이걸 통해서 어떤 액션을 취할 수 있느냐
    • 핀포인트를 찾아서 적절한 조취(문제제거)를 취함

4. 마케팅 사례

(1) 개인화 추천 아마존

  • 아마존의 배너 광고
  • 아마존의 예측 배송 : 상품뿐 아니라 구매력까지 예측한다

(2) 카지노 - 하라

  • 개인별 페인 포인트 커브
    • X축 잃은 금액, Y축 돌아올 확률
    • 카지노는 매주말 와서 50만원씩 부담 없이 평생을 잃어주기를 바란다.
    • 사람들 마다 모니터하고 있다가 잃고 있는 사람들에게가서 서비스 음료, 서비스 티켓을 제공, 화를 삭히고 다음 주에 또 오게끔

4강 : 데이터 인사이트

1. 리스크관리 : 유능한 직원의 퇴사

- 프린터 회사 제록스의 콜센터 직원 채용

  • 회사입장에서 골치아픈 문제 = 신입사원 교육 훈련비 손해,
    • 누가 나가냐
    • 왜 나가냐, 나가는 사람이 특성이 뭐냐 = 인사이트
    • 누가 또 나갈꺼냐
    • 우리는 어떻게 해야하냐
  • 입사지원서(데이터) 수집 & 성격 검사 수행
    • 차이가 있는지를 본다. = 애널리틱스를 통해서 분석해냄
    • 이러한 성격의 유형의 사람들이 조기 퇴사 하더라
      • 집이 멀거나 교통수단이 애매한 사람
      • 소셜 네트워크가 너무 많거나 전혀 없는 사람
      • 궁금한게 많은 타입
      • 공감을 너무 잘해주는 타입
      • 창의력 부족
    • 그렇다고 해서 인과관계를 찾은것은 아니다.
    • 그저 상관관계가 많은것이다.
    • 데이터 분석은 인과관계를 찾아주지 않는다. 근데 많이들 찾으려고 애를 쓴다. 인과관계일 수도 있고 아닐 수도있고
  • 이 데이터들을 가지고 의사결정
    • 증거기반 데이터 기반 팩트기반 의사결정
    • 6개월 이후에 퇴사율이 20%이 감소
      • 입사지원서, 성격테스트만 가지고 모든 퇴사의 경우를 다 찾을 순 없다.
      • 가지고 있는 데이터로 얻을수 있는 인사이트의 양이 이 정도다
  • 20%감소한 비용 vs 데이터 분석 비용 -> 프로젝트의 성공여부 결정

2. 신용카드 사기

- 해외 결제를 보고 정상적인 거래인지 사기인지 판단

  • 과거의 데이터를 가지고 분석
    • 시간 과거 구매이력, 구매 나라 등
  • 헛점 : 완전 신종사기 = 사람도 못잡고 인공지능도 못잡고
    • 머신러닝은 과거의 데이터들의 유형을 학습하여 결과를 내는것

3. 증권사의 기업 분류

- 비슷한 기업 유형끼리 묶음

  • 현재는 사람(전문가)가 하고 있음
    • 주관적일 수 있다.
  • 기업들의 사업보고서의 분석 = 금감원에 보고서 업로드 함
  • 사업보고서의 단어를 분석하여 비슷한 회사끼리 분류함
    • 왜 이걸 하냐 = 포트폴리오를 만들기 위해서
      • 전자 펀드, 식음료 펀드, 방산, 전자 포트폴리오를 각각 뽑아서 고객에게 제공

4. 인사이트와 적용

  • 밸류 창출할때 항상 문제가 있다.
    • 새로운 인사이트가 있네 적용해볼까 액션에 태워볼까 이거 자체가 리스크
    • 기존 HR부서의 스탠다드(혹은 도그마)
      • 믿음 또는 종교가 됨
    • 믿음을 가지고 보면 근본이 없게 보이는 인사이트들이 나오게 됨
      • 도대체 창의성이랑 무슨 상관 이야\
      • 새로운 인사이트가 이해가 안되는데, 내가 그동안 알고있는것과 다른데
      • 그래서 이건 틀린거냐? = 알파고 이후에 많이 겸손해 졌다.
    • 인사이트가 나오면 맛을 조금씩 본다 = 단계적으로 접근
      • 시범 도입, 괜찮으면 그 범위를 점점 늘려감

5강 빅데이터는 인공지능의 뇌다 :

  • 빅데이터를 인사이트로 변환시키는 방법 = 컴퓨팅 방법 = 머신러닝

1. 인공지능을 이용한 방법 인사이트 도출 방법 = 머신러닝

(1) 인공지능 예제

  • 알파고
    • Policy Network
    • Value network
  • (2) 무인자동차
  • (3) 페이스북 사람얼굴 인식

(2) 인공지능

  • 기기, 도구 = 컴퓨터
  • 주변 상황 인지 = 시각 청각
  • 목표를 달성 or 행동 = 바둑두기(이기는 바둑 계획짜기)

(3) 인공지능 구현 방법

  • 첫번째 : 심볼릭(문자, 명제) 접근
    • 지식 (룰, if then) + 연역적 추론(logic)
      • 원숭이는 바나나를 좋아해 : 지식 명제
      • 루시는 원숭이야 : 사실 명제
      • 루시는 바나나를 좋아한다. 명제 + 명제 = 세번째 명제
    • 명제 방식 접근의 문제
      • 단, 지식을 명제로 바꾸는데 한계에 부딪친다
      • 지식은 주관적, 비일관적 = 누구말이 맞냐
      • 암묵적 지식 = 명제로 표현하기 어려운 지식이 있다. 인간이 가지고있는 지식의 대부분이 암묵적 지식이다.
      • 잡담 : 인공지능은 눈치가 없다.
      • 명제화 가능한건 자연의 법칙 정도 뿐, 공식으로 되는것 뿐
  • 두번째 : 반복적 자극에 따른 뇌의 시냅스의 변화 = 머신러닝(학습) = 뉴럴네트워크 = 신경회로망 신경망
    • 수영을 배우기 전과 후 : 뇌가 바뀐다
      • 팔다리를 박자에 맞춰서 움직일 수 있다
      • 물을 먹지않고 숨쉬고 고개를 돌릴 수 있다
      • 기억이 저장되는 특별한 장소가 있는 거이 아니라 정보가 처리되는 바로 그 신경망이 기억이 저장되는 장소가 된다
    • 데이터로 계속 자극을 주어 결론/추측에 도달한다.
      • 귀납적 추론의 문제
        • 틀릴 수가 있다.
        • 데이터가 많아야한다.
        • 데이터의 질도 좋아야 한다.

6강 애널리틱스 데이터를 분석하다

1. 애널리틱스 : 인사이트를 뽑는 방법

(1) 인사이트 : 묘사 (descriptive)

  • 시각화(비즈니스 인텔리전스) : 데이터를 눈앞에 그림을 그려서 보여주는 것
    • 우리회사가 돈을 얼마나 쓰고있고 벌고있고 실시간으로 볼 수 있음
    • 마치 차를 운전하는 운전자가 속도, RPM, 연료, 온도를 볼 수 있는 것처럼
    • 데이터를 끌어다가 가공해서 보여줘야 한다.
    • 데이터 수집, 데이터 정제, 데이터 시각화(직관적), 빅데이터를 하려면 먼저 데이터를 모아서 먼저 봐야된다.
  • 연관분석 : 장바구니 분석, 서열 분석 장바구니 분석, 서열 분석
    • 장바구니 분석 : 맥주와 기저귀
    • 상관분석
    • 교차분석
  • 클러스터링(군집화)
    • 비슷한 것 끼리
    • 군집에 맞는 타겟 마케팅

(2) 포사이트 : 예측 (Predictive)

  • 예측/분류
  • 이상탐지