유튜브의 서가명강 빅데이터편(https://www.youtube.com/watch?v=PBaUjMgRIx0)을
듣고 공부한 내용을 메모한 내용 입니다.
1강 : 빅데이터란?
1. 빅데이터 정의
- Volume : 대량
- Velocity : 순식간에
- Variety : 문서, 이미지 비정형 데이터
- 상대적인 의미 : 내가 가지고 있는 IT 인프라로 감당하기 어렵다 => 빅데이터
2. 볼륨의 소스
(1) 소셜미디어
- 데이터를 생성하는 사람이 바로 우리들, 일반 사람들
- 스마트폰 = 100만원 짜리 빅데이터 생성기,
- 위치, 사진, 검색 이력 등, 내가 올린 글
(2) IoT 장비
- 위치, 온도, 습도, 진동, 소리 센서 등
- 어딘가로 한군데로 다 모인다.
- 미국에서는 센서를 비행기로 뿌린다. 모니터로 물이 부족한 곳이 찾아서 그곳에만 물을 뿌린다.
- 반도체 공정 상의 실시간 데이터 수집, 감당하기 힘든 데이터 양
3. 데이터의 생성 속도
- 데이터가 한꺼번에 나한테 몰려올 때 어떻게 감당할 것이냐
- 수없이 많은 차들이 빠른 속도로 움직이면서 보내주는 데이터를 어떻게 실시간으로 처리를 잘 할 것이냐
- 데이터를 받자마자 상황을 정리하고 이해해서 사람들에게 알려줄 수 있어야 한다.
4. 데이터의 범주
- 과거의 데이터 : 엑셀에서의 숫자
- 현재의 데이터 : 문서, 이미지, 소셜 네트워크(팔로우, 사람과 사람사이의 관계를 데이터화, 과거에 이 정보는 머리속에만 이게 있었는데 지금은 얼마나 자주 카톡을 자주 주고 받는가)
5. 왜 빅데이터를 얘기하느냐
- 옛날에는 저장도, 분석도 못했다, 지금은 빅데이터 저장 / 분석 가능
- 데이터의 분산화 : 클라우드
- 계산의 병렬화 : 여러대의 CPU(GPU)로 나누어서 동시(일을 나누어서)에 계산
6. 비즈니스 관점에서의 빅데이터
빅데이터 -> 분석 -> 인사이트 -> 액션 -> 백류
- 인사이트 : 안을 들여다 본다 = 소비자의 머리속을 보고 기계의 속을 볼 수 있다면 어떤 밸류를 만들 수 있다.
- 밸류 = 소비자에게 어떤 상품을 추천해 줄 수있냐, 기계가 죽기전에 미리 부품을 교체해 준다.
- 분석을 실행하는 주체 : 데이터 사이언티스트 = 인사이트 뽑아주는 사람
- 데이터 사이언티스트의 도구 : 애널리틱스(인공지능, 머신러닝, 통계, 시각화)
- 액션을 취하는 주체 : 디시전메이커 = 마케터, 투자자, 엔지니어
- 밸류 : 돈, 또는 비 금전적인 밸류(공공의 밸류), 아쉬운것
7. 비유
재료
- 요리를 위한 식재료 = 데이터
요리
- 요리사가 요리를 했다 = 데이터사이언티스트가 인사이트를 뽑았다
만족
- 손님이 먹어 봤더니 배가 부르다 = 디시전메이커가 밸류를 성취했다
8. 인공지능의 종류
빅데이터에서의 핵심
- 인공지능 : 상황을 인지하여 행동하는 기기
(1) 연역적 추론
- 지식 -> 명제
- 데이터 + 명제 -> 새로운 명제(추론)
(2) 귀납적 추론
- 데이터 + 귀납적 추론 = 머신러닝
- 데이터가 매우 중요
- 잘못된 데이터 -> 잘못된 추론으로 이어진다.
2강 : 왜 구글, 인스타그램, 유튜브는 무료인가
1. 빅데이터를 조리하는 방법 = 요리법
(1) 묘사 / 분석
- What happened?
- 최근 12개월간의 제품별, 기간별 매출액
- 지역별, 심각 수준별
- 최근 출시 모델에 대해서 사람들은 어떤 반응을 보이는가
- 얼마나 빨리 알수 있는가도 중요. 빅데이터에서도 이게 중요
(2) 진단
- Why did it happen?
- 2분기 매출은 왜 1분기 매출보다 적은가?
- 특정 제품군? 기간 때문에?
- 데이터를 통해서 답을 할 수 있다.(아직까지는 과거)
(3) 예측
- What will happen?
- 대출을 한 기업이 부도를 낼 가능성
- 고객이 한달이내에 이탈할 가능성
- 대출 해지 수수료가 얼마인가요를 물어보는 고객
- 상담원은 수수료가 얼마인지 답변해주고 전화를 끊으면 안된다.
- 왜 대출 해지 수수료를 물었는지를 파악하고 액션을 취해야 한다.
(4) 처방
- How can we make it happen?
- 나는 어떻게 해야하나
- 100억 예산을 받았는데 12개의 채널에 얼마씩 할당을 해야하냐
- 제일 간단한건 100 나누기 12
- 어느채널이 효율적인지 예측을 한 뒤에 액션을 취한다.
2. 데이터기반의 의사결정의 정착
(1) 잘못된 사례 : 있는 재료로 대충 요리를 만들어 줬다
- 손님이 그걸 먹고 만족할까?
- 그럴 수도 있겠지만 많은 경우엔 그렇지 않다.
- 기업체 또는 정부에서 있는 데이터로, 있는 재료로 뭔가 만들어봐
- 나 맛있는거 먹고 싶으니까 뭐좀 만들어봐
- 그럼 누군가는 좋아하겠지
- 이러면 거의 100% 실패 함
- 식당에 들어가는 순간 뭘 주문할지 생각을 하고 들어가야 한다.
- 나는 덥다=> 몸을 시원하게 만들고 싶다. => 물냉면을 주문한다 => 쉐프는 물냉면을 만들어준다 => 나는 그걸 먹고 행복해진다.
(2) 데이터 분석의 4단계 : 기획이 먼저 되야한다.
- 밸류를 먼저 생각하고 밸류를 성취하기 위해서 어떤 인사이트를 뽑아야 하며 그 인사이트는 어떤 재료가 필요한지 먼저 찾고 ..
- 첫단계 분석에 대한 기획 - 디시전 메이커
- 두번째 데이터를 가지고 인사이트를 만들어야 한다. - 데이터 사이언티스트
- 세번째 인사이트가 나오면 인사이트를 맛을 본다.- 디시전 메이커
- 네번째 맛을 보고 괜찮으면 먹는다. - 디시전 메이커
(3) 우리나라가 빅데이터가 막 뜨지 못하는 이유
- 무슨 요리를 주문해야 할지 모르는 현업
- 요리가 안나오고
- 어쩌다가 요리를 해도 아무도 안 먹는다.
- 배를 두드리면서 맛있게 먹었다는 사람이 없다.
(4) 데이터 분석의 기획
- 비즈니스 밸류가 뭐냐 = 대출 고객의 이탈을 막겠다.
- 어떤게 빅데이터로 가능한가
- 어떤 임펙트가 있는가
- 어떤 인사이트를 뽑아야 하는가 = 어떤 사람이 이탈할 것인지 이탈 스코어를 매긴다.
- 비즈니스 액션. = 고객한테 전화해서 이탈을 안할 제안을 한다
- 데이터 확보가 가능한가 = 이탈할 가능성이 높은 사람을 특정할 수 있는 근거를 주는 데이터가 나한테 있는가
- 어떠한 방법으로 분석할 것인가
- 재료가 없으면 어떻게 할것인가
- 사러가거나
- 다른걸 먹거나
(4) 비즈니스의 대상
- 정형(숫자) : 전략, 재무, 영업, 구매
- 비정형 : 텍스트, 이미지, 음성
(5) 빅데이터의 주체 가지고 있는 기업들
- 무료로 서비스를 제공하는 글로벌 빅테크 기업들
- 사진 다 올릴테니까 공짜로 저장도 좀 해주세요.
- 미국에서 전염이 돌때 실시간으로 전염병이 어디까지 왔는지 구글이 공개해 줬다. 어느지역에서 전염병 검색의 빈도수가 높은지를 보고 질병관리국 보다 훨씬 정확하게 알아낼 수 있다.
- 데이터는 불공정하게 가지고 있다.
- 데이터는 땅 처럼 한정되있는 자원이 아니다.
3강 : 삶을 위한 빅데이터 사용법 : 빅데이터 인사이트 밸류 (사례를 기반으로)
1. 추천
(1) 호텔스닷컴
- 호텔을 이용한 사람들이 남긴 리뷰
- 타인의 추천
(2) 포스퀘어
- 어떤 식당, 어떤 음식에 대해서 어떤 사람이 남긴 평가
- 분석이 안된 로우한 날것의 데이터 인데 이것만 해도 큰 도움이 된다.
2. 서비스(상품) 기획 예제
(1) 기술 중심
- 예) 음성인식 : 개발은 했는데 이걸로 어떻게 돈을벌지
- 생각이 잘 안난다. 공대 교수 학생들이 맨날 하는것.
- 기술을 만들어 놓고 나중에 고민하는것
(2) 사용자 중심
- 먼저 니즈를 생각한다. 혹은 이슈를 어떻게 해결할 것인가.
- 예) 운전하면서 핸드폰 보면 안된다.
- 손 안쓰고 위험하지 않게 스마트폰을 조작
- 니즈 파악(소비자의 목소리)의 예제
- 과거의 리서치(시장조사) : 소비자들에게 계속 질문하는것
- 현재 상품 구매 후 구매 평을 SNS에 올린다 : 기업은 SNS을 봐야한다
- 오븐의 연관 검색어 분석 예제
- 여기서의 소비자의 말 = 데이터
- 많이 팔고싶다 = 밸류
- 내막을 본다 = 인사이트, 귀찮음, 실패, 레시피, 엄마
- 에어컨 서비스 예제
- 제품의 서비스화(제품과 서비스를 패키지화)
- 소비자의 관심은 제품이 아닌 서비스
- 실외기/실내기 vs 온도조절
- 차량의 소유 vs 차량을 통한 이동
- 장기적 고객 관리 및 서비스
- 기계에다가 서비스를 얹어주가나 서비스로 기계를 대체 하거나
- 관리서비스도 같이 판다
(3) 설계검증시스템
- 문제점과 원인<-> 요구사항
- 선배들이 이런 실수 했으니까 너희는 그런 실수 하지마
- 이거를 정리해줘야 한다. 정보를 전달 해줘야 한다.
- 구조화, 시각화
3. 재작업
- 재대로 못해서 다시 작업을 시킴 = 검사자가
- 왜 처음에 제대로 못했는가 1000만건을 읽어봐야한다.
- 단어를 분석해서 시각화 -> 파이프가 흔들이니 지주를 추가해라 -> 가장 많이 문서에서 등장하는 얘기(인사이트) -> 데이터사이언티스트가 이것을 엔지니어와 얘기 나눈다.-> 문제해결
- 문제가 왜 발생하는지 데이터 분석을 통해서 인사이트를 얻고
- 이걸 통해서 어떤 액션을 취할 수 있느냐
- 핀포인트를 찾아서 적절한 조취(문제제거)를 취함
4. 마케팅 사례
(1) 개인화 추천 아마존
- 아마존의 배너 광고
- 아마존의 예측 배송 : 상품뿐 아니라 구매력까지 예측한다
(2) 카지노 - 하라
- 개인별 페인 포인트 커브
- X축 잃은 금액, Y축 돌아올 확률
- 카지노는 매주말 와서 50만원씩 부담 없이 평생을 잃어주기를 바란다.
- 사람들 마다 모니터하고 있다가 잃고 있는 사람들에게가서 서비스 음료, 서비스 티켓을 제공, 화를 삭히고 다음 주에 또 오게끔
4강 : 데이터 인사이트
1. 리스크관리 : 유능한 직원의 퇴사
- 프린터 회사 제록스의 콜센터 직원 채용
- 회사입장에서 골치아픈 문제 = 신입사원 교육 훈련비 손해,
- 누가 나가냐
- 왜 나가냐, 나가는 사람이 특성이 뭐냐 = 인사이트
- 누가 또 나갈꺼냐
- 우리는 어떻게 해야하냐
- 입사지원서(데이터) 수집 & 성격 검사 수행
- 차이가 있는지를 본다. = 애널리틱스를 통해서 분석해냄
- 이러한 성격의 유형의 사람들이 조기 퇴사 하더라
- 집이 멀거나 교통수단이 애매한 사람
- 소셜 네트워크가 너무 많거나 전혀 없는 사람
- 궁금한게 많은 타입
- 공감을 너무 잘해주는 타입
- 창의력 부족
- 그렇다고 해서 인과관계를 찾은것은 아니다.
- 그저 상관관계가 많은것이다.
- 데이터 분석은 인과관계를 찾아주지 않는다. 근데 많이들 찾으려고 애를 쓴다. 인과관계일 수도 있고 아닐 수도있고
- 이 데이터들을 가지고 의사결정
- 증거기반 데이터 기반 팩트기반 의사결정
- 6개월 이후에 퇴사율이 20%이 감소
- 입사지원서, 성격테스트만 가지고 모든 퇴사의 경우를 다 찾을 순 없다.
- 가지고 있는 데이터로 얻을수 있는 인사이트의 양이 이 정도다
- 20%감소한 비용 vs 데이터 분석 비용 -> 프로젝트의 성공여부 결정
2. 신용카드 사기
- 해외 결제를 보고 정상적인 거래인지 사기인지 판단
- 과거의 데이터를 가지고 분석
- 시간 과거 구매이력, 구매 나라 등
- 헛점 : 완전 신종사기 = 사람도 못잡고 인공지능도 못잡고
- 머신러닝은 과거의 데이터들의 유형을 학습하여 결과를 내는것
3. 증권사의 기업 분류
- 비슷한 기업 유형끼리 묶음
- 현재는 사람(전문가)가 하고 있음
- 주관적일 수 있다.
- 기업들의 사업보고서의 분석 = 금감원에 보고서 업로드 함
- 사업보고서의 단어를 분석하여 비슷한 회사끼리 분류함
- 왜 이걸 하냐 = 포트폴리오를 만들기 위해서
- 전자 펀드, 식음료 펀드, 방산, 전자 포트폴리오를 각각 뽑아서 고객에게 제공
- 왜 이걸 하냐 = 포트폴리오를 만들기 위해서
4. 인사이트와 적용
- 밸류 창출할때 항상 문제가 있다.
- 새로운 인사이트가 있네 적용해볼까 액션에 태워볼까 이거 자체가 리스크
- 기존 HR부서의 스탠다드(혹은 도그마)
- 믿음 또는 종교가 됨
- 믿음을 가지고 보면 근본이 없게 보이는 인사이트들이 나오게 됨
- 도대체 창의성이랑 무슨 상관 이야\
- 새로운 인사이트가 이해가 안되는데, 내가 그동안 알고있는것과 다른데
- 그래서 이건 틀린거냐? = 알파고 이후에 많이 겸손해 졌다.
- 인사이트가 나오면 맛을 조금씩 본다 = 단계적으로 접근
- 시범 도입, 괜찮으면 그 범위를 점점 늘려감
5강 빅데이터는 인공지능의 뇌다 :
- 빅데이터를 인사이트로 변환시키는 방법 = 컴퓨팅 방법 = 머신러닝
1. 인공지능을 이용한 방법 인사이트 도출 방법 = 머신러닝
(1) 인공지능 예제
- 알파고
- Policy Network
- Value network
- (2) 무인자동차
- (3) 페이스북 사람얼굴 인식
(2) 인공지능
- 기기, 도구 = 컴퓨터
- 주변 상황 인지 = 시각 청각
- 목표를 달성 or 행동 = 바둑두기(이기는 바둑 계획짜기)
(3) 인공지능 구현 방법
- 첫번째 : 심볼릭(문자, 명제) 접근
- 지식 (룰, if then) + 연역적 추론(logic)
- 원숭이는 바나나를 좋아해 : 지식 명제
- 루시는 원숭이야 : 사실 명제
- 루시는 바나나를 좋아한다. 명제 + 명제 = 세번째 명제
- 명제 방식 접근의 문제
- 단, 지식을 명제로 바꾸는데 한계에 부딪친다
- 지식은 주관적, 비일관적 = 누구말이 맞냐
- 암묵적 지식 = 명제로 표현하기 어려운 지식이 있다. 인간이 가지고있는 지식의 대부분이 암묵적 지식이다.
- 잡담 : 인공지능은 눈치가 없다.
- 명제화 가능한건 자연의 법칙 정도 뿐, 공식으로 되는것 뿐
- 지식 (룰, if then) + 연역적 추론(logic)
- 두번째 : 반복적 자극에 따른 뇌의 시냅스의 변화 = 머신러닝(학습) = 뉴럴네트워크 = 신경회로망 신경망
- 수영을 배우기 전과 후 : 뇌가 바뀐다
- 팔다리를 박자에 맞춰서 움직일 수 있다
- 물을 먹지않고 숨쉬고 고개를 돌릴 수 있다
- 기억이 저장되는 특별한 장소가 있는 거이 아니라 정보가 처리되는 바로 그 신경망이 기억이 저장되는 장소가 된다
- 데이터로 계속 자극을 주어 결론/추측에 도달한다.
- 귀납적 추론의 문제
- 틀릴 수가 있다.
- 데이터가 많아야한다.
- 데이터의 질도 좋아야 한다.
- 귀납적 추론의 문제
- 수영을 배우기 전과 후 : 뇌가 바뀐다
6강 애널리틱스 데이터를 분석하다
1. 애널리틱스 : 인사이트를 뽑는 방법
(1) 인사이트 : 묘사 (descriptive)
- 시각화(비즈니스 인텔리전스) : 데이터를 눈앞에 그림을 그려서 보여주는 것
- 우리회사가 돈을 얼마나 쓰고있고 벌고있고 실시간으로 볼 수 있음
- 마치 차를 운전하는 운전자가 속도, RPM, 연료, 온도를 볼 수 있는 것처럼
- 데이터를 끌어다가 가공해서 보여줘야 한다.
- 데이터 수집, 데이터 정제, 데이터 시각화(직관적), 빅데이터를 하려면 먼저 데이터를 모아서 먼저 봐야된다.
- 연관분석 : 장바구니 분석, 서열 분석 장바구니 분석, 서열 분석
- 장바구니 분석 : 맥주와 기저귀
- 상관분석
- 교차분석
- 클러스터링(군집화)
- 비슷한 것 끼리
- 군집에 맞는 타겟 마케팅
(2) 포사이트 : 예측 (Predictive)
- 예측/분류
- 이상탐지
'공부' 카테고리의 다른 글
네이버 클라우드 정리 (0) | 2021.05.13 |
---|---|
openCV 및 외부 확장모듈 contrib 설치 그리고 빌드(3.3.1) (0) | 2018.01.18 |
Windows10 에서 Boost Library 빌드하기 (0) | 2017.09.12 |
근전도 센서를 이용한 아이언맨 팔 만들기 (0) | 2016.01.04 |
스마트 TV Global summit (0) | 2015.10.27 |