요즘 많은 사람들이 빅 데이터, 빅 데이터를 외칩니다.
개발을 하고 있고 DB를 알고 있다는 이유만으로 상사는 뭐라고 하지만 그게 뭐 하는 것 인지 아무리 들어봐도, 무엇을 준비하고 어떤 것을 해야 하는지 모르시는 대한민국 개발자와 DBA를 위해 준비 했습니다.
일반 데이터, 웹 데이터, 고객 데이터를 가지고 분석용 데이터를 만들고, 분석 툴을 사용하며,
나아가서는 비즈니스 인사이트를 제시하는 실용적 방법과 방향을 살펴 보겠습니다.
이 세미나는 뜬 구름 잡는 빅 데이터가 아니라 내 손 안에 있는 작은 데이터부터 처리해서,
큰 데이터를 어떻게 수집하고 분석하는지 살펴보기로 합니다.
세 시간의 세미나를 통해 적어도 R (분석 툴) 을 설치하고R-DBMS에서데이터를 가져와서 분석해 보도록 하겠습니다. 또한 엑셀 파일, 혹은 csv 파일로 만들어진 데이터를분석해 보고 그 안에서 의미 있는 뭔가가 있는지 찾아보도록 하지요. 그리고 윈도우 서버의 성능 카운터를 수집한 자료를 분석하는 것도 시연 합니다.
빅 데이터가 엄청나게 큰 실시간 적인 데이터를 처리하는 대기업과 분석전문가의 일 이라면,
우리가 가진 일반 데이터, 웹 데이터, 고객 데이터를통해 비즈니스와 마케팅을 연결하는 데이터 전문가로서 거듭 날 수 있는 방향을 제시할 것 입니다.
DBA, 개발자로서 데이터를 처리해서 수동적으로 보고서를전달만 하고 계시는 분들이나
마케팅이나 영업, 경영 부서에서 요구하는 데이터를 뽑아주는 로봇 같은 현재의 모습에서
내가 흥미를 가지고 데이터를 뽑고, 분석할 수 있도록 눈을 열어 드리겠습니다.
차례
- R(오픈소스 소프트웨어)분석설치, 사용
- DBA,개발자가 알아야 하는 통계의 기본 알기
- 내가 가진 데이터의의미 파악하기
- 데이터의 수집 방법: 텍스트 마이닝, 워드 클라우드
- 분석의 활용과 비즈니스인사이트: 클러스터, 연관 분석
내용
1. 설치
- R/R Studio 다운로드 및 설치
2. 기초 통계
- 평균, 중앙값, 최빈치, 4분위수, 도수 분포, 표준편차, box plot 이해
(R로 배운 것 구현)
-정규분포-
3. 기초통계
- 산포도, 상관계수, outlier,
기대값, 결과값, 카이 계수
t 테스트
anova
(R로 배운 것 구현)
4. 데이터 마련
- 데이터 수집, 파일로 저장, missing처리
R에서 읽어오기
기초 분석
5. Visualization
- XY 그래프, 산포도, histogram,
6. 응용
- text mining
SNS 분석
7. 고급통계
- 분류 classification, decision tree
Clustering
연관 분석(association)
시간 | 주제 | 자료 |
---|---|---|
14:00 ~ 17:00 | SQL의 대부 정원혁의 중소기업, 쇼핑몰 DBA, 개발자를 위한 DATA 분석과 비즈니스 인사이트 - 데이터에 스토리를 더해라! 뜬 구름 잡는 빅 데이터가 아니라 내 손 안에 있는 작은 데이터부터 처리해서 큰 데이터를 어떻게 수집하고 분석하는지 살펴봅니다. 정원혁 (씨퀄로 대표) |
現 씨퀄로 대표이사
강의/컨설팅 경력: 24년
강의: 마이크로소프트, KT, 필라넷, 트라이콤 外 다수
저서: Microsoft SQL Server 2000/2005 튜닝 外 다수
온라인 세미나 참석을 위해 아래 절차를 확인 후 진행해주세요.