전체 글
-
3과목 2장 복습카테고리 없음 2024. 11. 4. 16:45
통계분석00. 통계- 분석하고자 하는 집단에 대해서 조사하거나 실험을 통해서 얻는 자료 또는 이의 요된 형태 01. 표본추출 방법1) 다순 랜덤 추출법 - 대표성이 떨어짐2) 계통 추출법 - 원소에 번호를 부여한 뒤 일정간격으로 데이터 추출 - 역시나 대표성을 장담할 수 없음3) 집락(군집: Cluster) 추출법 - 집락 끼리는 서로 동질적이며 집락내의 데이터는 서로 이질적이다- 집락1과 집락2는 각각 1,2,3 학년이 다 들어있어서 집락끼리는 동질적이다- 하지만 집락안에는 1,2,3학년 각각 다른 학년의 데이터가 들어있어서 이질적이다..4) 층화추출법- (불비례) 층화 추출법 -군집별 데이터수의 차이로 대표성에 문제가 될수 있음- 비례 층화추출법 - 군집별 데이터수의 차이에 비례하여, 전체 데이터 분..
-
3과목 1장 복습데이터분석 준전문가 2024. 10. 27. 15:12
데이터 분석 01. 데이터 마트 데이터 웨어하우스 > 데이터 마트 02. 전처리, 요약 변수, 파생변수데이터 전처리- 결측값과 이상값을 처리하는 정제 작업 외에도 변수 처리작업이 포함된다. - 데이터 분석에 맞게 데이터셋의 변수들을 선택, 차원축소, 파생 변수생성등의 작업- 요리로 비유하면 본격적인 요리를 하기에 앞서, 양파손질, 양념장 미리 만들어 놓기, 재료 손질등의 작업 요약변수 - 데이터로부터 기본적인 통계 자료를 추출한 변수, 기초적인 통계자료 - ex) 합계, 평균, 횟수, 성별구분 등 파생변수- 특정한 목적을 가지고 조건을 만족하는 변수들을 새롭게 생성한 것- ex) 특정 매장의 월별 합계, 특정기간의 남성고객의 구매 총액 등 - 주관적일 수 있어서 논리적 타당성을 갖추어야 ..
-
2 과목 복습데이터분석 준전문가 2024. 10. 26. 16:43
1.분석 대상과 그 방법에 따른 4가지 분석 주제 *** · 분석 대상 0 , 그 분석 방법 0 '최적화(Optimization)" · 분석 대상 0 , 그 분석 방법 X '솔루션(Solution)' · 분석 대상 X , 그 분석 방법 X '발견(Discovery)' · 분석 대상 X , 그 분석 방법 0 '통찰(Insight)' 2. 목표 시점별 분석 기획 · 과제 중심 접근방식 - 빠르게 해결해야하는 경우, 빠른 수행과 문제 해결이 목적 · 장기적인 마스터 플랜 방식 - 지속적인 분석 내재화를 위한 경우, 정확도와 무엇이 문제인가에 대한 문제정의가 목적 당면한 분석 주제 해결(과제 단위)지속적 분석 문화 내재화 (마스터플랜 단위)목적빠르게 해결하는 것이 목적지속적으로 해결하는 것이 목..
-
1 과목 복습데이터분석 준전문가 2024. 10. 26. 10:13
1. 데이터의 특성 존재적 특성 - 데이터는 있는 그대로의 객관적 사실 = fact ex) 수학 80점, 영어 100점 등당위적 특성 - 데이터는 추론, 에측, 전망, 추정을 위한 근거 = 가공 ,집계 등 ex) 평균 90점 2. 정성적, 정량적 데이터정성적 데이터 - 언어 문자 등 ex) 문자 텍스트, 언어, 문자 등정량적 데이터 - 수치, 도형, 기호 등 ex) 30cm , 정육면체, 3시방향 등 3. 정형, 비정형, 반정형 데이터정형 데이터 - 정형화된 틀이 있고, 연산이 가능 ex) CSV , 엑셀 스프레드시트 등비정형 데이터 - 정형화된 틀이 없고, 연산이 불가능 ex) 소셜 데..
-
ADsP 3과목 기초 - 편차와 분산데이터분석 준전문가 2024. 10. 21. 15:18
분산 · 분산: 데이터들이 중심에서 얼마나 떨어져 있는지를 알아보기 위한 측도다. 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다. 즉, 차이값의 제곱의 평균이다.· 확률변수의 분산: 확률변수가 취할 수 있는 값들이 그 중심(모평균)에서 얼마나 떨어져 있는지를 측정하는 측도다. 값이 크면 클수록 확률 X값이 기댓값에서 멀리 떨어져 있을 수 있다. · 표준편차 = √분산 -> 편차에 포함된 음수의 개념을 루트를 씌워서 양의 개념으로 바꾼 값. + 확률변수의 분산은 확률변수의 평균과 마찬가지로 이미 측정되어 있는 값에 대한 것이 아니고 앞으로 측정 또는 관측될 가능성이 있는 값들에 대한 측도다. ++ 편차는 차이의 개념+++ 분산은 거리의 개념 따라서 분산은 음의 개..
-
ADsP 3과목 개념 -데이터분석 준전문가 2024. 10. 16. 17:36
3과목 - 데이터분석 1. R 기초와 데이터마트 1. R 기초 (그냥 깔끔하게 버리자 / 요즘 시험에 안나옴 )데이터 전처리 - 데이터를 분석하기 위해 데이터를 가공하는 작업요약변수 - 수집한 변수를 종합 (재활용성이 높음)파생변수 - 의미를 부여한 변수 (논리적타당성 필요) 2. 데이터 마트- 데이터 웨어 하우스의 한분야로 특정 목적을 위해 사용 (소규모 데이터 웨어하우스) 3. 결측값과 이상값 검색- EDA (탐색적 자료분석)** 데이터의 의미를 찾기 위해 통계, 시각화를 통해 파악EDA의 4가지 주제 : 저항성의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통한 현시성-> 저잔재현 - 결측값 = 존재하지 않은 데이터 , null / NA 로 표시, 의미있는 데이터 일수도 있음단순 ..
-
ADsP 2과목 개념카테고리 없음 2024. 10. 7. 17:42
2과목 - 데이터분석 기획 1. 데이터분석 기획의 이해분석 기획 방향성 도출분석 방법론 ***분석 과제 발굴***분석 프로젝트 관리 방안2. 분석 마스터 플랜마스터 플랜 수립분석 거버넌스 체계 수립 분석 대상과 그 방법에 따른 4가지 분석 주제 ***분석 대상이 무엇인지 알고 있고 그 분석 방법도 알고 있다면 '최적화(Optimization)'분석 대상이 무엇인지 알고 있지만, 그 분석 방법을 모른다면 '솔루션(Solution)'분석 대상이 무엇인지도 모르고 그 분석 방법도 모른다면 있다면 '발견(Discovery)'분석 대상이 무엇인지는 모르지만, 그 분석 방법은 알고 있다면 '통찰(Insight)'【 분석 대상과 그 방법에 따른 4가지 분석 주제 】 빈출 *** !!!!! 분석 방법론 1. KD..
-
ADsP 1과목 개념데이터분석 준전문가 2024. 10. 7. 16:00
▶ 암묵지: 메뉴얼화 되어있지 않고 개인에게 체화되어 있어 겉으로 드러나지 않음 ⤷ 김치 담그기, 자전거 타기 등등 / 숨겨진 노하우, 영업비밀같은 것 ⤷ 개인에게 내면화 → 조직에게 공통화▶ 형식지: 문서나 매뉴얼화된 지식 ⤷ 교과서, 비디오 등등 ⤷ 언어·숫자·기호로 표출화 → 개인의 지식으로 연결화상호작용 - 개인에게 내면화된 암묵지가 조직의 지식으로 공통화(형식지) 되기 위해서는 표출화하고 이를 다시 개인의 지식으로 연결화하는 과정(메뉴얼, 매개체 등)을 거치게 된다.이는 다시..