-
1 과목 복습데이터분석 준전문가 2024. 10. 26. 10:13
1. 데이터의 특성
존재적 특성 - 데이터는 있는 그대로의 객관적 사실 = fact ex) 수학 80점, 영어 100점 등
당위적 특성 - 데이터는 추론, 에측, 전망, 추정을 위한 근거 = 가공 ,집계 등 ex) 평균 90점
2. 정성적, 정량적 데이터
정성적 데이터 - 언어 문자 등 ex) 문자 텍스트, 언어, 문자 등
정량적 데이터 - 수치, 도형, 기호 등 ex) 30cm , 정육면체, 3시방향 등
3. 정형, 비정형, 반정형 데이터
정형 데이터 - 정형화된 틀이 있고, 연산이 가능 ex) CSV , 엑셀 스프레드시트 등
비정형 데이터 - 정형화된 틀이 없고, 연산이 불가능 ex) 소셜 데이터, 댓글, 영상, 음성 등
반정형 데이터 - 형태는 있지만, 연산이 불가능 ex) XML, JSON, 센서 데이터 등
-> 각각의 예들을 구분에서 암기
4. 암묵지와 형식지
암묵지 - 겉으로 드러나 있지 않은 상태의 지식
형식지 - 어떤 형태로든 형상화된 지식
상호작용 - 암묵지 + 공통화 + 표출화 => 형식지
- 형식지 + 연결화 + 내면화 => 암묵지

5. DIKW 피라미드
지식과 지혜의 차이 구별
지식 -> A연필이 저렴(정보)하니까 A연필을 사야지
지혜 -> 추측과 예측이 들어감 A연필이 저렴하니까, A의 다른물건도 저렴할꺼야 (추측)

6. 데이터 단위
바이트 < 킬로 < 메가 < 기가 < 테라 < 페타 < 엑사 < 제타 < 요타
7. 데이터 베이스의 특징
- 통합된 데이터 - 동일한 내용의 데이터가 중복되어 있지 않다.
- 저정된 데이터 - 컴퓨터 매체가 접근할 수 있는 저장 매체에 저장되어 있다.
- 공용 데이터 - 여러 사용자가 공유할 수 잇다.
- 변화하는 데이터 - 삽입, 수정, 삭제를 통해 항상 최신의 정확한 데이터를 유지해야 한다.
8. 데이터 베이스의 다양한 측면에서의 특성
1) 정보의 축적 및 전달 측면 (TECH , 하드웨어적인 관점)
• 기계 가독성: 대량의 정보를 일정한 형식에 따라 컴퓨터 등의 정보처리기기가 읽고 쓸 수 있다.
• 검색 가능성: 다양한 방법으로 필요한 정보를 검색할 수 있다.
• 원격 조작성: 정보통신망을 통해 원거리에서도 즉시 온라인으로 이용 가능하다.2) 정보이용 측면 ( USER, 사용자의 관점)
• 이용자의 정보요구에 따라 다양한 정보를 신속하게 획득할 수 있고,
원하는 정보를 정확하고 경제적으로 찾아낼 수 있다.
3) 정보관리 측면 (DB, DB관리의 관점 )
• 정보를 일정한 질서와 구조에 따라 정리 · 저장하고 검색 · 관리할 수 있게 하여,
방대한 양의 정보를 체계적으로 축적하고, 새로운 내용 추가나 갱신이 용이하다.
4) 정보기술발전 측면
• 데이터베이스는 정보처리, 검색 · 관리 소프트웨어, 관련 하드웨어, 정보 전송을 위한
네트워크 기술 등의 발전을 견인할 수 있다.
5) 경제 · 산업적 측면
• 데이터베이스는 다양한 정보를 필요에 따라 신속하게 제공 · 이용할 수 있는 인프라의 특성을 가지고 있어
경제. 산업, 사회 활동의 효율성을 제고하고 국민의 편의를 증진하는 수단으로써의 의미를 가진다.
9. 기업 내부의 데이터베이스• OLTP (Online Transaction Processing) 시스템 - 거래 단위에 초점
• OLAP (Online Analytical Processing) 시스템 - 데이터가 쌓인 전체 데이터에 초점
• EAI (Enterprisse Application Integration) - 중앙 서비스 통합 관리
• KMS(Knowledge Management System)
- 지식 경영 시스템 , 기업이 보유할 수 있는 모든 지식(직원들의 지식, 프로젝트 경험, 과거 사례등)을
통합해서 문제해결 능력 향상
• SCM (Supply Chain Management) - 공급망 관리, 원자재에서부터 기업, 고객에게 도달하기까지 유통단계 최적화
• ERP ( Enterprise Resource Planning) - 경영지원 통합 관리
• CRM (Customer Relationship Management) - 고객 관계 관리 마케팅 측면
• BI (business Intelligence)
- 기업의 의사결정 프로세스 경영권자가 올바른 의사결정을 내릴 수 있도록 기업의 데이터를
가공, 분석하는 것이 목적
- 가트너는 bi 를 여러곳에 산재되어 있는 많은 데이터를 수집하여 체계적이고 일목요연하게 정리함으로써
사용자가 필요로 하는 정보를 정확한 시간에 제공할 수 있는 환경 으로 정의 함
• RTE (Real Time Enterprise) - 기업의 업무 프로세스에서 발생하는 정보를 실시간으로 통합, 전달하여 신속한 대응
10. 데이터베이스의 종류
• RDB - Oracle, MySQL, MS-SQL 등
• NoSQL - 아마존의 Dynamo, 구글의 Bigtable, MongoDB, Elasticsearch
11. SQL의 이해
• DDl = 데이터 정의 - CREATE, ALTER , RENAME, DROP
• DML = 데이터 조작 - SELECT, INSERT, UPDATE, DELETE
• DCL = 데이터 제어 - GRANT, REVOKE,
• TCL = 트렌잭션 제어 = COMMIT, SAVEPOINT, ROLLBACK
12. 빅데이터의 특성
• 더그 래니의 3V - volume(양) , variety(유형) , velocity(속도)
• 새로운 특징 4V - 3V + value(가치) or veracity(정확성) or visualization (시각화) or variability(가변성)
13. 빅데이터 출현 배경
1.데이터의 양적 증가
2. 산업계의 변화
3. 학계의 변화
4. 관련 기술의 발전 - 클라우드 컴퓨팅, 저장매체(메모리)가격의 하락
14. 빅데이터의 기능
빅데이터는 "산업혁명의 석탄 · 철" 제조업뿐만 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회 · 경제 - 문화 · 생활 전반에 혁명적 변화를 가져울 것으로 기대된다. 빅데이터는 "21세기 원유" 빅데이터도 원유처럼 각종 비즈니스, 공공기관 대국민 서비스, 그리고 경제 성장에 필요한 정보를 제공하여 산업 전반의 생산성을 향상시키고 새로운 범주의 산업을 만들어낼 것으로 기대된다. 빅데이터는 "렌즈" 렌즈를 통해 현미경이 생물학 발전에 끼쳤던 영향만큼, 빅데이터도 렌즈처럼 산업 발전에큰 영향을 줄 것으로 기대된다.
대표 사례) 구글의 Ngram Viewer빅데이터는 "플랫폼" 플랫폼은 공동 활용의 목적으로 구축된 유무형의 구조물을 말한다. 빅데이터는 플랫폼으로서 다양한 서드파티 비즈니스에 활용될 것으로 기대된다.
대표 사례) 페이스북, 카카오톡 등
15. 빅데이터가 만들어내는 변화• 사전처리 -> 사후처리
• 표본조사 -> 전수조사
• 질 -> 양
• 인과관계 -> 상관관계
16. 빅데이터 가치선정이 어려운 이유
데이터 활용 방식 빅데이터의 재사용이나 재조합. 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 누가. 언제, 어떻게, 어디서 활용하는지 알 수 없게 되었기 때문에 가치 산정이 어렵다. 가치 창출 방식 빅데이터는 기존에 없던 새로운 가치를 창출함에 따라 그 가치를 산정하기 어렵다. 분석 기술의 발전 데이터 분석 기술의 발전으로 가치 있는 데이터와 가치 없는 데이터의 경계를 나누기 어려워졌다.
오늘의 가치 없는 데이터가 내일은 가치 있는 데이터가 될 수도 있기 패문에 빅데이터의 가치 산정은 어렵다.17. 7가지 빅데이터 활용 기본 테크닉
1. 연관규칙 학습
• 어떤 변인 간에 주목할만한 상관관계가 있는지 찾아내는 방법 - 연관분석, 장바구니 분석
2. 유형분석 - 분류
• 새로운 사건이 속할 범주는 찾아내는 방법
3. 유전 알고리즘
• 유전의 메커니즘으로 문제의 해결책을 진화시켜나가는 방법
- 최적화된 택배차량 배치, 최고의 시청률을 위한 방송 프로그램 배치
4. 기계학습 = 머신러닝
• 데이터로 규칙을 찾고 그 규칙을 이용해 예측
5. 회귀 분석
• 원인과 결과의 문제, 독립변수를 조작함에 따라 종속변수가 어떻게 변하는지 변인관계 파악
6. 감정분석
• 비정형 데이터 마이닝의 대표적인 기법중 하나 긍,부정 선별.
7. 소셜 네트워크 분석
• 사회 관계망 분석으로도 불리며, 온라인 공간에서 유저 사이의 팔로워, 팔로잉 관계 즉 어떤 관계망을 가지고 있는지 분석
18. 빅데이터의 위기요인 ***
1. 사생활 침해
• 개인의 사생활 침해를 넘어 사회 경제적 위협으로 변형 가능성
2. 책임원칙 훼손
• 예측 알고리즘에 희생향이 될수 있음 - 신용카드발급여부 판단에 있어서 불이익 발생 , 영화 마이너리포트
• 기존에 과거 데이터를 통해서 발급을 했는데, 신규로 만드는 사람들은 그 데이터가 없어서 불이익을 받을 수 있음.
3. 데이터 오용
+ 빅데이터의 위기 요인과 그 예시 **
사생활 침해 -> 구글의 사용자 행동 패턴 예측
책임원칙 훼손 -> 범죄 발생 이전에 체포
데이터 오용 -> 비행기 탑승 금지자 목록에 상원 의원이 포함
19. 빅데이터의 위기 통제 방안 ***
1. 사생활 침해의 통제방안 -> 동의에서 책임으로
2. 책임 원칙 훼손의 통제 방안 -> 결과 기반 책임 원칙 고수
3. 알고리즘 접근 허용
• 알고리즘으로 인한 피해자를 구제해주는 알고리즈미스트의 급부상
20. 일차원적 분석 vs 전략 도출을 위한 가치 기반 분석
1. 일차원적 분석
에너지 트레이딩 공급/수요 예측
산업 일차원적 분석 애플리케이션 금융 서비스 신용점수 산정, 사기 탐지, 가격 책정, 프로그램 트레이딩, 클레임 분석, 고객 수익성 분석 에너지 트레이명,공급/수요 예측 ( 금융이 아님에 주의!!) 병원 가격 책정, 고객 로열티. 수익 관리 정부 사기탐지. 사례관리. 범죄방지, 수익 최적화 2. 전략 도출을 위한 가치 기반 분석
21. 데이터 사이언티스트에게 요구되는 역량 ***
1. Hard Skill
• 빅데이터에 대한 이론적인 지식
• 분석 기술에 대한 숙련
2. Soft Skill
• 통찰력있는 분석
• 설득력있는 전달
• 다분야 간 협력 ( 커뮤니케이션)
22. 빅데이터 Trend Keyword
1.빅데이터와 인공지능 2. 머신러닝과 딥러닝의 차이 3. 빅데이터 플랫폼 4.하둡
5. 하둡 에코시스템 6. 데이터 레이크 7. 마이데이터 (Mydata)
8. 2020년 개정된 <개인정보보호법>
• 개인정보 보호 원칙
• 개인정보 자기결정권
• 개인전보 처리제한(민감정보, 고유식별정보)
• 영상정보 처리기기 규제
• 개인전보 유출 통지및 신고제 도입
• 정보주체의 권리 보장
• 안전조치 의무가명 정보의 처리에 관한 특례법 도입
9. 개인정보 비식별화 10. 스마트 팩토리 11. 블록체인 12.메타버스
'데이터분석 준전문가' 카테고리의 다른 글
3과목 1장 복습 (1) 2024.10.27 2 과목 복습 (7) 2024.10.26 ADsP 3과목 기초 - 편차와 분산 (0) 2024.10.21 ADsP 3과목 개념 - (6) 2024.10.16 ADsP 1과목 개념 (11) 2024.10.07