본문 바로가기
리뷰/대학원 리뷰

[성균관대 데이터사이언스융합학과] 1학기 9주차 후기

by 준쓰_ 2024. 5. 5.
[목차]
0. 기초통계
1. 선형대수응용
2. 자료구조/알고리즘

 

기초통계

  • 강의내용
    • 이변량 확률변수
      • 결합분포와 주변분포
      • (이산형) 주변확률질량함수 / (연속형) 주변확률밀도함수
      • 두 확률변수의 독립 (이산형/연속형)
      • 공분산과 상관계수
        • 공분산: 두 확률변수가 같은 방향으로 움직이려는 경향을 알려줌
          • 때문에 음수의 형태도 가능함
        • 상관계수 특징 
          • 1. 단위가 없다
          • 2. 오직 선형관계의 강도만을 나타낸다.
          • 3, 연산해서는 안된다.
        • 상관계수를 계산하려면 설명변수간 서로 독립이어야 하며, 독립이 아닌 경우 다중공선성 발생
          • 이를 극복하려면 자료변환 필요
            • 1. 공선성을 일으키는 변수를 없애던가
            • 2. 비슷한 변수끼리 결합하던가
            • 3. 차분을 시도하던가
            • 4. Ridge Regression이나 주성분분석을 시도하던가
          • 행렬에서 선형관계가 있다면 공선성 발생
        • 결정계수(모형이 전체 데이터를 설명하는 비율)는 y값과 y^ 값 사이의 상관관계의 제곱
        • 통계에서는 0.8 이상을 유의하다고 보나, 인문계에서는 0.3도 유의하다고 봄
          • 크기가 유의미한 것이 아니라 해석이 중요
        • 설명변수가 많을수록 결정계수는 올라가지만, 설명이 어렵다
          • 또한 예측에 매우 좋지 않음 (틀린 예측에서 원인을 찾기 쉽지 않음)
          • 적은 설명변수로 전체 데이터를 설명할 수 있어야 좋은 모형

 

선형대수응용

  • 강의내용
    • 직교성 : 벡터 u·v=0 이면 두 벡터는 직교한다. (내적이 0)
    • 3차원 공간에서 경사각을 기술하는 한 가지 방법은 직선에 대해 직교하는 법센벡터를 이용
    • 정사영 : projaμ 형태로 표기
    • 외적 : 3차원의 공간 벡터만이 가지는 성질로, 점곱 형태가 아닌 벡터 형태로 곱셈 가능
      • 이를 통해 두 벡터로 만들어지는 평행사변형의 넓이와 부피를 구할 수 있다.
  • 과제
    • 7주차 문제풀이

 

자료구조/알고리즘

  • 강의내용
    • 트리 계열 설명
      • 용어 설명 : 루트, 자식, 차수 등
      • 이진트리 : 모든 노드가 2개의 서브 트리를 갖는 트리
        • 포화 이진 트리
        • 완전 이진 트리
      • 노드의 개수가 n개이면 간선의 개수는 n-1
      • 높이가 h이면 전체 노드는 h ~ 2^h-1 개
      • 이진트리 순회 기법
        • 전위 : 루트 ▶ 왼쪽 서브트리 ▶ 오른쪽 서브트리
        • 중위 : 왼쪽 서브트리   루트   오른쪽 서브트리
        • 후위 : 왼쪽 서브트리    오른쪽 서브트리    루트
      • 레벨순회
      • 이진트리 계산
    • 힙 설명
      • 힙 : 더미와 모습이 비슷한 완전이진트리 기반의 자료구조
      • 최대힙 :부모 노드의 키 값이 자식 노드의 키 값보다 크거나 같은 완전이진트리
      • 최소힙 : 부모 노드의 키 값이 자식 노드의 키 값보다 작거나 같은 완전이진트리
      • 이진힙은 우선순위큐를 구현하는 가장 기본적인 자료구조