본문 바로가기
리뷰/대학원 리뷰

[성균관대 데이터사이언스융합학과] 2학기 2주차 후기

by 데이터분석 중니어 2024. 9. 18.
반응형
[목차]
0. 자연어처리
1. 기계학습특론
2. IT와지적재산권보호
3. 응용데이터분석(청강)

 

자연어처리

  • 강의내용
    • 사전 질의사항 응답
      • 질의사항에 관련된 개념 일부 설명
        • pre-trained language model은 매 학습마다 새로운 word embedding을 만들어 내기 때문에 기존 bag of words와 차이를 가짐 (다만 paramater가 커서 무겁다는 단점)
        • word와 string은 다름 (word는 의미를 갖지만, string은 'aaa'와 같이 의미없는 나열도 존재)
        • one-hot-representation은 원핫인코딩 기반 원리의 문장구성 원리
          • 다만 one hot representation은 코사인 유사도 계산 시 '직각' 문제 발생 (유사도 0)
          • 이를 극복하기 위해 Neural word embedding 기법 발전 (고차원 실수 벡터)
            • Neural word embedding은 단어의 중의성도 잘 표현함
        • Bert는 ELMo에서 발전한 모델
    • 논문 발표
      • Multi-Task Deep Neural Networks for Natural Language Understanding
      • BERT Post-Training for Review Reading Comprehension and Aspect-based Sentiment Analysis
    • 그 외 강의 없음 
  • 과제
    • 강의수강 후 사전 질의
    • 논문 발표자는 발표자료 작성 후 업로드

 

기계학습특론

  • 강의내용
    • Introduction to KNN(K-Nearest Neighbors)
      • Classification with k-NN
        • 주위에 가장 가까이 있는 k개의 데이터 라벨에 따라 category 결정
        • 다만 데이터 갯수에 따른 편향 등이 있어 Distance로 계산하는 방법도 있음
      • Regression with k-NN
        • 분류는 택 1의 문제이지만, 회귀는 output이 '실수값'임
        • x가 주어졌을 때 y를 예측
        • knn의 원리로는 주의 k개의 y의 값의 평균 or 중위값으로 출력
        • 이 또한 k개의 데이터만으로 계산하기엔 편향된 결과값이 나올 수 있어 distance 활용 가능
      • Variation of k-NN
        • 가중치를 두어서 분류와 회귀 문제를 좀 더 정교하게 만듦
        • 가중치는 보통 각 데이터의 거리 값으로 두고, 거리에 반비례하여 하게 만들기 위해 exponential 함수를 사용
          • 이를 통해 값이 커질수록 작아지게 만들 수 있음
        • 아니면 가중치를 Gaussian weight function을 사용하는 Kernel Regression을 쓸 수 있음
      • Distance Measure
        • knn에서 distance를 어떻게 정의할 것인가는 매우 중요한 문제
        • 보통은 Euclidian distance를 사용
          • Generalized Euclidian distance
          • Mahalanobis distance
          • Cosine similarity
          • Pearson correlation
          • Jaccard similiarity
        • 거리만 정의할 수 있다면 수치형이 아니라도 가능!
      • Summary
        • k의 중요성
          • k가 작을수록 결정경계가 복잡(변동성 up)
          • k가 클수록 결정경계가 단순(biased 가능성 up)
          • 적절한 k 선정이 중요함
        • knn 장점
          • 훈련시킬 필요가 없음
          • 데이터 로스가 없음
        • knn 단점
          • 노이즈에 민감함
          • 데이터 편향에 큰 영향을 받음
          • 훈련 시 로컬 장비 메모리에 부하를 줄 수 있음
          • 트레이닝 데이터 구조에 영향을 받음
          • 모든 것을 하나하나 계산하기 때문에 상당히 긴 시간이 걸림
          • 차원이 늘어날수록 계산이 어려움 (거리의 의미가 사라짐)

 

IT와지적재산권보호

  • 강의내용
    • 지식재산권이 어떻게 나뉘고 있는지 등 전반적인 개념 설명
      • 특허, 상표권, 영업비밀, 저작권 등
    • 한 학기동안의 운영계획 설명
      • 토론 등의 방식으로 진행하며, 적극적인 참여에 대한 점수 반영 예정
      • 한 학기동안 지정석을 두어, 참여도 파악
      • 발표 및 중간대체 과제 등이 있을 예정
      • 빠지는 사람이 있다면 zoom 실시간 강의로 볼 수 있도록 배려할 것

 

응용데이터분석

  • 강의내용
    • 삼성 SDS 브라이틱스 이용을 위한 GCP 내 환경설정 구축 시범
    • 리눅스 및 클라우드 개념설명
    • 리눅스 기초 명령어 설명 
    • vi 편집기 사용법 설명 등
반응형