[성균관대 데이터사이언스융합학과] 2학기 2주차 후기

[목차]
0. 자연어처리
1. 기계학습특론
2. IT와지적재산권보호
3. 응용데이터분석(청강)

자연어처리

강의내용
- 사전 질의사항 응답
  - 질의사항에 관련된 개념 일부 설명
    - pre-trained language model은 매 학습마다 새로운 word embedding을 만들어 내기 때문에 기존 bag of words와 차이를 가짐 (다만 paramater가 커서 무겁다는 단점)
    - word와 string은 다름 (word는 의미를 갖지만, string은 'aaa'와 같이 의미없는 나열도 존재)
    - one-hot-representation은 원핫인코딩 기반 원리의 문장구성 원리
      - 다만 one hot representation은 코사인 유사도 계산 시 '직각' 문제 발생 (유사도 0)
      - 이를 극복하기 위해 Neural word embedding 기법 발전 (고차원 실수 벡터)
        
        Neural word embedding은 단어의 중의성도 잘 표현함
    - Bert는 ELMo에서 발전한 모델
- 논문 발표
  - Multi-Task Deep Neural Networks for Natural Language Understanding
  - BERT Post-Training for Review Reading Comprehension and Aspect-based Sentiment Analysis
- 그 외 강의 없음
과제
- 강의수강 후 사전 질의
- 논문 발표자는 발표자료 작성 후 업로드

기계학습특론

강의내용
- Introduction to KNN(K-Nearest Neighbors)
  - Classification with k-NN
    - 주위에 가장 가까이 있는 k개의 데이터 라벨에 따라 category 결정
    - 다만 데이터 갯수에 따른 편향 등이 있어 Distance로 계산하는 방법도 있음
  - Regression with k-NN
    - 분류는 택 1의 문제이지만, 회귀는 output이 '실수값'임
    - x가 주어졌을 때 y를 예측
    - knn의 원리로는 주의 k개의 y의 값의 평균 or 중위값으로 출력
    - 이 또한 k개의 데이터만으로 계산하기엔 편향된 결과값이 나올 수 있어 distance 활용 가능
  - Variation of k-NN
    - 가중치를 두어서 분류와 회귀 문제를 좀 더 정교하게 만듦
    - 가중치는 보통 각 데이터의 거리 값으로 두고, 거리에 반비례하여 하게 만들기 위해 exponential 함수를 사용
      - 이를 통해 값이 커질수록 작아지게 만들 수 있음
    - 아니면 가중치를 Gaussian weight function을 사용하는 Kernel Regression을 쓸 수 있음
  - Distance Measure
    - knn에서 distance를 어떻게 정의할 것인가는 매우 중요한 문제
    - 보통은 Euclidian distance를 사용
      - Generalized Euclidian distance
      - Mahalanobis distance
      - Cosine similarity
      - Pearson correlation
      - Jaccard similiarity
    - 거리만 정의할 수 있다면 수치형이 아니라도 가능!
  - Summary
    - k의 중요성
      - k가 작을수록 결정경계가 복잡(변동성 up)
      - k가 클수록 결정경계가 단순(biased 가능성 up)
      - 적절한 k 선정이 중요함
    - knn 장점
      - 훈련시킬 필요가 없음
      - 데이터 로스가 없음
    - knn 단점
      - 노이즈에 민감함
      - 데이터 편향에 큰 영향을 받음
      - 훈련 시 로컬 장비 메모리에 부하를 줄 수 있음
      - 트레이닝 데이터 구조에 영향을 받음
      - 모든 것을 하나하나 계산하기 때문에 상당히 긴 시간이 걸림
      - 차원이 늘어날수록 계산이 어려움 (거리의 의미가 사라짐)

IT와지적재산권보호

강의내용
- 지식재산권이 어떻게 나뉘고 있는지 등 전반적인 개념 설명
  - 특허, 상표권, 영업비밀, 저작권 등
- 한 학기동안의 운영계획 설명
  - 토론 등의 방식으로 진행하며, 적극적인 참여에 대한 점수 반영 예정
  - 한 학기동안 지정석을 두어, 참여도 파악
  - 발표 및 중간대체 과제 등이 있을 예정
  - 빠지는 사람이 있다면 zoom 실시간 강의로 볼 수 있도록 배려할 것

응용데이터분석

강의내용
- 삼성 SDS 브라이틱스 이용을 위한 GCP 내 환경설정 구축 시범
- 리눅스 및 클라우드 개념설명
- 리눅스 기초 명령어 설명
- vi 편집기 사용법 설명 등

저작자표시 비영리 변경금지

'리뷰 > 대학원 리뷰' 카테고리의 다른 글

[성균관대 데이터사이언스융합학과] 2학기 1주차 후기 (0)	2024.09.08
[성균관대 데이터사이언스융합학과] 연구실안전교육 문제풀이(2024-2) (0)	2024.09.03
[성균관대 데이터사이언스융합학과] 1학기 후기 (2)	2024.06.30
[성균관대 데이터사이언스융합학과] 1학기 16주차 후기 (0)	2024.06.23
[성균관대 데이터사이언스융합학과] 1학기 15주차 후기 (0)	2024.06.23

와장창 데이터분석 지망생

[성균관대 데이터사이언스융합학과] 2학기 2주차 후기

자연어처리

기계학습특론

IT와지적재산권보호

응용데이터분석

'리뷰 > 대학원 리뷰' 카테고리의 다른 글

티스토리툴바

[성균관대 데이터사이언스융합학과] 2학기 2주차 후기

자연어처리

기계학습특론

IT와지적재산권보호

응용데이터분석

'리뷰 > 대학원 리뷰' 카테고리의 다른 글

관련글

티스토리툴바