반응형
[목차]
0. 자연어처리
1. 기계학습특론
2. IT와지적재산권보호
3. 응용데이터분석(청강)
자연어처리
- 강의내용
- 사전 질의사항 응답
- 질의사항에 관련된 개념 일부 설명
- pre-trained language model은 매 학습마다 새로운 word embedding을 만들어 내기 때문에 기존 bag of words와 차이를 가짐 (다만 paramater가 커서 무겁다는 단점)
- word와 string은 다름 (word는 의미를 갖지만, string은 'aaa'와 같이 의미없는 나열도 존재)
- one-hot-representation은 원핫인코딩 기반 원리의 문장구성 원리
- 다만 one hot representation은 코사인 유사도 계산 시 '직각' 문제 발생 (유사도 0)
- 이를 극복하기 위해 Neural word embedding 기법 발전 (고차원 실수 벡터)
- Neural word embedding은 단어의 중의성도 잘 표현함
- Bert는 ELMo에서 발전한 모델
- 질의사항에 관련된 개념 일부 설명
- 논문 발표
- Multi-Task Deep Neural Networks for Natural Language Understanding
- BERT Post-Training for Review Reading Comprehension and Aspect-based Sentiment Analysis
- 그 외 강의 없음
- 사전 질의사항 응답
- 과제
- 강의수강 후 사전 질의
- 논문 발표자는 발표자료 작성 후 업로드
기계학습특론
- 강의내용
- Introduction to KNN(K-Nearest Neighbors)
- Classification with k-NN
- 주위에 가장 가까이 있는 k개의 데이터 라벨에 따라 category 결정
- 다만 데이터 갯수에 따른 편향 등이 있어 Distance로 계산하는 방법도 있음
- Regression with k-NN
- 분류는 택 1의 문제이지만, 회귀는 output이 '실수값'임
- x가 주어졌을 때 y를 예측
- knn의 원리로는 주의 k개의 y의 값의 평균 or 중위값으로 출력
- 이 또한 k개의 데이터만으로 계산하기엔 편향된 결과값이 나올 수 있어 distance 활용 가능
- Variation of k-NN
- 가중치를 두어서 분류와 회귀 문제를 좀 더 정교하게 만듦
- 가중치는 보통 각 데이터의 거리 값으로 두고, 거리에 반비례하여 하게 만들기 위해 exponential 함수를 사용
- 이를 통해 값이 커질수록 작아지게 만들 수 있음
- 아니면 가중치를 Gaussian weight function을 사용하는 Kernel Regression을 쓸 수 있음
- Distance Measure
- knn에서 distance를 어떻게 정의할 것인가는 매우 중요한 문제
- 보통은 Euclidian distance를 사용
- Generalized Euclidian distance
- Mahalanobis distance
- Cosine similarity
- Pearson correlation
- Jaccard similiarity
- 거리만 정의할 수 있다면 수치형이 아니라도 가능!
- Summary
- k의 중요성
- k가 작을수록 결정경계가 복잡(변동성 up)
- k가 클수록 결정경계가 단순(biased 가능성 up)
- 적절한 k 선정이 중요함
- knn 장점
- 훈련시킬 필요가 없음
- 데이터 로스가 없음
- knn 단점
- 노이즈에 민감함
- 데이터 편향에 큰 영향을 받음
- 훈련 시 로컬 장비 메모리에 부하를 줄 수 있음
- 트레이닝 데이터 구조에 영향을 받음
- 모든 것을 하나하나 계산하기 때문에 상당히 긴 시간이 걸림
- 차원이 늘어날수록 계산이 어려움 (거리의 의미가 사라짐)
- k의 중요성
- Classification with k-NN
- Introduction to KNN(K-Nearest Neighbors)
IT와지적재산권보호
- 강의내용
- 지식재산권이 어떻게 나뉘고 있는지 등 전반적인 개념 설명
- 특허, 상표권, 영업비밀, 저작권 등
- 한 학기동안의 운영계획 설명
- 토론 등의 방식으로 진행하며, 적극적인 참여에 대한 점수 반영 예정
- 한 학기동안 지정석을 두어, 참여도 파악
- 발표 및 중간대체 과제 등이 있을 예정
- 빠지는 사람이 있다면 zoom 실시간 강의로 볼 수 있도록 배려할 것
- 지식재산권이 어떻게 나뉘고 있는지 등 전반적인 개념 설명
응용데이터분석
- 강의내용
- 삼성 SDS 브라이틱스 이용을 위한 GCP 내 환경설정 구축 시범
- 리눅스 및 클라우드 개념설명
- 리눅스 기초 명령어 설명
- vi 편집기 사용법 설명 등
반응형
'리뷰 > 대학원 리뷰' 카테고리의 다른 글
[성균관대 데이터사이언스융합학과] 2학기 1주차 후기 (0) | 2024.09.08 |
---|---|
[성균관대 데이터사이언스융합학과] 연구실안전교육 문제풀이(2024-2) (0) | 2024.09.03 |
[성균관대 데이터사이언스융합학과] 1학기 후기 (2) | 2024.06.30 |
[성균관대 데이터사이언스융합학과] 1학기 16주차 후기 (0) | 2024.06.23 |
[성균관대 데이터사이언스융합학과] 1학기 15주차 후기 (0) | 2024.06.23 |