AI/Algorithm&Models 41

Llama3 한국어 성능 테스트 | Colab에서 Meta-Llama-3 모델 사용해보기🦙

GPT-4에 비견할만한 성능을 가진다는 Meta의 오픈소스 LLM Llama3를 사용해보자! Llama 3 모델 Llama 3 모델 특징8B & 70B 파라미터 규모의 모델으로, MMLU, HumanEval  등 벤치마크 태스크에서 경쟁모델보다 좋은 성능을 보임Decoder-only 트랜스포머 아키텍처를 기본으로 하되, Llama2 대비 큰 향상을 보임토큰 인코딩 효율을 늘리기 위해 128,000개의 vocab size를 가지는 토크나이저 사용Llama2의 데이터셋의 7배 규모에 달하는 15조 토큰의 데이터에 대해 학습30개 이상의 언어에 대한 학습으로 다양한 언어적인 특성을 학습함Post-training 단계에서 Supervised fine-tuning, rejection sampling, Policy..

AI/Algorithm&Models 2024.07.10

[논문리뷰] 알파코드 - Competition-Level Code Generation with AlphaCode

딥마인드 블로그 : https://deepmind.com/blog/article/Competitive-programming-with-AlphaCode 논문 : https://arxiv.org/abs/2203.07814 이세돌 9단과의 경기에서 4-1로 승리한 알파고, 36만 개 이상의 단백질 3차원 구조를 예측한 알파폴드를 개발한 딥마인드(DeepMind) 팀이 이번에는 코딩 경진대회 문제를 푸는 코딩하는 AI, 알파코드 (AlphaCode)를 발표했다. 알파코드는 5,000명 이상의 참가자가 참가한 실제 경진대회에서 평균 54%의 상위 순위를 달성했다. 알파코드가 코딩을 학습한 방법은 최근 AI 분야에서 좋은 성능을 보이고 있는 사전학습과 fine-tuning 전략이다. 알파코드는 먼저 깃허브 등에 올..

AI/Algorithm&Models 2022.03.30

[ML Ops] - 지속가능한 AI서비스를 위한 Model Drift의 인지 및 관리

Model Drift란 "변화한다는 것만이 인생에서 유일하게 변하지 않는 점이다" - Heraclitus 머신러닝이 가정하는 강력한 전제 중 하나는 independent identical data이다. 즉, 모델이 지속적으로 성능을 유지하려면 모델이 처리하는 데이터와 환경이 동일해야 한다는 것이다. 하지만 현실 세계의 모든 것은 변한다. 고객, 환경, 상품, 산업 등등 변화는 끊임없이 지속된다. Model drift란 이렇게 변화하는 환경에 따라 모델의 성능이 저하되는 현상을 의미한다. Model Drift의 종류 Model Drift는 그 원인에 따라 아래과 같이 구분할 수 있다. Concept Drift : 예측하려고 하는 변수의 의미가 바뀌는 경우 (예) "금융사기" 예측 모델에서 "금융사기"의 정..

AI/Algorithm&Models 2022.02.20

[논문리뷰] Relative Position Representations in Transformer

MOTIVATION Transformer 아키텍쳐는 인풋 시퀀스 사이의 attention을 통해 인풋 사이의 관계를 모델링한다. 이때 이 매커니즘만으로는 시퀀스의 순서를 모델링할 수 없다. 예를 들어 "철수 / 가 / 영희 / 를 / 좋아해"라는 시퀀스와 "영희 / 가 / 철수 / 를 / 좋아해"라는 시퀀스에서 "철수"에 해당하는 attention layer의 아웃풋은 두 문장에서 완벽하게 동일하다. 이러한 문제를 해결하기 위해 2017년에 발표된 Transformer 논문에서는 인풋에 위치 인코딩 (position encoding)을 더해주는 방법을 사용하였다. 여기서 위치 인코딩은 (a)sinusoidal 함수를 사용한 결정론적인 벡터나 (b)학습한 벡터를 주로 사용한다. (a) sinusoidal ..

AI/Algorithm&Models 2022.02.04

[논문리뷰] Multimodal Neurons in Artificial Neural Networks

원문: https://distill.pub/2021/multimodal-neurons/ ** 본 논문은 인공 뉴런이 특정 개념 및 그와 관련된 이미지에 반응하는 현상에 대해 다룹니다. 이 중 어떤 뉴런은 인물, 정치, 종교, 지역, 정신질환 등 민감한 주제를 다룹니다. 저자는 모델이 웹상의 자료를 학습함에 따라 편견과 스테레오타입을 학습했을 수 있으며, 어떤 독자들에게는 이러한 민감한 주제에 대해 읽는 것이 거북할 수 있음을 경고하였습니다. [ 같은 개념에 대한 다양한 형태에 반응하는 뉴런이 존재한다 ] 2005년 네이처지에 의 존재에 대한 연구가 발표되었다. 이 뉴런은 특정한 인물, 예를 들어 미드 에서 레이첼 역을 맡은 제니퍼 애니스톤이나 할리베리와 같은 사람들에게 특징적으로 반응한다. 흥미로운 점은..

AI/Algorithm&Models 2021.11.21

Topic Segmentation 서베이 (2) | 유사도 기반의 클러스트링 - Dot Plotting

원문 - http://www.eecs.qmul.ac.uk/~mpurver/papers/purver11slu.pdf 본 서베이에서는 긴 컨텍스트를 주제적 일관성이 있는 segment로 나누는 방법에 대해 다룹니다. 포스팅은 이 중에서 대화 전사 텍스트 혹은 대화 STT 결과물 등을 segment하는 방법에 초점을 맞추어 정리하였습니다. 지난 글 : 2021.10.05 - [AI] - Topic Segmentation 서베이 (1) | Lexical Similarity 기반 기법 - TextTiling in Python Topic Segmentation 서베이 (1) | Lexical Similarity 기반 기법 - TextTiling in Python 원문 - http://www.eecs.qmul.ac...

AI/Algorithm&Models 2021.10.10

Topic Segmentation 서베이 (1) | Lexical Similarity 기반 기법 - TextTiling in Python

원문 - http://www.eecs.qmul.ac.uk/~mpurver/papers/purver11slu.pdf 본 서베이에서는 긴 컨텍스트를 주제적 일관성이 있는 segment로 나누는 방법에 대해 다룹니다. 포스팅은 이 중에서 대화 전사 텍스트 혹은 대화 STT 결과물 등을 segment하는 방법에 초점을 맞추어 정리하였습니다. Topic Segmentation이란 토픽 세분화란, 전체 녹취록이나 전사 스크립트 등을 보다 짧고, 주제적인 일관성을 가지는 덩이로 나누는 것을 의미한다. 통으로 되어 있는 문서를 이렇게 같은 주제로 나누는 작업은 검색(Information Retrieval)에서 필요한 부분의 정보만을 제공하는 등 유용하게 사용할 수 있다. 뿐만 아니라 컨텐츠에 있는 각 segment의 ..

AI/Algorithm&Models 2021.10.05

PoseNet: TensorFlow.js으로 실시간 human pose estimation 구현하기

자바스크립트로 ML 모델을 개발하고 브라우저 혹은 Node.js에서 실행할 수 있는 TensorFlow.js을 활용하여 실시간으로 사람의 자세를 추정하는 human pose estimation을 구현할 수 있습니다. 참고 자료 : https://blog.tensorflow.org/2018/05/real-time-human-pose-estimation-in.html 구글 라이브 데모 >> https://storage.googleapis.com/tfjs-models/demos/posenet/camera.html PoseNet - PoseNet은 MobileNet 혹은 ResNet 기반의 human pose estimation 네트워크이다. - TensorFlow.js에서 실행할 수 있기 때문에 a) 웹캠 혹..

AI/Algorithm&Models 2021.09.05

[논문리뷰] VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

논문: https://arxiv.org/pdf/2104.11178.pdf IDEA - 라벨링되지 않은 데이터를 사용하여 multimodal representation을 학습하는 프레임워크 - VATT는 raw signal들을 인풋으로 받아 다운스트림 태스크에 적용할 수 있는 multimodal representation을 추출 - multimodal contrastive loss를 사용하여 모델을 E2E로 학습하고, 다양한 태스크에 평가 - modality에 국한되지 않는 single backbone Transformer에 대해 탐구한다 (sharing weight) Introduction ▲ Inductive bias vs Large scale training Convolution Neural Netw..

AI/Algorithm&Models 2021.06.25

한국어 언어모델: Korean Pre-trained Language Models

Encoder Only Model (BERT 계열) 모델 모델 사이즈 학습 코퍼스 설명 BERT_multi (Google) vocab=10만+ - 12-layers 다국어 BERT original paper에서 공개한 multi-lingual BERT [벤치마크 성능] - [텍스트분류] NSMC Acc 87.07 - [개체명인식] Naver-NER F1 84.20 - [기계 독해] KorQuAD 1.0 EM 80.82%, F1 90.68% - [의미역결정] Korean Propbank F1 81.85% KorBERT _Morphology _WordPiece (ETRI) [Morphology] vocab = 30,349 [WordPiece] vocab = 30,797 - 12-layers 기사, 백과사전 ..

AI/Algorithm&Models 2021.05.16