About the role
About the Team & Mission
LLM Engineer (Data Generation)는 Data-Centric AI 관점에서 모델 성능 향상에 필요한 학습 데이터를 설계·생성·평가·개선하는 역할을 수행합니다.
모델의 성능 병목과 Failure case를 분석하여 데이터 요구사항을 정의하고, Instruction Data, Preference Data, Reasoning Data, Domain-specific Data 등 목적에 맞는 학습 데이터를 구축하며, Data Generation Pipeline, 학습 결과 기반 Data Evaluation, Data Curation을 통해 대규모 학습 데이터의 품질을 체계적으로 개선하고, 차세대 Generative AI 모델의 성능 향상에 기여합니다.
Responsibilities
모델 성능 개선을 위한 데이터 설계 및 생성
Research 및 Model Training 팀과 협업하여 모델의 성능 병목, Failure Case, 학습 목표를 분석하고 데이터 요구사항을 정의합니다.
Instruction Data, Preference Data, Reasoning Data, Domain-specific Data 등 목적에 맞는 학습 데이터를 설계·생성·정제합니다.
생성된 데이터가 모델 성능에 미치는 영향을 실험적으로 분석하고, 결과를 바탕으로 데이터 생성 전략을 반복적으로 개선합니다.
Data Generation Pipeline 구축
Synthetic Data를 포함한 학습 데이터 생성 자동화 파이프라인을 설계하고 운영합니다.
대규모 데이터 생성 Workflow를 구축하여 안정적이고 효율적인 데이터 생산 환경을 제공합니다.
생성 비용, 처리 속도 및 품질을 고려한 Pipeline을 지속적으로 최적화합니다.
Data Quality 및 Evaluation
데이터의 품질과 학습 효과를 정량적·정성적으로 평가하는 기준을 정의합니다.
LLM-as-a-Judge, Rule-based Validation, Human Feedback 등을 활용하여 데이터 품질을 검증합니다.
데이터 품질 개선을 위한 Iterative Generation 및 Filtering 전략을 개발합니다.
Qualifications
LLM, Machine Learning 또는 Data Generation 관련 업무 경력 3년 이상
딥러닝, 머신러닝 및 자연어처리에 대한 전반적인 이해
모델 학습 데이터의 구성, 전처리, 품질 평가 및 학습 반영 과정에 대한 이해
Python 기반 데이터 처리 및 자동화 개발 역량
대규모 학습 데이터셋의 처리, 정제, 필터링 및 품질 관리 경험 또는 이에 준하는 역량
LLM을 활용한 Synthetic Data 생성, Data Evaluation 또는 Data Curation 경험
LLM API 및 Prompting/Generation Strategy에 대한 이해 또는 활용 경험
뛰어난 문제 해결 능력과 협업 및 커뮤니케이션 역량
Preferred Qualifications
LLM Pre-training, Supervised Fine-tuning(SFT), Preference Optimization(DPO/RLHF/RLAIF) 등 LLM 대규모 학습 데이터 구축 경험
LLM Evaluation Framework(OpenAI Evals, LM Evaluation Harness, DeepEval 등) 또는 자체 평가 시스템 구축 경험
멀티턴 대화, Tool Calling, Agent, Reasoning, Code Generation 등 고난도 LLM 데이터 설계 경험
Python 기반 데이터 파이프라인(Airflow, Ray, Spark 등) 또는 대규모 데이터 처리 환경 구축 경험
Generative AI, LLM, NLP 관련 오픈소스 프로젝트 기여 또는 논문·기술 발표 경험
Interview Process
서류 전형
코딩·과제 테스트
1차 면접 (화상, 1시간 내외)
2차 면접 (대면 혹은 화상, 3시간 내외)
처우 협의·입사
Additional Information
전형 절차는 일정 및 진행 상황에 따라 일부 변경될 수 있으며, 각 전형 결과는 등록하신 이메일로 개별 안내드립니다.
지원서 제출 시 주민등록번호, 가족관계, 혼인 여부, 연봉, 사진, 신체조건, 출신 지역 등 채용절차법상 요구 금지된 정보는 제외 부탁드립니다.
지원서 접수 중 오류가 발생하거나 기타 문의 사항이 있을 경우, recruit@42dot.ai로 문의해 주시기 바랍니다.
국가보훈대상자 및 취업보호 대상자는 관계법령에 따라 우대합니다.
장애인 고용 촉진 및 직업재활법에 따라 장애인 등록증 소지자를 우대합니다.
42dot은 의뢰하지 않은 서치펌의 이력서를 받지 않으며, 요청하지 않은 이력서에 대해 수수료를 지불하지 않습니다.
지원서 내용 중 허위 사실이 발견될 경우, 입사가 취소될 수 있습니다.
인터뷰 프로세스 종료 후 지원자의 동의하에 평판조회가 진행될 수 있습니다.
3개월의 수습기간이 적용될 수 있습니다.