Companies 42dot LLM Engineer (Data Generation)

About the role

42dot · Hybrid

About the Team & Mission

LLM Engineer (Data Generation)는 Data-Centric AI 관점에서 모델 성능 향상에 필요한 학습 데이터를 설계·생성·평가·개선하는 역할을 수행합니다.

모델의 성능 병목과 Failure case를 분석하여 데이터 요구사항을 정의하고, Instruction Data, Preference Data, Reasoning Data, Domain-specific Data 등 목적에 맞는 학습 데이터를 구축하며, Data Generation Pipeline, 학습 결과 기반 Data Evaluation, Data Curation을 통해 대규모 학습 데이터의 품질을 체계적으로 개선하고, 차세대 Generative AI 모델의 성능 향상에 기여합니다.

Responsibilities

  • 모델 성능 개선을 위한 데이터 설계 및 생성

    • Research 및 Model Training 팀과 협업하여 모델의 성능 병목, Failure Case, 학습 목표를 분석하고 데이터 요구사항을 정의합니다.

    • Instruction Data, Preference Data, Reasoning Data, Domain-specific Data 등 목적에 맞는 학습 데이터를 설계·생성·정제합니다.

    • 생성된 데이터가 모델 성능에 미치는 영향을 실험적으로 분석하고, 결과를 바탕으로 데이터 생성 전략을 반복적으로 개선합니다.

  • Data Generation Pipeline 구축

    • Synthetic Data를 포함한 학습 데이터 생성 자동화 파이프라인을 설계하고 운영합니다.

    • 대규모 데이터 생성 Workflow를 구축하여 안정적이고 효율적인 데이터 생산 환경을 제공합니다.

    • 생성 비용, 처리 속도 및 품질을 고려한 Pipeline을 지속적으로 최적화합니다.

  • Data Quality 및 Evaluation

    • 데이터의 품질과 학습 효과를 정량적·정성적으로 평가하는 기준을 정의합니다.

    • LLM-as-a-Judge, Rule-based Validation, Human Feedback 등을 활용하여 데이터 품질을 검증합니다.

    • 데이터 품질 개선을 위한 Iterative Generation 및 Filtering 전략을 개발합니다.

Qualifications

  • LLM, Machine Learning 또는 Data Generation 관련 업무 경력 3년 이상

  • 딥러닝, 머신러닝 및 자연어처리에 대한 전반적인 이해

  • 모델 학습 데이터의 구성, 전처리, 품질 평가 및 학습 반영 과정에 대한 이해

  • Python 기반 데이터 처리 및 자동화 개발 역량

  • 대규모 학습 데이터셋의 처리, 정제, 필터링 및 품질 관리 경험 또는 이에 준하는 역량

  • LLM을 활용한 Synthetic Data 생성, Data Evaluation 또는 Data Curation 경험

  • LLM API 및 Prompting/Generation Strategy에 대한 이해 또는 활용 경험

  • 뛰어난 문제 해결 능력과 협업 및 커뮤니케이션 역량

Preferred Qualifications

  • LLM Pre-training, Supervised Fine-tuning(SFT), Preference Optimization(DPO/RLHF/RLAIF) 등 LLM 대규모 학습 데이터 구축 경험

  • LLM Evaluation Framework(OpenAI Evals, LM Evaluation Harness, DeepEval 등) 또는 자체 평가 시스템 구축 경험

  • 멀티턴 대화, Tool Calling, Agent, Reasoning, Code Generation 등 고난도 LLM 데이터 설계 경험

  • Python 기반 데이터 파이프라인(Airflow, Ray, Spark 등) 또는 대규모 데이터 처리 환경 구축 경험

  • Generative AI, LLM, NLP 관련 오픈소스 프로젝트 기여 또는 논문·기술 발표 경험

Interview Process

  • 서류 전형

  • 코딩·과제 테스트

  • 1차 면접 (화상, 1시간 내외)

  • 2차 면접 (대면 혹은 화상, 3시간 내외)

  • 처우 협의·입사

Additional Information

  • 전형 절차는 일정 및 진행 상황에 따라 일부 변경될 수 있으며, 각 전형 결과는 등록하신 이메일로 개별 안내드립니다.

  • 지원서 제출 시 주민등록번호, 가족관계, 혼인 여부, 연봉, 사진, 신체조건, 출신 지역 등 채용절차법상 요구 금지된 정보는 제외 부탁드립니다.

  • 지원서 접수 중 오류가 발생하거나 기타 문의 사항이 있을 경우, recruit@42dot.ai로 문의해 주시기 바랍니다.

  • 국가보훈대상자 및 취업보호 대상자는 관계법령에 따라 우대합니다.

  • 장애인 고용 촉진 및 직업재활법에 따라 장애인 등록증 소지자를 우대합니다.

  • 42dot은 의뢰하지 않은 서치펌의 이력서를 받지 않으며, 요청하지 않은 이력서에 대해 수수료를 지불하지 않습니다.

  • 지원서 내용 중 허위 사실이 발견될 경우, 입사가 취소될 수 있습니다.

  • 인터뷰 프로세스 종료 후 지원자의 동의하에 평판조회가 진행될 수 있습니다.

  • 3개월의 수습기간이 적용될 수 있습니다.

 
Ready to apply to 42dot?
Apply to 42dot

Similar jobs

Sign up for suggestions tailored to the jobs you open and the searches you save.

Apply now
🤖

Whoa — hold up

JobsRadar was built for real people having a rough time in their job search — not for automated requests. You're clicking way too fast and you're now temporarily blocked.

Come back later. If you're genuinely job hunting, we've got your back — just act like a human.

Catch your next role the second it’s posted.

Create a free account and we’ll watch the boards for you — the instant a job matches your search, it lands in your inbox or Telegram. No digging, no refreshing.

Create free account

Free forever · takes 30 seconds · already have one?

Get the worldwide-remote edge.

Join our Telegram channel for the stuff that helps you land the role — salary benchmarks, the weekly market pulse, and new-feature drops. No spam, just signal.

Join the channel — it's free