โมเดล · สถาปัตยกรรม

โมเดลพื้นฐานตัวเดียว + LoRA

Nara AI ไม่ใช่หลายขนาด แต่เป็นโมเดลพื้นฐาน 12B ตัวเดียว ที่สลับส่วนขยาย LoRA ได้ตามงาน — ประหยัดพื้นที่ ไม่ต้องฝึกใหม่ทั้งตัว

กำลังฝึก · น้ำหนักยังไม่เผยแพร่
โมเดลพื้นฐาน

Nara AI 12B

โมเดล Causal LM (decoder-only) ขนาด 12B พารามิเตอร์ ตั้งต้นจาก Gemma 4 12B แล้วฝึกต่อด้วยคลังภาษาไทย ~144M token — 1 ตัว รองรับทุก LoRA Layer

Nara AI 12B กำลังฝึก

ตั้งต้นบน Gemma 4 12B · Apache 2.0

พารามิเตอร์ 12B
ตั้งต้นบน Gemma 4 12B
Context Window 32K tokens
ภาษา ไทย · อังกฤษ · จีน
ใบอนุญาต Apache 2.0
ขนาด (Q4) ~8 GB
Hardware GPU 16GB / Mac (MLX)
ชนิด Causal LM (decoder-only)
ตำแหน่ง Nara Lab Ecosystem
Tokenizer BBPE 50K vocab
สถานะน้ำหนัก: กำลังฝึกและปรับ — ยังไม่เผยแพร่สาธารณะ วางแผน Q3 2026
ทำไมต้อง Gemma 4

เหตุผลที่เลือก base model นี้

เราทดสอบ base model หลายตัว (Llama 3, Qwen 2.5, Gemma 4) ก่อนตัดสินใจ — นี่คือเหตุผล

Apache 2.0 — ใช้เชิงพาณิชย์ได้

Gemma 4 มาพร้อมใบอนุญาต Apache 2.0 ไม่มีข้อจำกัด research-only — เราเชื่อว่า AI ที่ดีต้องเปิดให้ทุกคนใช้ได้จริง ไม่ใช่แค่งานวิจัย

12B — จุดสมดุลของคุณภาพและทรัพยากร

12B เป็นขนาดที่ให้คุณภาพภาษาเทียบเท่าโมเดลใหญ่ (70B+) ในงานภาษาไทยที่เฉพาะทาง แต่ใช้ GPU แค่ 16GB — 成本ต่ำกว่า 5-10 เท่า

ความสามารถสามภาษา

Gemma 4 ถูก train บนคลังข้อมูลหลากภาษา รวมถึงไทยและจีน ทำให้เราไม่ต้องเริ่มจากศูนย์ เลือกเป็น base แล้ว CPT ต่อด้วยภาษาไทยเฉพาะทาง

Community & Ecosystem

Gemma 4 มี ecosystem ขนาดใหญ่ — transformers, MLX, llama.cpp, vLLM รองรับครบ ทำให้ deployment ง่ายกว่าโมเดลที่ custom เกินไป

เทียบกับตัวเลือกอื่น

ทำไม Nara AI ถึงต่าง

เปรียบเทียบ Nara AI กับโมเดลภาษาไทยและโมเดล multilingual ในตลาด

โมเดล Base ขนาด หน่วยความจำ ภาษาไทย ใบอนุญาต
Nara AI 12Bของเรา Gemma 4 12B 12B ~8 GB Q4 ★★★★★ Apache 2.0
Typhoon 2.0 Qwen 2.5 7B / 70B ~6 GB / 42 GB ★★★★☆ Apache 2.0
OpenThaiGPT Llama 3 8B ~5 GB Q4 ★★★☆☆ MIT
GPT-4o / Claude Proprietary ถูก API ★★★☆☆ API
Gemma 4 12B Gemma 4 12B ~8 GB Q4 ★★☆☆☆ Apache 2.0

* คะแนนภาษาไทยเป็นค่าประมาณจาก Belebele Thai หรือการใช้งานจริง · หน่วยความจำเป็นค่าประมาณที่ Q4

ส่วนขยาย LoRA

เสียบเปลี่ยนได้ 4 ชั้น

แต่ละชั้นเพิ่มความสามารถเฉพาะ เช่น CPT ให้เข้าใจภาษาไทย, SFT ให้ตอบตามคำสั่ง — โหลดเฉพาะที่ต้องการ ประหยัดหน่วยความจำ

cpt-th กำลังฝึก

Continuous Pre-Training

ฝึกต่อบนคลังภาษาไทย ~144M token เพื่อปรับ base model ให้เข้าใจภาษาไทยเชิงลึก — เป็นรากฐานของทุก LoRA ที่ซ้อนด้านบน

เหมาะกับ เข้าใจอ่านเขียนไทย · RAG · Document Understanding
คะแนน Belebele Thai 0.635
sft กำลังฝึก

Supervised Fine-Tuning

ปรับให้ตอบตามคำสั่ง (instruction following) — ฝึกบนคำสั่งภาษาไทย ทำให้โมเดลสนทนา สรุป แปล และทำงานตามที่บอก

เหมาะกับ chatbot · assistant · RAG · Content Gen
คะแนน MMLU 0.680
agent วางแผน

Agent Tuning

ฝึกให้ใช้เครื่องมือและทำตามขั้นตอนแบบ multi-step — function calling, tool-use, workflow automation

เหมาะกับ auto work-flow · tool-use · API calling
คะแนน
domain วางแผน

Domain LoRA (กฎหมาย/การแพทย์)

ส่วนขยายเฉพาะโดเมน — fine-tune ด้วยข้อมูลเฉพาะทาง เช่น กฎหมายไทย การแพทย์ วินิจฉัยโรค

เหมาะกับ งานเฉพาะทาง · Legal · Medical
คะแนน
โครงสร้างพื้นฐานการฝึก

เราฝึก Nara AI อย่างไร

เปิดเผยทุกอย่าง — hardware, data, framework, timeline ที่ใช้ในการฝึกโมเดล

GPU 8 × NVIDIA A100 80GB
CPT Data ~144M tokens (CulturaX + Pantip + Government docs)
SFT Data ~50K instructions (Thai + code-switch)
Framework Hugging Face + PEFT + TRL
Quantization bitsandbytes Q4 / MLX Q4
Training Time ~2 weeks (CPT) · ~1 week (SFT)
การตัดสินใจออกแบบ

ทำไมเราถึงออกแบบแบบนี้

คำถามที่คนถามบ่อยเกี่ยวกับสถาปัตยกรรมของ Nara AI

ทำไมต้อง LoRA ไม่ใช่ Full Fine-tune?
Full fine-tune โมเดล 12B ต้องใช้ GPU หลายสิบตัวและใช้เวลาหลายเดือน — LoRA ปรับแค่ adapter เล็กๆ (~2% ของพารามิเตอร์) ได้ผลใกล้เคียงแต่ cost ต่ำกว่า 10 เท่า และเก็บ base model ไว้ไม่ให้ catastrophic forgetting
ทำไมไม่ใช้ Multilingual Model โดยตรง?
โมเดล multilingual ทั่วไปถูก train บนคลังที่ภาษาอังกฤษเป็นหลัก ทำให้ภาษาไทยเป็นภาษารอง — เราต้องการให้ภาษาไทยเป็น first-class citizen เลยต้อง CPT เพิ่ม
32K context พอไหม?
32K tokens = ~25 หน้า A4 ภาษาไทย — เพียงพอสำหรับการสรุปเอกสารยาว ตอบคำถามจากหลายแหล่ง และสนทนาต่อเนื่อง ถ้าต้องการยาวกว่านี้มีแผนเพิ่มเป็น 128K ใน v2
ทำไมต้องรักษาสามภาษา?
ผู้ใช้ไทยมากกว่า 70% ใช้ไทยสลับอังกฤษในการทำงาน (code-switching) และนักธุรกิจไทยจำนวนมากติดต่อกับจีน — การรักษาสามภาษาจึงจำเป็น ไม่ใช่ optional
วิธีการทำงาน

โหลดครั้งเดียว สลับได้

หลักการทำงานของ LoRA multi-layer — โหลด base model ครั้งเดียว สลับ LoRA โดยไม่ต้อง restart

1
โหลดโมเดลพื้นฐาน

โหลด Nara AI 12B เข้า memory ครั้งเดียว (~8GB ด้วย Q4) — ใช้เวลา ~5-10 วินาที

2
แนบส่วนขยาย LoRA

แนบ adapter เช่น cpt-th — ขนาดไม่กี่ MB ใช้เวลามิลลิวินาที ไม่ต้องโหลด base model ใหม่

3
ซ้อนหลายชั้นได้

ต้องการทั้งภาษาไทย + ทำตามคำสั่ง? ใส่ cpt-th ซ้อน sft พร้อมกัน — merge weights ใน runtime

4
สลับหรือเอาออก

เปลี่ยน LoRA ได้ระหว่าง inference — ไม่ต้องปิดเซิร์ฟเวอร์ หรือ reload โมเดล

# ตัวอย่าง API (blueprint — ยังไม่ปล่อย)
from nara_ai import NaraAI

model = NaraAI.from_base("naralab/nara-ai-12b")

# เสียบภาษาไทย — สำหรับงานอ่าน เขียน เข้าใจไทย
model.attach_lora("cpt-th")

# สลับไปทำงาน Agent โดยไม่โหลดใหม่
model.detach_lora("cpt-th")
model.attach_lora("agent")

# หรือซ้อนทั้งสองตัวพร้อมกัน
model.attach_lora("cpt-th")
model.attach_lora("sft")   # ซ้อน SFT ภาษาไทยบน CPT