โมเดล · สถาปัตยกรรม

โมเดลพื้นฐานตัวเดียว + LoRA

Nara AI ไม่ใช่หลายขนาด แต่เป็นโมเดลพื้นฐาน 12B ตัวเดียว ที่สลับส่วนขยาย LoRA ได้ตามงาน — ประหยัดพื้นที่ ไม่ต้องฝึกใหม่ทั้งตัว

กำลังฝึก · น้ำหนักยังไม่เผยแพร่

โมเดลพื้นฐาน

Nara AI 12B

โมเดล Causal LM (decoder-only) ขนาด 12B พารามิเตอร์ ตั้งต้นจาก Gemma 4 12B แล้วฝึกต่อด้วยคลังภาษาไทย ~144M token — 1 ตัว รองรับทุก LoRA Layer

Nara AI 12B กำลังฝึก

ตั้งต้นบน Gemma 4 12B · Apache 2.0

พารามิเตอร์ 12B

ตั้งต้นบน Gemma 4 12B

Context Window 32K tokens

ภาษา ไทย · อังกฤษ · จีน

ใบอนุญาต Apache 2.0

ขนาด (Q4) ~8 GB

Hardware GPU 16GB / Mac (MLX)

ชนิด Causal LM (decoder-only)

ตำแหน่ง Nara Lab Ecosystem

Tokenizer BBPE 50K vocab

สถานะน้ำหนัก: กำลังฝึกและปรับ — ยังไม่เผยแพร่สาธารณะ วางแผน Q3 2026

ทำไมต้อง Gemma 4

เหตุผลที่เลือก base model นี้

เราทดสอบ base model หลายตัว (Llama 3, Qwen 2.5, Gemma 4) ก่อนตัดสินใจ — นี่คือเหตุผล

Apache 2.0 — ใช้เชิงพาณิชย์ได้

Gemma 4 มาพร้อมใบอนุญาต Apache 2.0 ไม่มีข้อจำกัด research-only — เราเชื่อว่า AI ที่ดีต้องเปิดให้ทุกคนใช้ได้จริง ไม่ใช่แค่งานวิจัย

12B — จุดสมดุลของคุณภาพและทรัพยากร

12B เป็นขนาดที่ให้คุณภาพภาษาเทียบเท่าโมเดลใหญ่ (70B+) ในงานภาษาไทยที่เฉพาะทาง แต่ใช้ GPU แค่ 16GB — 成本ต่ำกว่า 5-10 เท่า

ความสามารถสามภาษา

Gemma 4 ถูก train บนคลังข้อมูลหลากภาษา รวมถึงไทยและจีน ทำให้เราไม่ต้องเริ่มจากศูนย์ เลือกเป็น base แล้ว CPT ต่อด้วยภาษาไทยเฉพาะทาง

Community & Ecosystem

Gemma 4 มี ecosystem ขนาดใหญ่ — transformers, MLX, llama.cpp, vLLM รองรับครบ ทำให้ deployment ง่ายกว่าโมเดลที่ custom เกินไป

เทียบกับตัวเลือกอื่น

ทำไม Nara AI ถึงต่าง

เปรียบเทียบ Nara AI กับโมเดลภาษาไทยและโมเดล multilingual ในตลาด

โมเดล	Base	ขนาด	หน่วยความจำ	ภาษาไทย	ใบอนุญาต
Nara AI 12Bของเรา	Gemma 4 12B	12B	~8 GB Q4	★★★★★	`Apache 2.0`
Typhoon 2.0	Qwen 2.5	7B / 70B	~6 GB / 42 GB	★★★★☆	`Apache 2.0`
OpenThaiGPT	Llama 3	8B	~5 GB Q4	★★★☆☆	`MIT`
GPT-4o / Claude	Proprietary	ถูก	API	★★★☆☆	`API`
Gemma 4 12B	Gemma 4	12B	~8 GB Q4	★★☆☆☆	`Apache 2.0`

* คะแนนภาษาไทยเป็นค่าประมาณจาก Belebele Thai หรือการใช้งานจริง · หน่วยความจำเป็นค่าประมาณที่ Q4

ส่วนขยาย LoRA

เสียบเปลี่ยนได้ 4 ชั้น

แต่ละชั้นเพิ่มความสามารถเฉพาะ เช่น CPT ให้เข้าใจภาษาไทย, SFT ให้ตอบตามคำสั่ง — โหลดเฉพาะที่ต้องการ ประหยัดหน่วยความจำ

cpt-th กำลังฝึก

Continuous Pre-Training

ฝึกต่อบนคลังภาษาไทย ~144M token เพื่อปรับ base model ให้เข้าใจภาษาไทยเชิงลึก — เป็นรากฐานของทุก LoRA ที่ซ้อนด้านบน

เหมาะกับ เข้าใจอ่านเขียนไทย · RAG · Document Understanding

คะแนน Belebele Thai 0.635

sft กำลังฝึก

Supervised Fine-Tuning

ปรับให้ตอบตามคำสั่ง (instruction following) — ฝึกบนคำสั่งภาษาไทย ทำให้โมเดลสนทนา สรุป แปล และทำงานตามที่บอก

เหมาะกับ chatbot · assistant · RAG · Content Gen

คะแนน MMLU 0.680

agent วางแผน

Agent Tuning

ฝึกให้ใช้เครื่องมือและทำตามขั้นตอนแบบ multi-step — function calling, tool-use, workflow automation

เหมาะกับ auto work-flow · tool-use · API calling

คะแนน —

domain วางแผน

Domain LoRA (กฎหมาย/การแพทย์)

ส่วนขยายเฉพาะโดเมน — fine-tune ด้วยข้อมูลเฉพาะทาง เช่น กฎหมายไทย การแพทย์ วินิจฉัยโรค

เหมาะกับ งานเฉพาะทาง · Legal · Medical

คะแนน —

โครงสร้างพื้นฐานการฝึก

เราฝึก Nara AI อย่างไร

เปิดเผยทุกอย่าง — hardware, data, framework, timeline ที่ใช้ในการฝึกโมเดล

GPU 8 × NVIDIA A100 80GB

CPT Data ~144M tokens (CulturaX + Pantip + Government docs)

SFT Data ~50K instructions (Thai + code-switch)

Framework Hugging Face + PEFT + TRL

Quantization bitsandbytes Q4 / MLX Q4

Training Time ~2 weeks (CPT) · ~1 week (SFT)

การตัดสินใจออกแบบ

ทำไมเราถึงออกแบบแบบนี้

คำถามที่คนถามบ่อยเกี่ยวกับสถาปัตยกรรมของ Nara AI

ทำไมต้อง LoRA ไม่ใช่ Full Fine-tune?

Full fine-tune โมเดล 12B ต้องใช้ GPU หลายสิบตัวและใช้เวลาหลายเดือน — LoRA ปรับแค่ adapter เล็กๆ (~2% ของพารามิเตอร์) ได้ผลใกล้เคียงแต่ cost ต่ำกว่า 10 เท่า และเก็บ base model ไว้ไม่ให้ catastrophic forgetting

ทำไมไม่ใช้ Multilingual Model โดยตรง?

โมเดล multilingual ทั่วไปถูก train บนคลังที่ภาษาอังกฤษเป็นหลัก ทำให้ภาษาไทยเป็นภาษารอง — เราต้องการให้ภาษาไทยเป็น first-class citizen เลยต้อง CPT เพิ่ม

32K context พอไหม?

32K tokens = ~25 หน้า A4 ภาษาไทย — เพียงพอสำหรับการสรุปเอกสารยาว ตอบคำถามจากหลายแหล่ง และสนทนาต่อเนื่อง ถ้าต้องการยาวกว่านี้มีแผนเพิ่มเป็น 128K ใน v2

ทำไมต้องรักษาสามภาษา?

ผู้ใช้ไทยมากกว่า 70% ใช้ไทยสลับอังกฤษในการทำงาน (code-switching) และนักธุรกิจไทยจำนวนมากติดต่อกับจีน — การรักษาสามภาษาจึงจำเป็น ไม่ใช่ optional

วิธีการทำงาน

โหลดครั้งเดียว สลับได้

หลักการทำงานของ LoRA multi-layer — โหลด base model ครั้งเดียว สลับ LoRA โดยไม่ต้อง restart

โหลดโมเดลพื้นฐาน

โหลด Nara AI 12B เข้า memory ครั้งเดียว (~8GB ด้วย Q4) — ใช้เวลา ~5-10 วินาที

แนบส่วนขยาย LoRA

แนบ adapter เช่น cpt-th — ขนาดไม่กี่ MB ใช้เวลามิลลิวินาที ไม่ต้องโหลด base model ใหม่

ซ้อนหลายชั้นได้

ต้องการทั้งภาษาไทย + ทำตามคำสั่ง? ใส่ cpt-th ซ้อน sft พร้อมกัน — merge weights ใน runtime

สลับหรือเอาออก

เปลี่ยน LoRA ได้ระหว่าง inference — ไม่ต้องปิดเซิร์ฟเวอร์ หรือ reload โมเดล

# ตัวอย่าง API (blueprint — ยังไม่ปล่อย)
from nara_ai import NaraAI

model = NaraAI.from_base("naralab/nara-ai-12b")

# เสียบภาษาไทย — สำหรับงานอ่าน เขียน เข้าใจไทย
model.attach_lora("cpt-th")

# สลับไปทำงาน Agent โดยไม่โหลดใหม่
model.detach_lora("cpt-th")
model.attach_lora("agent")

# หรือซ้อนทั้งสองตัวพร้อมกัน
model.attach_lora("cpt-th")
model.attach_lora("sft")   # ซ้อน SFT ภาษาไทยบน CPT