Apache 2.0 — ใช้เชิงพาณิชย์ได้
Gemma 4 มาพร้อมใบอนุญาต Apache 2.0 ไม่มีข้อจำกัด research-only — เราเชื่อว่า AI ที่ดีต้องเปิดให้ทุกคนใช้ได้จริง ไม่ใช่แค่งานวิจัย
Nara AI ไม่ใช่หลายขนาด แต่เป็นโมเดลพื้นฐาน 12B ตัวเดียว ที่สลับส่วนขยาย LoRA ได้ตามงาน — ประหยัดพื้นที่ ไม่ต้องฝึกใหม่ทั้งตัว
กำลังฝึก · น้ำหนักยังไม่เผยแพร่โมเดล Causal LM (decoder-only) ขนาด 12B พารามิเตอร์ ตั้งต้นจาก Gemma 4 12B แล้วฝึกต่อด้วยคลังภาษาไทย ~144M token — 1 ตัว รองรับทุก LoRA Layer
Nara AI 12B กำลังฝึก ตั้งต้นบน Gemma 4 12B · Apache 2.0
เราทดสอบ base model หลายตัว (Llama 3, Qwen 2.5, Gemma 4) ก่อนตัดสินใจ — นี่คือเหตุผล
Gemma 4 มาพร้อมใบอนุญาต Apache 2.0 ไม่มีข้อจำกัด research-only — เราเชื่อว่า AI ที่ดีต้องเปิดให้ทุกคนใช้ได้จริง ไม่ใช่แค่งานวิจัย
12B เป็นขนาดที่ให้คุณภาพภาษาเทียบเท่าโมเดลใหญ่ (70B+) ในงานภาษาไทยที่เฉพาะทาง แต่ใช้ GPU แค่ 16GB — 成本ต่ำกว่า 5-10 เท่า
Gemma 4 ถูก train บนคลังข้อมูลหลากภาษา รวมถึงไทยและจีน ทำให้เราไม่ต้องเริ่มจากศูนย์ เลือกเป็น base แล้ว CPT ต่อด้วยภาษาไทยเฉพาะทาง
Gemma 4 มี ecosystem ขนาดใหญ่ — transformers, MLX, llama.cpp, vLLM รองรับครบ ทำให้ deployment ง่ายกว่าโมเดลที่ custom เกินไป
เปรียบเทียบ Nara AI กับโมเดลภาษาไทยและโมเดล multilingual ในตลาด
| โมเดล | Base | ขนาด | หน่วยความจำ | ภาษาไทย | ใบอนุญาต |
|---|---|---|---|---|---|
| Nara AI 12Bของเรา | Gemma 4 12B | 12B | ~8 GB Q4 | ★★★★★ | Apache 2.0 |
| Typhoon 2.0 | Qwen 2.5 | 7B / 70B | ~6 GB / 42 GB | ★★★★☆ | Apache 2.0 |
| OpenThaiGPT | Llama 3 | 8B | ~5 GB Q4 | ★★★☆☆ | MIT |
| GPT-4o / Claude | Proprietary | ถูก | API | ★★★☆☆ | API |
| Gemma 4 12B | Gemma 4 | 12B | ~8 GB Q4 | ★★☆☆☆ | Apache 2.0 |
* คะแนนภาษาไทยเป็นค่าประมาณจาก Belebele Thai หรือการใช้งานจริง · หน่วยความจำเป็นค่าประมาณที่ Q4
แต่ละชั้นเพิ่มความสามารถเฉพาะ เช่น CPT ให้เข้าใจภาษาไทย, SFT ให้ตอบตามคำสั่ง — โหลดเฉพาะที่ต้องการ ประหยัดหน่วยความจำ
cpt-th กำลังฝึก ฝึกต่อบนคลังภาษาไทย ~144M token เพื่อปรับ base model ให้เข้าใจภาษาไทยเชิงลึก — เป็นรากฐานของทุก LoRA ที่ซ้อนด้านบน
sft กำลังฝึก ปรับให้ตอบตามคำสั่ง (instruction following) — ฝึกบนคำสั่งภาษาไทย ทำให้โมเดลสนทนา สรุป แปล และทำงานตามที่บอก
agent วางแผน ฝึกให้ใช้เครื่องมือและทำตามขั้นตอนแบบ multi-step — function calling, tool-use, workflow automation
domain วางแผน ส่วนขยายเฉพาะโดเมน — fine-tune ด้วยข้อมูลเฉพาะทาง เช่น กฎหมายไทย การแพทย์ วินิจฉัยโรค
เปิดเผยทุกอย่าง — hardware, data, framework, timeline ที่ใช้ในการฝึกโมเดล
คำถามที่คนถามบ่อยเกี่ยวกับสถาปัตยกรรมของ Nara AI
หลักการทำงานของ LoRA multi-layer — โหลด base model ครั้งเดียว สลับ LoRA โดยไม่ต้อง restart
โหลด Nara AI 12B เข้า memory ครั้งเดียว (~8GB ด้วย Q4) — ใช้เวลา ~5-10 วินาที
แนบ adapter เช่น cpt-th — ขนาดไม่กี่ MB ใช้เวลามิลลิวินาที ไม่ต้องโหลด base model ใหม่
ต้องการทั้งภาษาไทย + ทำตามคำสั่ง? ใส่ cpt-th ซ้อน sft พร้อมกัน — merge weights ใน runtime
เปลี่ยน LoRA ได้ระหว่าง inference — ไม่ต้องปิดเซิร์ฟเวอร์ หรือ reload โมเดล
# ตัวอย่าง API (blueprint — ยังไม่ปล่อย)
from nara_ai import NaraAI
model = NaraAI.from_base("naralab/nara-ai-12b")
# เสียบภาษาไทย — สำหรับงานอ่าน เขียน เข้าใจไทย
model.attach_lora("cpt-th")
# สลับไปทำงาน Agent โดยไม่โหลดใหม่
model.detach_lora("cpt-th")
model.attach_lora("agent")
# หรือซ้อนทั้งสองตัวพร้อมกัน
model.attach_lora("cpt-th")
model.attach_lora("sft") # ซ้อน SFT ภาษาไทยบน CPT