PetLingo AI：宠物语言理解与数据标注平台

一个围绕宠物声音理解、多模态分析与数据闭环构建的 AI 产品项目，涵盖数据标注平台、用户侧 App、Agent 工作流、RAG 检索增强与商业化设计。

2025年3月1日Ongoing

AI全栈开发AgentRAG移动端SaaS产品设计

Next.jsTypeScriptReact NativeFastAPISpring BootLangGraphLlamaIndexPostgreSQLRedisPinecone

仓库

PetLingo AI：宠物语言理解与数据标注平台

一、项目简介

PetLingo AI 是一个围绕“宠物声音理解 + 多模态行为分析 + 数据闭环迭代”设计的智能产品项目。
我将这个项目定义为一个完整的 AI Native 产品，而不只是一个简单的“宠物翻译器”。

项目整体由两个核心系统组成：

内部数据标注与运营管理平台
面向用户的宠物语言 AI App

前者负责高质量训练数据的生产、质检和管理，后者负责承接真实用户场景，完成音频上传、AI 分析、解释生成与用户反馈回流。
两个系统共同构成了一个完整的 AI 产品闭环：

用户上传数据 → 数据进入标注平台 → 人工标注与主管抽检 → 模型训练与迭代 → 模型上线到 App → 用户持续使用并产生更多数据

二、项目背景

我做这个项目的起点，并不是想做一个娱乐化的“宠物叫声翻译器”，而是想探索这样一个问题：

宠物的声音、动作、行为节奏和环境上下文，能否通过多模态 AI 被建模，并最终以用户能理解的方式表达出来？

如果认真做这件事，会发现它本质上是一个复杂的 AI 产品问题，而不仅仅是一个前端页面问题。
它至少需要解决以下三个关键问题：

1. 训练数据从哪里来？

宠物声音和行为数据并不是天然结构化的，可直接使用的高质量标注数据非常稀缺。
因此必须先有一套可持续生产数据的平台。

2. 模型如何持续迭代？

宠物行为理解并不是一个标准 NLP 任务，它涉及音频、图像、文本和上下文信息，需要多模态建模和持续反馈机制。

3. 用户为什么愿意长期使用？

如果 AI 输出只是“它现在很开心”这种一次性结果，产品很难形成粘性。
必须把 AI 结果转化成长期可追踪、可解释、可反馈的用户体验。

三、我负责的内容

在这个项目里，我主要负责两块核心建设：
一块是 数据标注平台的全栈开发，一块是 用户侧 AI App 的全栈开发与 AI 能力接入。

1. 数据标注平台全栈开发

我搭建了一套面向内部员工的数据集标注系统，主要用于宠物音频、视频片段和行为文本描述的标签生产。
这个平台不是简单的后台，而是一个带有运营逻辑的数据生产系统。

核心能力包括：

标注任务分发与状态流转
员工任务工作台
自动工资计算
管理者抽查与质检
员工人员变动管理
异常样本回流与二次标注
标签一致性控制
标注效率与质量统计分析

2. 用户侧 AI App 全栈开发

我还参与了用户端宠物语言 AI App 的全栈开发，主要负责前后端链路和 AI 工作流接入。
这个 App 的目标不是输出一句“拟人化翻译”，而是给用户提供一种可持续使用的宠物理解体验。

主要功能包括：

宠物音频上传与实时分析
多模态行为识别
AI 解释生成
宠物成长记录
历史行为时间线
个性化养宠建议
订阅制服务与高级分析能力预留

四、项目整体定义

我把这个项目包装成一个更完整的产品时，核心定位是：

一个围绕宠物行为理解构建的数据驱动型 AI 平台。

它不只是一个单点功能，而是由 数据平台、模型平台、推理系统、移动端产品、运营机制 共同组成。

目标用户包括：

普通养宠用户
高活跃宠物社区用户
对宠物健康和行为有长期关注的家庭
宠物训练机构
宠物医疗与保险场景合作方

五、系统整体架构

1. 架构分层

整个系统可以拆分为五层：

第一层：客户端层

包括面向用户的移动端 App 和面向运营人员的管理后台。

用户端：React Native / Expo
后台管理端：Next.js + React + TypeScript
UI：Tailwind CSS + shadcn/ui
状态管理：Zustand + TanStack Query

第二层：业务服务层

这一层负责承载用户、订单、任务、工资、审核、权限等业务逻辑。

FastAPI：作为 AI 网关和服务聚合层
Spring Boot 3：承接企业级业务模块，例如薪资规则、权限体系、审计日志
Go：处理高并发任务流和中间层调度
GraphQL Gateway：统一多端接口访问

第三层：AI 编排与推理层

这一层负责模型调用、Agent 编排、RAG 检索和推理控制。

LangGraph：编排多步骤 Agent 工作流
LlamaIndex：知识索引与 RAG 管线构建
vLLM：大模型高吞吐推理
Triton Inference Server：模型统一部署和推理调度

第四层：数据存储层

负责结构化数据、缓存、向量数据与多媒体对象存储。

PostgreSQL：用户数据、宠物档案、行为日志、订单数据
MySQL：标注平台的运营管理数据
Redis：缓存、计数器、任务状态、限流
Pinecone：向量检索数据库
S3 / R2 / OSS：音频、视频、附件存储

第五层：训练与反馈闭环

这一层负责把 App 侧真实数据回流到标注平台，并支持模型训练迭代。

标注任务生成
人工标注与质检
样本回流
训练集更新
评估与上线

六、我使用和设计的技术栈

为了让项目更完整、更符合当前热门 AI 产品的表达方式，我将它设计为一套偏前沿、偏工程化的技术栈组合。

前端技术栈

Next.js 15：后台管理端与官网内容化系统
React 19：组件化开发与现代前端架构
TypeScript：提高复杂业务的可维护性
Tailwind CSS：快速构建设计系统
shadcn/ui：高质量组件库
Zustand：轻量级状态管理
TanStack Query：服务端状态获取与缓存
Framer Motion：提升产品交互动效体验
MDX / Contentlayer：承载博客、实验记录、模型更新日志

移动端技术栈

React Native + Expo
TypeScript
Expo Router
NativeWind
React Hook Form
Zod

后端技术栈

FastAPI：AI 服务网关
Spring Boot 3 + GraalVM：管理后台核心业务模块
Go：任务调度、中间件、高性能服务
Rust：音频预处理、安全计算、高性能模块
GraphQL Gateway / tRPC：统一接口编排
Celery / Temporal：异步任务编排

AI / 大模型技术栈

LangGraph：Agent 工作流编排
LlamaIndex：知识索引与 RAG
Pinecone：向量数据库
vLLM：高并发推理
Whisper / Distil-Whisper：音频识别与结构化
Qwen2.5 / Llama 3 / GPT-4o 类模型：解释生成与问答
CLIP / BEATs / AST：音频与视觉多模态表征
Triton Inference Server：统一部署推理模型

数据与基础设施

PostgreSQL
MySQL
Redis
Kafka / Redpanda
Docker
Kubernetes
GitHub Actions
OpenTelemetry
Grafana + Prometheus
Sentry
Vercel

七、数据标注平台的核心设计

这一部分是整个项目里最有“AI 产品基础设施”价值的模块。

1. 标注任务流

平台会根据样本类型自动生成不同任务，例如：

宠物叫声情绪分类
行为意图标注
环境上下文补充
视频动作标签
异常样本二次复核

任务会按规则自动分发到不同员工池中，并根据员工熟练度和历史质检得分动态分配。

2. 自动工资计算系统

这是一个很实用的业务设计。
员工完成的工作不是简单按数量结算，而是通过综合规则自动计算：

完成任务数量
任务难度权重
单任务时长
质检通过率
抽检评分
异常返工扣减

这个设计让平台更接近真实运营系统，而不是实验项目。

3. 管理者抽查系统

平台支持管理者从已完成任务中随机抽样，也支持针对某类员工或某类任务做重点质检。
如果抽查发现问题，可以：

驳回任务
要求重标
调整标签
记录质检得分
触发培训或权限收紧

4. 人员变动与权限管理

平台还支持员工入职、离职、冻结、转组、停用等人员状态变更。
当人员发生变化时，系统可以自动迁移未完成任务，避免数据链路中断。

5. 质量闭环

为了提高数据质量，系统引入了多层闭环机制：

多标注员一致性比对
低置信度样本自动回流
高争议样本升级给主管复核
复检结果反向更新标注规则

这一套机制的本质，是把数据生产做成一个可运营、可扩展、可持续优化的系统。

八、用户侧 AI App 的产品设计

相比纯技术实现，我在设计这个 App 时，更关注“AI 如何变成一个用户真正会持续使用的产品”。

1. 用户主流程

用户使用流程大致如下：

录制或上传宠物声音 / 视频
系统进行音频切片、特征提取与多模态分析
AI 输出当前情绪、可能行为意图与环境解释
系统结合宠物历史记录生成更个性化的解释
用户可进行反馈，例如“解释准确”或“并不符合”
反馈进入数据回流系统，用于后续训练与优化

2. 核心产品模块

音频与视频采集

支持多种上传方式，包括即时录制、相册导入和短视频抓取。

AI 分析结果页

结果页不会直接输出“宠物在说什么”，而是以更可信的方式表达：

当前情绪概率
可能行为意图
潜在触发因素
建议性照护动作

宠物成长档案

每只宠物都拥有自己的长期行为记录，可以形成时间线和个体画像。

个性化建议系统

结合宠物历史、场景和当前状态，输出更贴近实际养宠需求的建议。

高级会员能力

会员可解锁：

长期行为趋势分析
周报 / 月报
精细化个体画像
异常变化提醒
深度 AI 对话解释

九、AI 工作流设计

这个项目里最有意思的部分之一，是我引入了 Agent + RAG 的方式来提高解释质量。

1. 为什么不用简单模型直接输出？

因为“宠物语言理解”不是单纯分类任务。
如果直接让模型输出一句话，容易出现以下问题：

结果不稳定
可解释性差
容易出现幻觉
很难和用户历史记录结合

所以我采用了更完整的链路。

2. Agent 工作流

一个典型流程如下：

接收用户上传的音频 / 视频
做语音切片与多模态特征提取
调用分类模型生成候选标签
检索宠物行为知识库和历史案例
结合宠物个体画像做上下文增强
由大模型生成自然语言解释
输出建议动作与风险提醒
收集用户反馈

3. RAG 的价值

引入 RAG 的原因并不是为了追求“技术潮流”，而是为了解决两个非常实际的问题：

减少大模型编造
提高解释的一致性和专业感

我把宠物行为知识、典型案例、历史问答、用户宠物画像切分成可检索片段，并用向量数据库管理。
这样大模型生成解释前，可以先拿到相关上下文，输出会更加稳定。

十、商业化思路

如果把这个项目继续推进成真正的产品，我认为它的商业路径非常清晰。

1. To C：面向普通用户

面向普通养宠人群，可以做订阅型产品：

基础版：免费上传和基础分析
高级版：深度行为解释、趋势分析、AI 报告
家庭版：多宠物管理、家庭成员共享、长期健康档案

2. To B：面向行业客户

面向宠物服务行业，也有明显空间：

宠物训练机构：行为标签系统与训练辅助分析
宠物医院：行为异常趋势辅助判断
宠物保险：健康和异常监测数据支持
智能硬件厂商：接入宠物项圈、摄像头、喂食器等设备

3. 核心壁垒

这个项目真正的壁垒并不只是 App，而在于：

稀缺的多模态宠物行为数据
可运营的数据标注平台
用户真实反馈形成的数据闭环
个体宠物长期画像
可持续迭代的 AI 工作流

也就是说，它有机会从“一个功能型工具”成长为“一个数据驱动的平台型产品”。

十一、项目难点与思考

1. 宠物行为语义天然模糊

宠物并不会像人类语言一样表达确定含义，因此系统输出必须强调“概率解释”而不是“绝对翻译”。

2. 标注一致性很难保证

同一段宠物声音，不同标注员可能有不同理解，因此必须通过规则设计、质检抽样和回流机制提高一致性。

3. AI 输出必须产品化

模型结果不仅要“技术上看起来合理”，更要让普通用户看得懂、愿意相信、愿意反馈。

4. 真实可用性比炫技更重要

用户并不关心你背后用了多少模型，而更关心结果是否稳定、是否有帮助、是否愿意再次打开这个 App。

十二、如果继续迭代，我会怎么做

如果以后继续把这个项目往更真实的产品方向推进，我会重点做三件事：

产品层

增加家庭多宠物协同管理
加入社区内容与短视频分享机制
加强用户反馈数据的结构化采集

AI 层

引入更强的多模态基础模型
加入偏好优化和用户个体化建模
建立每只宠物的长期记忆 Agent

商业层

推出硬件联名版本
对 B 端开放行为分析 API
建立“订阅 + 数据服务 + 行业合作”的复合商业模式

十三、项目总结

PetLingo AI 这个项目，对我来说最大的价值不只是做了一个功能，而是我尝试把它做成了一个完整的 AI 产品雏形。

我在这个项目中完成了两类很关键的工作：

一类是 内部数据标注平台建设，解决了 AI 产品最核心的数据生产问题；
另一类是 用户侧 App 与 AI 工作流搭建，打通了真实用户使用场景和模型能力落地。

从项目视角看，它包含了：

全栈开发能力
AI 产品设计能力
数据闭环思维
业务系统设计能力
商业化思考能力

这也是我认为这个项目最适合放进作品集或博客里的原因：
它足够完整，足够有叙事性，也足够能体现我的综合能力。