孟任巍
返回

PetLingo AI:宠物语言理解与数据标注平台

一个围绕宠物声音理解、多模态分析与数据闭环构建的 AI 产品项目,涵盖数据标注平台、用户侧 App、Agent 工作流、RAG 检索增强与商业化设计。

PetLingo AI:宠物语言理解与数据标注平台
2025年3月1日Ongoing
AI全栈开发AgentRAG移动端SaaS产品设计
Next.jsTypeScriptReact NativeFastAPISpring BootLangGraphLlamaIndexPostgreSQLRedisPinecone

PetLingo AI:宠物语言理解与数据标注平台

一、项目简介

PetLingo AI 是一个围绕“宠物声音理解 + 多模态行为分析 + 数据闭环迭代”设计的智能产品项目。
我将这个项目定义为一个完整的 AI Native 产品,而不只是一个简单的“宠物翻译器”。

项目整体由两个核心系统组成:

  1. 内部数据标注与运营管理平台
  2. 面向用户的宠物语言 AI App

前者负责高质量训练数据的生产、质检和管理,后者负责承接真实用户场景,完成音频上传、AI 分析、解释生成与用户反馈回流。
两个系统共同构成了一个完整的 AI 产品闭环:

用户上传数据 → 数据进入标注平台 → 人工标注与主管抽检 → 模型训练与迭代 → 模型上线到 App → 用户持续使用并产生更多数据


二、项目背景

我做这个项目的起点,并不是想做一个娱乐化的“宠物叫声翻译器”,而是想探索这样一个问题:

宠物的声音、动作、行为节奏和环境上下文,能否通过多模态 AI 被建模,并最终以用户能理解的方式表达出来?

如果认真做这件事,会发现它本质上是一个复杂的 AI 产品问题,而不仅仅是一个前端页面问题。
它至少需要解决以下三个关键问题:

1. 训练数据从哪里来?

宠物声音和行为数据并不是天然结构化的,可直接使用的高质量标注数据非常稀缺。
因此必须先有一套可持续生产数据的平台。

2. 模型如何持续迭代?

宠物行为理解并不是一个标准 NLP 任务,它涉及音频、图像、文本和上下文信息,需要多模态建模和持续反馈机制。

3. 用户为什么愿意长期使用?

如果 AI 输出只是“它现在很开心”这种一次性结果,产品很难形成粘性。
必须把 AI 结果转化成长期可追踪、可解释、可反馈的用户体验。


三、我负责的内容

在这个项目里,我主要负责两块核心建设:
一块是 数据标注平台的全栈开发,一块是 用户侧 AI App 的全栈开发与 AI 能力接入

1. 数据标注平台全栈开发

我搭建了一套面向内部员工的数据集标注系统,主要用于宠物音频、视频片段和行为文本描述的标签生产。
这个平台不是简单的后台,而是一个带有运营逻辑的数据生产系统。

核心能力包括:

  • 标注任务分发与状态流转
  • 员工任务工作台
  • 自动工资计算
  • 管理者抽查与质检
  • 员工人员变动管理
  • 异常样本回流与二次标注
  • 标签一致性控制
  • 标注效率与质量统计分析

2. 用户侧 AI App 全栈开发

我还参与了用户端宠物语言 AI App 的全栈开发,主要负责前后端链路和 AI 工作流接入。
这个 App 的目标不是输出一句“拟人化翻译”,而是给用户提供一种可持续使用的宠物理解体验。

主要功能包括:

  • 宠物音频上传与实时分析
  • 多模态行为识别
  • AI 解释生成
  • 宠物成长记录
  • 历史行为时间线
  • 个性化养宠建议
  • 订阅制服务与高级分析能力预留

四、项目整体定义

我把这个项目包装成一个更完整的产品时,核心定位是:

一个围绕宠物行为理解构建的数据驱动型 AI 平台。

它不只是一个单点功能,而是由 数据平台、模型平台、推理系统、移动端产品、运营机制 共同组成。

目标用户包括:

  • 普通养宠用户
  • 高活跃宠物社区用户
  • 对宠物健康和行为有长期关注的家庭
  • 宠物训练机构
  • 宠物医疗与保险场景合作方

五、系统整体架构

1. 架构分层

整个系统可以拆分为五层:

第一层:客户端层

包括面向用户的移动端 App 和面向运营人员的管理后台。

  • 用户端:React Native / Expo
  • 后台管理端:Next.js + React + TypeScript
  • UI:Tailwind CSS + shadcn/ui
  • 状态管理:Zustand + TanStack Query

第二层:业务服务层

这一层负责承载用户、订单、任务、工资、审核、权限等业务逻辑。

  • FastAPI:作为 AI 网关和服务聚合层
  • Spring Boot 3:承接企业级业务模块,例如薪资规则、权限体系、审计日志
  • Go:处理高并发任务流和中间层调度
  • GraphQL Gateway:统一多端接口访问

第三层:AI 编排与推理层

这一层负责模型调用、Agent 编排、RAG 检索和推理控制。

  • LangGraph:编排多步骤 Agent 工作流
  • LlamaIndex:知识索引与 RAG 管线构建
  • vLLM:大模型高吞吐推理
  • Triton Inference Server:模型统一部署和推理调度

第四层:数据存储层

负责结构化数据、缓存、向量数据与多媒体对象存储。

  • PostgreSQL:用户数据、宠物档案、行为日志、订单数据
  • MySQL:标注平台的运营管理数据
  • Redis:缓存、计数器、任务状态、限流
  • Pinecone:向量检索数据库
  • S3 / R2 / OSS:音频、视频、附件存储

第五层:训练与反馈闭环

这一层负责把 App 侧真实数据回流到标注平台,并支持模型训练迭代。

  • 标注任务生成
  • 人工标注与质检
  • 样本回流
  • 训练集更新
  • 评估与上线

六、我使用和设计的技术栈

为了让项目更完整、更符合当前热门 AI 产品的表达方式,我将它设计为一套偏前沿、偏工程化的技术栈组合。

前端技术栈

  • Next.js 15:后台管理端与官网内容化系统
  • React 19:组件化开发与现代前端架构
  • TypeScript:提高复杂业务的可维护性
  • Tailwind CSS:快速构建设计系统
  • shadcn/ui:高质量组件库
  • Zustand:轻量级状态管理
  • TanStack Query:服务端状态获取与缓存
  • Framer Motion:提升产品交互动效体验
  • MDX / Contentlayer:承载博客、实验记录、模型更新日志

移动端技术栈

  • React Native + Expo
  • TypeScript
  • Expo Router
  • NativeWind
  • React Hook Form
  • Zod

后端技术栈

  • FastAPI:AI 服务网关
  • Spring Boot 3 + GraalVM:管理后台核心业务模块
  • Go:任务调度、中间件、高性能服务
  • Rust:音频预处理、安全计算、高性能模块
  • GraphQL Gateway / tRPC:统一接口编排
  • Celery / Temporal:异步任务编排

AI / 大模型技术栈

  • LangGraph:Agent 工作流编排
  • LlamaIndex:知识索引与 RAG
  • Pinecone:向量数据库
  • vLLM:高并发推理
  • Whisper / Distil-Whisper:音频识别与结构化
  • Qwen2.5 / Llama 3 / GPT-4o 类模型:解释生成与问答
  • CLIP / BEATs / AST:音频与视觉多模态表征
  • Triton Inference Server:统一部署推理模型

数据与基础设施

  • PostgreSQL
  • MySQL
  • Redis
  • Kafka / Redpanda
  • Docker
  • Kubernetes
  • GitHub Actions
  • OpenTelemetry
  • Grafana + Prometheus
  • Sentry
  • Vercel

七、数据标注平台的核心设计

这一部分是整个项目里最有“AI 产品基础设施”价值的模块。

1. 标注任务流

平台会根据样本类型自动生成不同任务,例如:

  • 宠物叫声情绪分类
  • 行为意图标注
  • 环境上下文补充
  • 视频动作标签
  • 异常样本二次复核

任务会按规则自动分发到不同员工池中,并根据员工熟练度和历史质检得分动态分配。

2. 自动工资计算系统

这是一个很实用的业务设计。
员工完成的工作不是简单按数量结算,而是通过综合规则自动计算:

  • 完成任务数量
  • 任务难度权重
  • 单任务时长
  • 质检通过率
  • 抽检评分
  • 异常返工扣减

这个设计让平台更接近真实运营系统,而不是实验项目。

3. 管理者抽查系统

平台支持管理者从已完成任务中随机抽样,也支持针对某类员工或某类任务做重点质检。
如果抽查发现问题,可以:

  • 驳回任务
  • 要求重标
  • 调整标签
  • 记录质检得分
  • 触发培训或权限收紧

4. 人员变动与权限管理

平台还支持员工入职、离职、冻结、转组、停用等人员状态变更。
当人员发生变化时,系统可以自动迁移未完成任务,避免数据链路中断。

5. 质量闭环

为了提高数据质量,系统引入了多层闭环机制:

  • 多标注员一致性比对
  • 低置信度样本自动回流
  • 高争议样本升级给主管复核
  • 复检结果反向更新标注规则

这一套机制的本质,是把数据生产做成一个可运营、可扩展、可持续优化的系统。


八、用户侧 AI App 的产品设计

相比纯技术实现,我在设计这个 App 时,更关注“AI 如何变成一个用户真正会持续使用的产品”。

1. 用户主流程

用户使用流程大致如下:

  1. 录制或上传宠物声音 / 视频
  2. 系统进行音频切片、特征提取与多模态分析
  3. AI 输出当前情绪、可能行为意图与环境解释
  4. 系统结合宠物历史记录生成更个性化的解释
  5. 用户可进行反馈,例如“解释准确”或“并不符合”
  6. 反馈进入数据回流系统,用于后续训练与优化

2. 核心产品模块

音频与视频采集

支持多种上传方式,包括即时录制、相册导入和短视频抓取。

AI 分析结果页

结果页不会直接输出“宠物在说什么”,而是以更可信的方式表达:

  • 当前情绪概率
  • 可能行为意图
  • 潜在触发因素
  • 建议性照护动作

宠物成长档案

每只宠物都拥有自己的长期行为记录,可以形成时间线和个体画像。

个性化建议系统

结合宠物历史、场景和当前状态,输出更贴近实际养宠需求的建议。

高级会员能力

会员可解锁:

  • 长期行为趋势分析
  • 周报 / 月报
  • 精细化个体画像
  • 异常变化提醒
  • 深度 AI 对话解释

九、AI 工作流设计

这个项目里最有意思的部分之一,是我引入了 Agent + RAG 的方式来提高解释质量。

1. 为什么不用简单模型直接输出?

因为“宠物语言理解”不是单纯分类任务。
如果直接让模型输出一句话,容易出现以下问题:

  • 结果不稳定
  • 可解释性差
  • 容易出现幻觉
  • 很难和用户历史记录结合

所以我采用了更完整的链路。

2. Agent 工作流

一个典型流程如下:

  1. 接收用户上传的音频 / 视频
  2. 做语音切片与多模态特征提取
  3. 调用分类模型生成候选标签
  4. 检索宠物行为知识库和历史案例
  5. 结合宠物个体画像做上下文增强
  6. 由大模型生成自然语言解释
  7. 输出建议动作与风险提醒
  8. 收集用户反馈

3. RAG 的价值

引入 RAG 的原因并不是为了追求“技术潮流”,而是为了解决两个非常实际的问题:

  • 减少大模型编造
  • 提高解释的一致性和专业感

我把宠物行为知识、典型案例、历史问答、用户宠物画像切分成可检索片段,并用向量数据库管理。
这样大模型生成解释前,可以先拿到相关上下文,输出会更加稳定。


十、商业化思路

如果把这个项目继续推进成真正的产品,我认为它的商业路径非常清晰。

1. To C:面向普通用户

面向普通养宠人群,可以做订阅型产品:

  • 基础版:免费上传和基础分析
  • 高级版:深度行为解释、趋势分析、AI 报告
  • 家庭版:多宠物管理、家庭成员共享、长期健康档案

2. To B:面向行业客户

面向宠物服务行业,也有明显空间:

  • 宠物训练机构:行为标签系统与训练辅助分析
  • 宠物医院:行为异常趋势辅助判断
  • 宠物保险:健康和异常监测数据支持
  • 智能硬件厂商:接入宠物项圈、摄像头、喂食器等设备

3. 核心壁垒

这个项目真正的壁垒并不只是 App,而在于:

  • 稀缺的多模态宠物行为数据
  • 可运营的数据标注平台
  • 用户真实反馈形成的数据闭环
  • 个体宠物长期画像
  • 可持续迭代的 AI 工作流

也就是说,它有机会从“一个功能型工具”成长为“一个数据驱动的平台型产品”。


十一、项目难点与思考

1. 宠物行为语义天然模糊

宠物并不会像人类语言一样表达确定含义,因此系统输出必须强调“概率解释”而不是“绝对翻译”。

2. 标注一致性很难保证

同一段宠物声音,不同标注员可能有不同理解,因此必须通过规则设计、质检抽样和回流机制提高一致性。

3. AI 输出必须产品化

模型结果不仅要“技术上看起来合理”,更要让普通用户看得懂、愿意相信、愿意反馈。

4. 真实可用性比炫技更重要

用户并不关心你背后用了多少模型,而更关心结果是否稳定、是否有帮助、是否愿意再次打开这个 App。


十二、如果继续迭代,我会怎么做

如果以后继续把这个项目往更真实的产品方向推进,我会重点做三件事:

产品层

  • 增加家庭多宠物协同管理
  • 加入社区内容与短视频分享机制
  • 加强用户反馈数据的结构化采集

AI 层

  • 引入更强的多模态基础模型
  • 加入偏好优化和用户个体化建模
  • 建立每只宠物的长期记忆 Agent

商业层

  • 推出硬件联名版本
  • 对 B 端开放行为分析 API
  • 建立“订阅 + 数据服务 + 行业合作”的复合商业模式

十三、项目总结

PetLingo AI 这个项目,对我来说最大的价值不只是做了一个功能,而是我尝试把它做成了一个完整的 AI 产品雏形。

我在这个项目中完成了两类很关键的工作:

一类是 内部数据标注平台建设,解决了 AI 产品最核心的数据生产问题;
另一类是 用户侧 App 与 AI 工作流搭建,打通了真实用户使用场景和模型能力落地。

从项目视角看,它包含了:

  • 全栈开发能力
  • AI 产品设计能力
  • 数据闭环思维
  • 业务系统设计能力
  • 商业化思考能力

这也是我认为这个项目最适合放进作品集或博客里的原因:
它足够完整,足够有叙事性,也足够能体现我的综合能力。