【项目启动】糖图分类器(CIC)
一、项目背景与动机
在中文互联网语境中,“糖/唐”常被用来形容一种“蠢到令人不适”的内容风格。
在群聊环境中,某些图片或动图(表情包)会显著影响观看体验,甚至影响群友情绪。
目前此类内容的识别主要依赖人工主观判断,缺乏一个系统化、可量化、可复现的技术方案。
因此,我希望构建一个:
输入一张图片或动图 → 输出一个 0-1 之间的“糖置信度”
该分数可以在后续阶段用于机器人策略(如提示、撤回等)。
本阶段仅关注:如何构建一个可靠的“糖图识别模型”。
二、本阶段交付目标
本项目当前阶段将完成三个核心产物:
糖图 Benchmark
构建一个带标签的数据集:
- 正样本(PS):糖图
- 负样本(NS):非糖图
- 经过基础清洁与去重
- 固定训练 / 验证 / 测试划分
- 提供统一评测指标
这是整个项目的核心资产。
Baseline 模型(2–3个)
我们将提供若干可复现的基准方法:
- Baseline-0:Embedding + KNN(最简单可运行版本)
- Baseline-1(主baseline):Embedding + 线性分类器(输出概率)
- (可选)Baseline-2:轻量 CNN 微调版本
所有模型统一输出:
p ∈ [0,1]
作为“糖置信度”。
标准评测与推理接口
- 统一训练流程
- 统一推理接口
- 固定评测指标(AUC / F1 等)
- 可扩展为后续刷榜或改进模型的基础
三、整体技术思路(简要)
1. 数据来源
通过 QQ 机器人向群友征集样本:
- 收集图片 / 表情包 / GIF
- 人工简单复核
- 形成 PS / NS 数据集
欢迎大家投稿样本,这是项目能否成功的关键。
2. 模型思路
- 使用预训练视觉模型提取图像特征
- 在特征上训练轻量分类器
- 输出“糖概率”
对于动图(GIF):
- 抽取关键帧
- 对每帧进行判断
- 汇总为一个整体置信度
3. 项目定位
这是一个:
- 小而完整的 AI 实践项目
- 具备 benchmark + baseline 的结构
- 可扩展为更复杂方法(视频模型、多模态、OCR等)
当前阶段目标是:
先做出一个扎实、可复现、结构清晰的基础版本。
四、参与方式
目前项目我计划直接自行开始收集数据并实现baseline
欢迎:
- 提供样本数据支持
- 感兴趣的同学参与模型改进
- 对视觉/多模态有兴趣的同学协作
- 提出技术建议
即使没有协作者,我也尽量完成该项目;
如果有志同道合的你加入,也许会更有意思!
五、后续规划(简述)
- 发布 benchmark
- 公布 baseline 成绩
- 开放改进空间
- 探索更复杂模型(作为 future work)
如果你对这个项目感兴趣,或者愿意贡献样本数据请关注这个项目!
本帖将持续更新项目动态, 当有实际产出后, 本项目内容将发至视觉研究所.
各位群友能帮我想个有意思的项目名吗?目前这个CIC也算是初版名字![]()
