糖图分类器(Candy Image Classifier)项目启动!

【项目启动】糖图分类器(CIC)

一、项目背景与动机

在中文互联网语境中,“糖/唐”常被用来形容一种“蠢到令人不适”的内容风格。
在群聊环境中,某些图片或动图(表情包)会显著影响观看体验,甚至影响群友情绪。

目前此类内容的识别主要依赖人工主观判断,缺乏一个系统化、可量化、可复现的技术方案。

因此,我希望构建一个:

输入一张图片或动图 → 输出一个 0-1 之间的“糖置信度”

该分数可以在后续阶段用于机器人策略(如提示、撤回等)。
本阶段仅关注:如何构建一个可靠的“糖图识别模型”。


二、本阶段交付目标

本项目当前阶段将完成三个核心产物:

:one: 糖图 Benchmark

构建一个带标签的数据集:

  • 正样本(PS):糖图
  • 负样本(NS):非糖图
  • 经过基础清洁与去重
  • 固定训练 / 验证 / 测试划分
  • 提供统一评测指标

这是整个项目的核心资产。


:two: Baseline 模型(2–3个)

我们将提供若干可复现的基准方法:

  • Baseline-0:Embedding + KNN(最简单可运行版本)
  • Baseline-1(主baseline):Embedding + 线性分类器(输出概率)
  • (可选)Baseline-2:轻量 CNN 微调版本

所有模型统一输出:

p ∈ [0,1]

作为“糖置信度”。


:three: 标准评测与推理接口

  • 统一训练流程
  • 统一推理接口
  • 固定评测指标(AUC / F1 等)
  • 可扩展为后续刷榜或改进模型的基础

三、整体技术思路(简要)

1. 数据来源

通过 QQ 机器人向群友征集样本:

  • 收集图片 / 表情包 / GIF
  • 人工简单复核
  • 形成 PS / NS 数据集

欢迎大家投稿样本,这是项目能否成功的关键。


2. 模型思路

  • 使用预训练视觉模型提取图像特征
  • 在特征上训练轻量分类器
  • 输出“糖概率”

对于动图(GIF):

  • 抽取关键帧
  • 对每帧进行判断
  • 汇总为一个整体置信度

3. 项目定位

这是一个:

  • 小而完整的 AI 实践项目
  • 具备 benchmark + baseline 的结构
  • 可扩展为更复杂方法(视频模型、多模态、OCR等)

当前阶段目标是:

先做出一个扎实、可复现、结构清晰的基础版本。


四、参与方式

目前项目我计划直接自行开始收集数据并实现baseline

欢迎:

  • 提供样本数据支持
  • 感兴趣的同学参与模型改进
  • 对视觉/多模态有兴趣的同学协作
  • 提出技术建议

即使没有协作者,我也尽量完成该项目;
如果有志同道合的你加入,也许会更有意思!


五、后续规划(简述)

  • 发布 benchmark
  • 公布 baseline 成绩
  • 开放改进空间
  • 探索更复杂模型(作为 future work)

如果你对这个项目感兴趣,或者愿意贡献样本数据请关注这个项目!
本帖将持续更新项目动态, 当有实际产出后, 本项目内容将发至视觉研究所.

各位群友能帮我想个有意思的项目名吗?目前这个CIC也算是初版名字:grinning_face_with_smiling_eyes:

2 个赞

有个很大的问题是,准备收集多少张图片作为训练数据

能收集多少是多少(
反正我现在也没见过多少糖图, 数据样本太少的话大不了就当特判吧, 把正样本惩罚拉高一点。

除了那个很糖的capoo和大多数的奶龙图(值得庆幸的是)我还真就没见过几张糖图
糖的标准也确实因人而异

或许数据集不用全部依靠QQ收集(否则唐图可能真的没多少)

可以从比如:奶龙 高清图片素材 免费下载 - 爱给网

建议把bot扔开甲群(

绝对收获满满

3 个赞

感觉可以用一种基于大模型辅助的数据收集方法,就是bot潜伏在群里收集群友发的表情包,然后由大模型先初筛一次,把绝对正常的图筛掉,后面再人工筛选一次

怎么感觉看过很多这种工作啊…

也许可以先做个 survey

开甲群糖图很多吗

因为这就最基本的图像审查工作((
现在的一个问题在于,我确实没见过多少唐图。我觉得群友能提供的加起来可能也不过十张,还不如特判了(((
目前进展是等等 @fwerkor 的bot, 他正在致力于实现数据收集bot

我不知道

3 个赞

悲报:tx这两天在大量封ai,自动bot基本见光死。

我怕如果有大量的人往里面发表情包,很容易触发人工审查,然后直接死号+个人警告

要不尝试直接从某些抽象群聊中爬取?因为我感觉比起让大家主动提交,自动爬取会更现实一点,外加快速的人工筛选

1 个赞

那就扔开甲群和那几个办事群吧

1 个赞

我觉得可以, 不过可能就是效率低一些
有没有办法快速导出QQ表情包

应该不难,找到缓存路径就行。明天我来试试

一般什么情况下会被封呀:scream:(危)

MC社的那个小壳,有一些固定功能的,可能比较容易被识别,然后被封了,直接帐号状态异常了。

理论上我的Capbot行为上已经和人类用户非常接近了,但还是被封过一天,理由是传播虚假信息(除了帮人打CTF,其它没干啥事啊)。所以感觉比较玄学吧。

十年老账号会相对安全一些(像我这个capbot,一般封不会太久)

2 个赞

gpt把capoo那个凸嘴的也识别成正常图了。感觉现在的大模型唐图识别这方面都很弱

其实我怀疑也许也不是所有人都觉得那图糖… 这可能更偏向一个房规之类的东西, 一种社区共识(
糖图收集怎么样了 :wink:

感觉可以放一个box然后让大家上传一些