xchiminer 发表于 2024-12-24 17:41:07

有做tg聊天记录采集并投喂给大模型的开源项目不?

主要痛点是:

1.不想群聊,9成废话,但不到0.1成的信息又超级有用。减少走弯路。
总结:有用信息的获取成本高昂,与时间正相关。特别一天1w+讨论的群组。

2.采集信息,投喂给比如LLAMA3,训练他给出日报,周报,月报。合并同类项,权重,时间推移,关联度等。
总结:这样可以列表,将主题做缩进查看。权重来置顶相关话题。过滤垃圾主题。比如N26开户,通过时间过滤,可以查看到最新政策和坑点。

3.标记大神,让ai来判断人品。
总结:平时因为一个网友发了一个很有用的信息,但对此人没有太多背调,所以贸然接触可能会上当受骗。让ai自动对他的发言进行采集,从对话进行性格推断,增加可信度辨识率。

大体是这样,当然后面还想有一些完善的,不知道有没有轮子,没有就先记录记录了。

callmefeifei 发表于 2024-12-24 17:49:59

某研究所已经做了

rrw 发表于 2024-12-24 17:54:48

。。。 是不是把ai 想的 过于ai 了

xchiminer 发表于 2024-12-24 17:54:56


callmefeifei 发表于 2024-12-24 17:49

某研究所已经做了
求明示,只想做用户,并不想自己搞轮子。

callmefeifei 发表于 2024-12-24 17:49:00


xchiminer 发表于 2024-12-24 17:54

求明示,只想做用户,并不想自己搞轮子。
1、制作识别模型(收集数据集、标注、训练出模型)
2、收集TG数据
3、用模型来识别TG数据,给人打标注,用一套算法来计算这些标注的权重,然后出分析报告。

xchiminer 发表于 2024-12-24 17:57:15


rrw 发表于 2024-12-24 17:54

。。。 是不是把ai 想的 过于ai 了
这些都是数据分析,还没上到行为模拟,ai已经很ai了,比如谷歌早4月份就出了浏览器拟人化。
我说的这些已经是相当简单的text应用了。
页: [1]
查看完整版本: 有做tg聊天记录采集并投喂给大模型的开源项目不?