V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
NoOneNoBody
V2EX  ›  问与答

有没有什么思路,可以查找不合规的 exif 信息?

  •  
  •   NoOneNoBody · 265 天前 · 839 次点击
    这是一个创建于 265 天前的主题,其中的信息可能已经有所发展或是发生改变。
    主要是针对修改的版权信息,例如拿别人的一张图,修改 copyright 为自己的网站
    目前靠全部 exif 列出来然后目测,效率太低

    由于这些修改信息不定,估计最后一步还是离不开目测
    不过想把其他合规的 exif 在程序过滤,少看一些条目
    第 1 条附言  ·  265 天前
    1.排除非字符串类型数据
    2.找出含有字母或 unicode>=128 的字串,广告需要语义,没有意义的数字和字符,目测也难判断
    3.排除一些常见的带字母的信息,如 exif version ,software 含 photoshop 等
    4.排除仅有 xmp 符合,而没有其他的项目
    修改 xmp 插入广告的一般都会在 XPTitle, XPComment, XPAuthor, XPKeywords, XPSubject 这些项,exif 分析包能单独列出来,仅有 XMP 的情况含广告概率很低

    bytes 类型分析、xmp 分析是一项工程,暂不考虑

    这样基本过滤了九成
    跑了 1k+目录,共 10 多万 jpg ,约十分钟,可以接受,应该用向量化还能优化,抽空再搞
    7 条回复    2023-08-06 19:31:30 +08:00
    tool2d
        1
    tool2d  
       265 天前 via Android   ❤️ 1
    用 chatgpt 啊,把 exif 转换成 json 格式,喂给 gpt ,让 gpt 按照你提供的范例模板进行自动修改,最后再把修改后的 json 重新转回 exif 。
    Yourshell
        2
    Yourshell  
       265 天前   ❤️ 1
    第一步是先定义一下「合规」
    NoOneNoBody
        3
    NoOneNoBody  
    OP
       265 天前
    @tool2d #1
    我是找,不是改
    就是别人改了,我要找出来
    NoOneNoBody
        4
    NoOneNoBody  
    OP
       265 天前
    @Yourshell #2
    例如 曝光率、长宽这些是个数字,即使不准确也算合规
    如果全部能定义,我也不用在这问了,就是 exif 项目太多了
    ztmzzz
        5
    ztmzzz  
       265 天前 via iPhone   ❤️ 1
    @NoOneNoBody 那你只能先过滤一批确定合规的,然后人工看一些加一些规则。一遍遍反复来
    x77
        6
    x77  
       265 天前 via Android   ❤️ 1
    原图的话,可以检查 EXIF 拍照时间和 JPG 文件修改时间,时间不匹配说明文件被改动了。
    akira
        7
    akira  
       265 天前   ❤️ 2
    项目再多,也只有你们自己知道 所谓的“合规”是什么。
    逐个点列出来,分别讨论什么情况下合规,什么情况下不,梳理好逻辑以后,就可以用代码来实现检查逻辑了。

    用 AI 的话,流程也差不多,找出一堆合规的,一堆不合规的,打好标记丢给 AI 去炼丹。好处是不需要你分别讨论,也不需要写太多代码。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   932 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 22:46 · PVG 06:46 · LAX 15:46 · JFK 18:46
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.