V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Aliberter
V2EX  ›  程序员

公司要求做个编辑器,支持输入链接能导入主流平台的文章,这需求怎么实现?

  •  
  •   Aliberter · 332 天前 · 2296 次点击
    这是一个创建于 332 天前的主题,其中的信息可能已经有所发展或是发生改变。

    要支持微信公众号 知乎 b 站 今日头条 这几家文章的,前端传给后端一个链接,后端去解析 html? 然后 html 转 word?转 markdown ?然后怎么返给前端,让前端显示在编辑器里...这个是不是有点难,大佬们

    第 1 条附言  ·  332 天前
    多谢大家!
    16 条回复    2022-03-02 18:16:43 +08:00
    66beta
        1
    66beta  
       332 天前
    洗稿?
    Aliberter
        2
    Aliberter  
    OP
       332 天前
    @66beta 不是 不干违法的吧
    lcy630409
        3
    lcy630409  
       332 天前   ❤️ 1
    应该可以吧
    把文字带 div 直接截取过去,然后把所有的 css 保存下来 生成新的 css 文件 地址也传过去?
    样式肯定不能 100%还原,得手动编辑
    或者只传文字,样式让前台重新编辑?
    janus77
        4
    janus77  
       332 天前   ❤️ 1
    saigo
        5
    saigo  
       332 天前   ❤️ 2
    skiy
        6
    skiy  
       332 天前   ❤️ 1
    这个不难啊。把 URL 提交给后端服务器 API ,API 根据域名判断哪个平台的,CURL 获取该页面的数据,再根据该平台的规则将里面的内容提取出来,加工(可以后端直接加工后返回数据;或者组合成 json 返回给前端,前端自己生成相关格式的数据)
    gadfly3173
        7
    gadfly3173  
       332 天前   ❤️ 1
    这个需求就是写爬虫,解析成你们编辑器用的格式。只是很麻烦,难度可能也就是反爬怎么处理
    murmur
        8
    murmur  
       332 天前   ❤️ 1
    这不就是手动洗稿么
    shapl
        9
    shapl  
       332 天前   ❤️ 1
    @saigo #5 效果不行。感觉这类需求的难点是图片防盗链,各个平台的规则不同。

    xingshu1990
        10
    xingshu1990  
       332 天前   ❤️ 1
    类似 5118 一样,采集多平台指定关键词内容,混编内容用.
    GrayXu
        11
    GrayXu  
       332 天前   ❤️ 1
    [simpread]( https://github.com/Kenshin/simpread)

    > 为了达到完美的阅读模式这个小目标 ,我适配了 数百种类型 的网站,因此诞生了简悦。

    这个工具可以实现你说的输入 html ,给出一个 markdwon 。本质上还是在做类似爬虫的工作。
    chezhe17
        12
    chezhe17  
       332 天前
    @shapl 微信公众号需要自定义规则,因为 DOM 结构特殊,可以参考 https://github.com/Ark-ave/chrome-extention/blob/main/src/chrome/content.ts#L22 ,我之前做书签应用有类似实现,用的是这个库 https://github.com/mixmark-io/turndown 来转 HTML 到 Markdown
    skiy
        13
    skiy  
       332 天前
    @shapl 防盗链大部分都容易解决,基本是基于 refer 来防的。
    shapl
        14
    shapl  
       332 天前
    @skiy #13
    @chezhe17

    学习了。谢谢
    shaojz2005
        15
    shaojz2005  
       331 天前
    很多微信公众号的文章都是用第三方编辑器排版的,自带很多特殊排版格式,思路就是找到公众号文章正文对应的那个 div ,然后整个拿下来放到富文本编辑器里,对文章里的图片做远程下载上传服务器(因为防盗链),就可以了。

    别的平台应该相对简单很多,因为排版格式没那么复杂。
    dany813
        16
    dany813  
       331 天前
    没了解过
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   实用小工具   ·   1082 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 42ms · UTC 00:34 · PVG 08:34 · LAX 16:34 · JFK 19:34
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.