V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
xueyoucai
V2EX  ›  Python

如何提取文章或者字符串中指定的字符串

  •  
  •   xueyoucai · 2020-07-28 10:18:17 +08:00 · 2267 次点击
    这是一个创建于 1603 天前的主题,其中的信息可能已经有所发展或是发生改变。

    ‘’‘ 山东省烟台市蓬莱市蓬莱市教育和体育局电器设备采购项目成交公告 一、采购人:蓬莱市教育和体育局 地址:蓬莱市海市路 177 号(蓬莱市教育和体育局) 联系方式:0535-5647984(蓬莱市教育和体育局) 采购代理机构:山东金诺建设项目管理有限公司烟台分公司 地址:山东省烟台市莱山县(区)迎春大街 177 号润华大厦 1 号楼 1703a 联系方式:0535-6905395 二、采购项目名称:山东省烟台市蓬莱市蓬莱市教育和体育局电器设备采购项目 采购项目编号(采购计划编号):SDGP370684202002000108 三、公告发布日期:2020 年 7 月 21 日四、成交日期:2020 年 7 月 27 日五、采购方式:竞争性谈判六、成交情况: 标包 货物服务名称 供应商名称 地址 成交结果 A 山东省烟台市蓬莱市蓬莱市教育和体育局电器设备采购项目 山东新华书店集团有限公司 山东省济南市市中区英雄山路 189 号 15.28 万元 七、采购小组成员名单:标包 A:谭莉、刘青志、景仕壮八、公告期限:2020 年 7 月 29 日 至 2020 年 7 月 29 日九、采购项目联系方式: 联系人:张婷婷 联系方式:0535-6905395 十一、未中标(成交)供应商的未中标(成交)原因:1 、蓬莱渤海电子科技有限公司:评审得分较低(其他情形本项目采用最低评标价法,报价高导致未中标) 2 、蓬莱市远望电脑网络工程有限公司:评审得分较低(其他情形本项目采用最低评标价法,报价高导致未中标) 3 、烟台雅瑞商贸有限公司:评审得分较低(其他情形本项目采用最低评标价法,报价高导致未中标) 4 、烟台钟金商贸有限公司:评审得分较低(其他情形本项目采用最低评标价法,报价高导致未中标) 5 、龙口军浩办公设备有限公司:评审得分较低(其他情形本项目采用最低评标价法,报价高导致未中标) ’‘’

    文章如上所示 我想提取文章中的代理机构,中标机构 ,项目名称等信息 有没有好用的分析方法或者好用的库

    8 条回复    2020-08-19 14:47:55 +08:00
    iv8d
        1
    iv8d  
       2020-07-28 10:29:40 +08:00
    个人觉得 zz 可能简单些
    mumbler
        2
    mumbler  
       2020-07-28 10:30:08 +08:00 via Android
    以未中标企业为分界线先将文本区域划出来两个区域,中标企业会出现在未中标企业之前的文本里,剩下文本出现公司就是未中标企业,在这两个文本区域再搜索公司名

    公司名称可以提取“:”或者“、”与“公司”之间的字符,就是公司名称,出现在中标文本区就是中标企业,出现在未中标文本区就未中标企业
    araraloren
        3
    araraloren  
       2020-07-28 10:35:34 +08:00
    这种文章只能分析所有的可能性来提取,人写的东西很容易有多种不同的表达或者格式。。
    xueyoucai
        4
    xueyoucai  
    OP
       2020-07-28 10:40:39 +08:00
    @araraloren 所以就是 很复杂的 对吗
    wagjia
        5
    wagjia  
       2020-07-28 11:38:40 +08:00
    用正则表达式可以试试 可以按照关键字来取 比如代理机构:到地址: 可以取中间的内容,前提是这些都是固定的文书
    SakuraSa
        6
    SakuraSa  
       2020-07-28 11:39:44 +08:00
    感觉是要做 NLP 领域的 实体识别 /实体抽取
    腾讯、阿里、百度之类大厂应该都有付费的 api
    Merlini
        7
    Merlini  
       2020-07-28 11:42:01 +08:00 via Android
    正则加上 named entity recognition 是一种思路。
    mfanming
        8
    mfanming  
       2020-08-19 14:47:55 +08:00
    @mumbler 这种中标信息,每个省都有不同的标书模板,即使是省内也会不同(有些省不要求,那就看代理公司用什么模板了)。
    感觉是不复杂,但会非常麻烦。我想楼哦著没有自己搞是因为这个
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3423 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 11:38 · PVG 19:38 · LAX 03:38 · JFK 06:38
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.