都说现在 ai 写代码厉害，但是我聊了半天也没法让 ai 正确处理一个独立的小需求

1 天前

TWorldIsNButThis

用 Java 的 PDFBox 提取出电子 f 票（铁路电子客票）上的 f 票标题、购买方名称、f 票号码等信息

原因是 f 票 pdf 里有个盖章，这个盖章和电子 f 票（铁路电子客票）这几个字在视觉上是重叠在一起的，导致直接根据区域提取文本会提取出错乱的文字

但是我发现直接用浏览器打开 pdf ，选中的文字时候，可以正确选中电子 f 票（铁路电子客票）这几个字

我问 ai 这个盖章是什么，它一会说是 PDImage ，一会说是 PDFORM ，给出了两个提取代码跑下来都是错的

我直接问怎么处理盖章，它给我发了一段 python 调 opencv 的纯视觉方案。。

还有上次用 poi 处理 excel ，想让图片变成嵌入到单元格，我特意转成英文版 excel 找到 excel 图片嵌入到单元格操作的原文去问也没用，回答都是错的

缩写是因为提示：发布这个内容需要你已经注册满 2025 天

1061 次点击

所在节点

GitHub Copilot

17 条回复

edgar51774

1 天前

让他写一个，然后参考

TWorldIsNButThis

1 天前

@edgar51774 写的都没法用啊

estk

1 天前

4o 不行，要 o1

min

1 天前

让大模型写前大模型时代的代码，
去解决多模态大模型可以轻松搞定的问题？

bjzhou1990

1 天前

提问是一门艺术

jifengg

1 天前

回到你最初的问题。那些文字能选中，和你说到“盖章”是什么完全没关系，那个章 99.999%就是一张图片嵌入到 png 中。至于为何能选中文字。起始也是 pdf 还有一层文本层（但是是透明的），你选中的是那层文本层，它叠在你看到的文字上，看起来就像是选中了你看到的文字。
效果你可以参考：win 微信打开一张包含文字的图片，在上面选择 ocr 出来的文字的效果。
有些 pdf 看着明明是扫描版的，但是文字可以选择，也是这么来的。

tyrone2333

1 天前

f 票发票打出来犯法吗

bk201

1 天前

没觉得厉害，单纯让它做一些体力活

hahastudio

1 天前

@tyrone2333 看完帖子再回复犯法么

FishNaCl

1 天前

我印象里电子发票的盖章是在 pdf 的注释层里面的，和发票不在一个图层，理论上是可以在 ocr 之前直接在程序上直接去掉盖章的

因为经常打印电子发票的时候，会发现打印出来没有那个章，经别人指点才发现要把“打印注释”勾选上才行。

tankeco

1 天前

话说，为啥不扫发票上的二维码

TWorldIsNButThis

1 天前

最新消息：还是自己手动用按面积提取的方式做了

然后晚上喜提 n+1

night98

23 小时 27 分钟前

@TWorldIsNButThis #12 你这太 6 了，办法刚想出来了被裁了？

ly841000

23 小时 14 分钟前

都是吹出来的，反正我的工作是完全没法用，修改他的 BUG 时间比自己动手还慢

thingingWoods

23 小时 9 分钟前

@TWorldIsNButThis NB

TWorldIsNButThis

22 小时 56 分钟前

@night98 倒没有因果关系，只是纯粹的时间上的先后 hhh

wnpllrzodiac

10 小时 56 分钟前

写 helloworld 一吧刷子

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1103488

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.