php使用PdfParser搭配tcpdf解析pdf文件

前几天客户提出一个需求，就是在前台页面搜索文章时，若搜索词在文章附件的pdf文件中有出现的话就要将该文章作为搜索结果。我的思路是后台发布文章时循环检测每一个附件的格式，若附件格式为pdf的话就将里面的文字读取出来追加到一个$string变量里，然后将$string的作为一个file_text字段的信息保存到数据库后面做搜索的时候使用。

我参考的一个回答地址是：https://baijiahao.baidu.com/s?id=1572245039857772&wfr=spider&for=pc

如果你不想那么麻烦想快速使用的话你可以联系我qq：867956984 注明cdsn pdf解析我给你发我整理好的类库你放到ThinkPHP下面的library然后写个方法调用就好了（第一次在这里写文章，不知道怎么上传文件给你们下载,如果你会的话可以私聊教我一下）

$parser = new \Smalot\PdfParser\Parser();
// 调用解析方法，参数为pdf文件路径，返回结果为Document类对象
$document = $parser->parseFile($path);
// 获取所有的页
$pages = $document->getPages();
// // 逐页提取文本
$text = '';
foreach($pages as $page){
$text.= $page->getText();
}
echo $text;

结果如下图，已经把pdf文件里面的文字读取出来了（扫描件合成的pdf因为好像都是图片所以是读不出来内容的，编辑一个doc文件然后输出为pdf文件这样的就可以将文字读取出来），之后要这么处理就看你自己的需求啦~~~~