使用tika解析各种类型的文本文件 - 代码天地

使用tika解析各种类型的文本文件

企业开发 2018-05-12 02:25:49 阅读次数: 0

1. 导入tika-app-1.5.jar

https://tika.apache.org/download.html

2.1
方法1：


import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.ContentHandler;
import org.xml.sax.SAXException;


public String fileToTxt(File f){
		InputStream is=null;
		try
		{
			Parser parser=new AutoDetectParser();
			is=new FileInputStream(f);
			
			ContentHandler handler=new BodyContentHandler();
			
			ParseContext context=new ParseContext();
			context.set(Parser.class, parser);
			parser.parse(is, handler, new Metadata(), context);

                        for(String name:metadata.names()){
				              System.out.println(name+":"+metadata.get(name));
				
				
			}
			return handler.toString();
		}

IndexUtil util=new IndexUtil();
		 System.out.println(util.fileToTxt(new File("d:/1.doc")));

2.2 方法2:

public String tikaTool(File f){
		Tika tika=new Tika();
		try
		{
			return tika.parseToString(f);
		}
		catch (IOException e)
		{
			
			e.printStackTrace();
		}
		catch (TikaException e)
		{
			
			e.printStackTrace();
		}
		return null;
	}

这个方法很简单。直接就可以返回文本内容。

猜你喜欢

转载自alleni123.iteye.com/blog/2044348

使用tika解析各种类型的文本文件

Android 各种类型的资源文件

各种类型文件头

Xcode9学习笔记69 - 创建各种类型的文件（文本、数组、字典、图片）

Apache tika -- 解析多种类型（word、pdf、txt 等）文件！

各种类型判断

各种类型卷积

oracle解析文本文件

各种类型的指针作业解析（C语言）

Spring MVC源码解析：各种类型Handler的执行

Android中如何使用代码打开各种类型的文件

JAVA + vue 实现各种类型文件上传和下载(直接拷贝就能使用)

intent之打开各种类型文件

Android调用系统应用打开各种类型文件

Android总结打开各种类型的文件方法

swift4--创建各种类型的文件

Linux 各种类型文件压缩、解压

header 头各种类型文件下载

上传文件file各种类型之间的转换

使用qsort函数排序各种类型的数据。

练习使用qsort函数排序各种类型的数据

Spring使用@Value注解各种类型的值

使用FileInputStream 读文本文件

使用JS读取本地文本文件（兼容各种浏览器）

纯JS生成并下载各种文本文件或图片

使用PowerShell比较本地文本文件与Web上的文本文件是否相同

python各种类型转换

MongoDB中各种类型的索引

tk mybatis update 各种类型

各种类型关键字

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)