You can edit almost every page by Creating an account. Otherwise, see the FAQ.

Apache OpenNLP

Uit EverybodyWiki Bios & Wiki
Ga naar:navigatie, zoeken


Apache OpenNLP
Ontwikkelaar Apache Software Foundation
Uitgebracht 2004
Status Actief
Besturingssysteem Unix, BSD, Linux, macOS, Windows
Geschreven in Java
Categorie Machinaal leren
Licentie Apache License 2.0
Website (en) Officiële website
Portaal:  Informatica
Vrije software

Apache OpenNLP is een toolkit die Machinaal leren gebruikt voor Natural language processing. Het ondersteunt de meest voorkomende taken in NLP, zoals taaldetectie, tokenisatie, zinssegmentatie, Part-of-speech tagging, named entity extractie, chunking, parsing en coreferentie resolutie. Dit soort taken zijn meestal nodig om meer geavanceerde tekstverwerkingsdiensten te ontwikkelen.

De bibliotheek is geschreven in Java en kan gemakkelijk geïntegreerd worden in Java-projecten of projecten die gebruik maken van de Java Virtual Machine (JVM).[1].

Details[bewerken]

  • Taalidentificatie: de 'LanguageDetector' vereist een getraind model. OpenNLP zelf biedt het volledig getrainde model langdetect-183.bin aan als download. Dit kan 103 talen identificeren.[2].
  • Zinherkenning: De 'SentenceDetector' herkent of een punt het einde van een zin markeert of dat het een andere betekenis heeft. Ook hier is de specificatie van een getraind sjabloon vereist. OpenNLP biedt sjablonen voor verschillende talen, bijvoorbeeld opennlp-nl-ud-alpino-sentence-1.2-2.5.0.bin voor het herkennen van zinnen in Italiaanse teksten.[3].
  • Tokenisatie: de tokenizer verdeelt een tekenreeks in tokens. Tokens zijn meestal woorden, leestekens, getallen, enz.
  • Part-of-speech labelling: OpenNLP heeft een selectie van voorgetrainde sjablonen voor 32 talen (Duits, Engels, Spaans, Portugees, Deens, enz.). Deze sjablonen kunnen gebruikt worden om een tekstcorpus automatisch in één van deze talen te labelen.[4]
  • Extractie van naamentiteiten: De 'TokenNameFinder' kan genoemde entiteiten en getallen in tekst herkennen. Er is een sjabloon nodig om entiteiten te herkennen. Het model is afhankelijk van de taal en het type entiteit waarvoor het getraind is. Het OpenNLP-project biedt een reeks vooraf getrainde modellen die zijn getraind op verschillende vrij beschikbare corpora. Deze kunnen gedownload worden van de template downloadpagina.

Zie ook[bewerken]

Externe link[bewerken]


Dit artikel "Apache OpenNLP" is uit Wikipedia. De lijst van zijn auteurs is te zien in zijn historische   en/of op de pagina Edithistory:Apache OpenNLP.



Read or create/edit this page in another language[bewerken]