CaLMQA: Exploring culturally specific long-form question answering across 23 languages

Shane Arora, Marzena Karpinska, Hung-Ting Chen, Ipsita Bhattacharjee, Mohit Iyyer, Eunsol Choi·June 25, 2024

Summary

The CaLMQA dataset, a multilingual long-form QA resource in 23 languages, addresses the scarcity of non-English research. It reveals that large language models struggle with low-resource languages and culturally nuanced questions, particularly affecting Tswana, Tongan, and Afar. The study introduces the CALM-Score metric to evaluate performance. Human assessments show that models often lack factual accuracy, omit important details, and exhibit language inconsistencies, emphasizing the need for more research on multilingual LLMs and culturally diverse QA. The table comparing three AI models (CLAUDE-3-OPUS, GPT-4-TURBO, and MIXTRAL-8X22B) reveals factuality issues, with GPT-4-TURBO having more illogical and irrelevant responses, MIXTRAL-8X22B showing hallucinations and cultural missteps, and CLAUDE-3-OPUS excelling in culturally specific questions. Overall, the paper underscores the importance of cultural awareness in AI systems and the need for improved performance across languages.

Key findings

Tables

Introduction

Background

Scarcity of Non-English Resources

The lack of multilingual QA datasets in various languages

Impact on Low-Resource Languages

Challenges faced by LLMs in Tswana, Tongan, and Afar

Objective

Introducing CaLMQA Dataset

Multilingual QA resource in 23 languages

CALM-Score Metric

Development and evaluation of model performance

Method

Data Collection

Dataset Creation

Multilingual long-form question-answer pairs

Language Coverage

Inclusion of 23 diverse languages

Data Preprocessing

Data Cleaning

Removing noise and inconsistencies

Annotation Process

Human assessments for factual accuracy and cultural nuances

Model Analysis

AI Models Evaluated

CLAUDE-3-OPUS

Performance in culturally specific questions

GPT-4-TURBO

Factuality issues, illogical and irrelevant responses

MIXTRAL-8X22B

Hallucinations, cultural missteps, and limitations

Results and Findings

Model Performance Analysis

Factuality Comparison

GPT-4-TURBO's shortcomings

Cultural Awareness

MIXTRAL-8X22B's cultural missteps

Strengths and Weaknesses

CLAUDE-3-OPUS as a standout

Implications and Future Directions

Cultural Sensitivity in AI

The need for culturally aware systems

Research Priorities

Multilingual LLMs and QA improvements

Directions for Developers

Recommendations for enhancing model performance across languages

Conclusion

The CaLMQA Dataset's Significance

Addressing language gaps in QA research

Call to Action

Encouragement for further research and development in multilingual AI.

Basic info

papers

computation and language

machine learning

artificial intelligence

Advanced features