當前位置：首頁 > news >簡體>spark 執行 hive sql數據丟失

spark 執行 hive sql數據丟失

news 來源：原創 2025/6/26 7:17:57

spark-sql 丟失數據

1.通過spark執行hive sql 的時候，發現 hive 四條數據，spark 執行結果只有兩條數據
目標對應的兩條數據丟失

select date， user_id， pay from dim.isr_pay_failed where user_id = ‘*******’

hive-sql 結果：
| date | user_id | pay |
| 20250425| d34342343* | 7 |
| 20250425| d34342344* | 7 |
| 202504525| d34342345* | 7 |
| 202504524| d34342346* | 7 |

spark-sql 結果
| 202504525| d34342345* | 7 |
| 202504524| d34342346* | 7 |

原因

表結構很總 user_id 為 CHAR 類型：
CHAR 類型數據在spark 和 hive 中存在如下差異：
Hive 類型 Spark SQL 類型關鍵差異與注意事項
CHAR 不足補空格。建議通過 TRIM() 或改用 VARCHAR 避免填充問題。
TIMESTAMP TimestampType 時區敏感：Hive 默認使用服務器時區，Spark 需通過 spark.sql.session.timeZone
統一配置。

解決方式

select date， user_id， pay from dim.isr_pay_failed where triim(user_id) = ‘*******’;
問題解決

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如若轉載，請注明出處：https://dhexx.cn/hk/5535240.html

如若內容造成侵權/違法違規/事實不符，請聯系我的編程經驗分享網進行投訴反饋，一經查實，立即刪除！

相關文章：

C++11新增標準講解（上）

自制喜悅字貼

推薦算法八股總結

32單片機——基本定時器

邊緣計算服務器

Kubernetes 節點自動伸縮（Cluster Autoscaler）原理與實踐

思爾芯攜手Andes晶心科技，加速先進RISC-V 芯片開發

C++ if語句完全指南：從基礎到工程實踐

systemback復制系統報錯

vb監測Excel兩個單元格變化，達到閾值響鈴

傳統的將自然語言轉化為嵌入向量的核心機制是：，將離散的語言符號轉化為連續的語義向量，其核心依賴“上下文決定語義”的假設和神經網絡的特征提取能力。

MySQL 高級學習篇

# 從底層架構到應用實踐：為何部分大模型在越獄攻擊下失守？

python中的經典視覺模塊：OpenCV(cv2)全面解析

電腦定時關機工具推薦

麒麟v10系統的docker重大問題解決-不支持容器名稱解析

LRU 和 DiskLRU實現相冊緩存器

C++.OpenGL （11/64）材質（Materials）

機器學習筆記【Week7】

《深度體驗 Egg.js：打造企業級 Node.js 應用的全景指南》

李沐《動手學深度學習》d2l安裝教程

C++11 Move Constructors and Move Assignment Operators 從入門到精通

數據庫系統學習

kafka消息積壓排查

CMake GLOB返回路徑規則及示例

spring：實例化類過程中方法執行順序。

gitlab CI/CD本地部署配置

Flask 核心概念速覽：路由、請求、響應與藍圖

Webhook 配置備忘

Ubuntu Cursor升級成v1.0

RabbitMQ入門4.1.0版本（基于java、SpringBoot操作）

基于uniapp+WebSocket實現聊天對話、消息監聽、消息推送、聊天室等功能，多端兼容

Visual Studio 中的 MD、MTD、MDD、MT 選項詳解

【MySQL基礎】數據庫的備份與還原

【Elasticsearch】映射：Nested 類型

動力電池點焊機：驅動電池焊接高效與可靠的核心力量|比斯特自動化

動手學深度學習12.7. 參數服務器-筆記練習（PyTorch）

波士頓房價預測（線性回歸模型）

區塊鏈可投會議CCF A--SP 2026 截止11.13 附錄用率

Unreal從入門到精通之 UE4 vs UE5 VR性能優化實戰

【k8s】k8s集群搭建

網頁端 js 讀取發票里的二維碼信息（圖片和PDF格式）

第二十九章讀寫內部FLASH

windows10搭建nfs服務器

C# 日志管理功能代碼

Spring 團隊詳解：AOT 緩存實踐、JSpecify 空指針安全與支持策略升級

BugKu Web滲透之需要管理員

算法打卡16天

JavaScript 原型與原型鏈：深入理解 __proto__ 和 prototype 的由來與關系

如何用 HTML 展示計算機代碼