spark 執行 hive sql數據丟失

spark-sql 丟失數據

1.通過spark執行hive sql 的時候,發現 hive 四條數據,spark 執行結果只有兩條數據
目標對應的兩條數據丟失

select date, user_id, pay from dim.isr_pay_failed where user_id = ‘*******’

hive-sql 結果:
| date | user_id | pay |
| 20250425| d34342343* | 7 |
| 20250425| d34342344* | 7 |
| 202504525| d34342345* | 7 |
| 202504524| d34342346* | 7 |

spark-sql 結果
| 202504525| d34342345* | 7 |
| 202504524| d34342346* | 7 |

原因

表結構很總 user_id 為 CHAR 類型:
CHAR 類型數據在spark 和 hive 中存在如下差異:
Hive 類型 Spark SQL 類型 關鍵差異與注意事項
CHAR 不足補空格。建議通過 TRIM() 或改用 VARCHAR 避免填充問題。
TIMESTAMP TimestampType 時區敏感:Hive 默認使用服務器時區,Spark 需通過 spark.sql.session.timeZone
統一配置。

解決方式

select date, user_id, pay from dim.isr_pay_failed where triim(user_id) = ‘*******’;
問題解決

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處:https://dhexx.cn/hk/5535240.html

如若內容造成侵權/違法違規/事實不符,請聯系我的編程經驗分享網進行投訴反饋,一經查實,立即刪除!


相關文章:

  • C++11新增標準講解(上)
  • 自制喜悅字貼
  • 推薦算法八股總結
  • 32單片機——基本定時器
  • 邊緣計算服務器
  • Kubernetes 節點自動伸縮(Cluster Autoscaler)原理與實踐
  • 思爾芯攜手Andes晶心科技,加速先進RISC-V 芯片開發
  • C++ if語句完全指南:從基礎到工程實踐
  • systemback復制系統報錯
  • vb監測Excel兩個單元格變化,達到閾值響鈴
  • 傳統的將自然語言轉化為嵌入向量的核心機制是:,將離散的語言符號轉化為連續的語義向量,其核心依賴“上下文決定語義”的假設和神經網絡的特征提取能力。
  • MySQL 高級學習篇
  • # 從底層架構到應用實踐:為何部分大模型在越獄攻擊下失守?
  • python中的經典視覺模塊:OpenCV(cv2)全面解析
  • 電腦定時關機工具推薦
  • 麒麟v10系統的docker重大問題解決-不支持容器名稱解析
  • LRU 和 DiskLRU實現相冊緩存器
  • C++.OpenGL (11/64)材質(Materials)
  • 機器學習筆記【Week7】
  • 《深度體驗 Egg.js:打造企業級 Node.js 應用的全景指南》
  • 李沐《動手學深度學習》d2l安裝教程
  • C++11 Move Constructors and Move Assignment Operators 從入門到精通
  • 數據庫系統學習
  • kafka消息積壓排查
  • CMake GLOB返回路徑規則及示例
  • spring:實例化類過程中方法執行順序。
  • gitlab CI/CD本地部署配置
  • Flask 核心概念速覽:路由、請求、響應與藍圖
  • Webhook 配置備忘
  • Ubuntu Cursor升級成v1.0
  • RabbitMQ入門4.1.0版本(基于java、SpringBoot操作)
  • 基于uniapp+WebSocket實現聊天對話、消息監聽、消息推送、聊天室等功能,多端兼容
  • Visual Studio 中的 MD、MTD、MDD、MT 選項詳解
  • 【MySQL基礎】數據庫的備份與還原
  • 【Elasticsearch】映射:Nested 類型
  • 動力電池點焊機:驅動電池焊接高效與可靠的核心力量|比斯特自動化
  • 動手學深度學習12.7. 參數服務器-筆記練習(PyTorch)
  • 波士頓房價預測(線性回歸模型)
  • 區塊鏈可投會議CCF A--SP 2026 截止11.13 附錄用率
  • Unreal從入門到精通之 UE4 vs UE5 VR性能優化實戰
  • 【k8s】k8s集群搭建
  • 網頁端 js 讀取發票里的二維碼信息(圖片和PDF格式)
  • 第二十九章 讀寫內部FLASH
  • windows10搭建nfs服務器
  • C# 日志管理功能代碼
  • Spring 團隊詳解:AOT 緩存實踐、JSpecify 空指針安全與支持策略升級
  • BugKu Web滲透之需要管理員
  • 算法打卡16天
  • JavaScript 原型與原型鏈:深入理解 __proto__ 和 prototype 的由來與關系
  • 如何用 HTML 展示計算機代碼